Voordat je gaat verhuizen ruim je ook eerst je spullen op en gooi je weg wat weg kan. Als je gaat
samenwonen bepaal je ook eerst wie zijn of haar bankstel meeneemt en welke bank op Marktplaats gaat. De te verhuizen spullen gaan in dozen die voorzien worden van stikkers: ‘Slaapkamer’,
‘Zolder’, ‘Keuken’, etc. Nadat de vrachtwagen is uitgeladen begint het uitpakken en inrichten. Het duurt soms nog weken voordat je goed bent ingericht. En die ene doos op zolder wordt misschien zelfs helemaal niet meer uitgepakt.
Zo is het ook met datamigraties. In ieder systeem ontstaan in de loop der jaren datafouten. Deze wil je niet zomaar meenemen naar je nieuwe systeem. De werking van dit nieuwe en meestal ook dure systeem komt in gevaar door er onjuiste of onvolledige gegevens in te laden. Het gevolg daarvan is dat de bedrijfsprocessen, die door dit nieuwe systeem ondersteund moeten worden, niet goed uitgevoerd kunnen worden. Het risico bestaat dat het nieuwe systeem veel strenger is op datakwaliteit en niet overweg kan met foutieve data, terwijl het oude systeem daar misschien minder probleem mee had. Dergelijke problemen kunnen soms nog geruime tijd na de
datamigratie aan het licht komen.
Dus vóór de datamigratie willen we zoveel mogelijk de zaak op orde hebben. Daarbij gaat de aandacht natuurlijk naar de gegevens die meegaan naar het nieuwe systeem en waarvan we
weten – of het vermoeden bestaat – dat slechte datakwaliteit verstorend is voor de datamigratie zelf of voor de werking van het systeem en de processen. Dit veronderstelt dat er al enige kennis is, hoe summier dan ook, over (de bedoelingen van het ) nieuwe systeem en de datamigratie.
Vaak gebeurt dat op basis van impliciete aannames. Het is daarentegen beter om die aannames van meet af aan expliciet te maken door bijvoorbeeld een eerste houtskoolschets van de datamigratie te tekenen en daarbij lijsten te maken van welke gegevens zeker meegaan, misschien meegaan en zeker niet mee gaan. In feite begint het datamigratietraject daarmee al in een heel vroeg stadium. Naarmate het traject vordert wordt deze schets steeds definitiever en gedetailleerder. Zo groeit ook gaandeweg het inzicht in de uit te voeren schoningsacties. Vooraf kunnen we nog niet uitputtend zijn in het definiëren van deze schoningsacties. Naarmate de kennis over doelsystemen, bronsystemen en datamigratie groeit ontstaat ook meer duidelijkheid welke acties moeten worden
uitgevoerd om de brongegevens op het minimaal vereiste kwaliteitsniveau te brengen.
samenwonen bepaal je ook eerst wie zijn of haar bankstel meeneemt en welke bank op Marktplaats gaat. De te verhuizen spullen gaan in dozen die voorzien worden van stikkers: ‘Slaapkamer’,
‘Zolder’, ‘Keuken’, etc. Nadat de vrachtwagen is uitgeladen begint het uitpakken en inrichten. Het duurt soms nog weken voordat je goed bent ingericht. En die ene doos op zolder wordt misschien zelfs helemaal niet meer uitgepakt.
Zo is het ook met datamigraties. In ieder systeem ontstaan in de loop der jaren datafouten. Deze wil je niet zomaar meenemen naar je nieuwe systeem. De werking van dit nieuwe en meestal ook dure systeem komt in gevaar door er onjuiste of onvolledige gegevens in te laden. Het gevolg daarvan is dat de bedrijfsprocessen, die door dit nieuwe systeem ondersteund moeten worden, niet goed uitgevoerd kunnen worden. Het risico bestaat dat het nieuwe systeem veel strenger is op datakwaliteit en niet overweg kan met foutieve data, terwijl het oude systeem daar misschien minder probleem mee had. Dergelijke problemen kunnen soms nog geruime tijd na de
datamigratie aan het licht komen.
Dus vóór de datamigratie willen we zoveel mogelijk de zaak op orde hebben. Daarbij gaat de aandacht natuurlijk naar de gegevens die meegaan naar het nieuwe systeem en waarvan we
weten – of het vermoeden bestaat – dat slechte datakwaliteit verstorend is voor de datamigratie zelf of voor de werking van het systeem en de processen. Dit veronderstelt dat er al enige kennis is, hoe summier dan ook, over (de bedoelingen van het ) nieuwe systeem en de datamigratie.
Vaak gebeurt dat op basis van impliciete aannames. Het is daarentegen beter om die aannames van meet af aan expliciet te maken door bijvoorbeeld een eerste houtskoolschets van de datamigratie te tekenen en daarbij lijsten te maken van welke gegevens zeker meegaan, misschien meegaan en zeker niet mee gaan. In feite begint het datamigratietraject daarmee al in een heel vroeg stadium. Naarmate het traject vordert wordt deze schets steeds definitiever en gedetailleerder. Zo groeit ook gaandeweg het inzicht in de uit te voeren schoningsacties. Vooraf kunnen we nog niet uitputtend zijn in het definiëren van deze schoningsacties. Naarmate de kennis over doelsystemen, bronsystemen en datamigratie groeit ontstaat ook meer duidelijkheid welke acties moeten worden
uitgevoerd om de brongegevens op het minimaal vereiste kwaliteitsniveau te brengen.
Daar waar de inhoud van de attributen tot uitval leidt, moet er een besluit genomen worden hoe verder te gaan:
Mogelijkheden:
· Handmatig of automatisch aanpassen zodat attribuut wel de juiste waarde bevat
· Validatie aanpassen zodat de werkelijke waarde niet meer tot uitval leidt, en de werkelijke
waarde doorgaat naar doelsysteem
Het schonen van data kan handmatig of geautomatiseerd worden uitgevoerd. Handmatige schoning gebeurt bij voorkeur in de bronsystemen. Hierdoor vormen deze geschoonde gegevens een geïntegreerd onderdeel van de data. Vaak is het tijdrovend en is gebruikerscapaciteit een beperkende factor. Het liefst worden deze verbeteracties uitgevoerd door de gebruikers die direct belang hebben bij de verbeterde kwaliteit. Mogelijk kunnen sommige acties door uitzendkrachten worden gedaan, hopelijk onder toezicht van key users. Bij een handmatig schoningstraject zijn vaak veel mensen betrokken. Het risico is dan groot dat niet meer duidelijk is wat er gedaan moet worden en wie wat al gedaan heeft. Dit vraagt om een gestructureerde aanpak met centrale
coördinatie en monitoring, gevoed met informatie vanuit het datamigratieproces.
Een ander deel van de kwaliteitsverbeterende maatregelen kan automatisch plaatsvinden. Dit wordt ook wel ‘verrijking’ genoemd. Op de keper beschouwd zijn het datatransformaties, bijvoorbeeld het aanbrengen van de juiste formaten van een telefoonnummer of het automatisch opzoeken en completeren van een postcode. In dergelijke gevallen kan gebruik gemaakt worden van een extra bron die aan de datamigratie wordt toegevoegd.
Er bestaat ook een mengvorm waarbij geautomatiseerd voorstellen gedaan worden voor dataverbetering / verrijking en waarbij de gebruiker beslist om de voorstellen al dan niet over te
nemen. Op basis van de keuze van de gebruiker kan het automatische proces verder voortgezet worden. Ook deze mengvorm kan prima opgenomen worden in het datamigratieproces.
Het matchen van gegevens uit verschillende bronsystemen en het ontdubbelen van gegevens zijn vormen van schoning/verrijking waarvoor de mengvorm vaak wordt toegepast. Stel men heeft
klantgegevens in verschillende bronsystemen en waarschijnlijk bevatten sommige systemen ook meer registraties van dezelfde klant. Op basis van een aantal kenmerken worden de klantgegevens met elkaar vergeleken en kan men voorstellen doen voor de beslissingen die de gebruiker moet nemen. Dit zijn beslissingen in de trant van: klant met klantnummer 123 in systeem A is dezelfde persoon als klant met klantnummer 687 in systeem B.
Op basis van overeenkomstige kenmerken wordt een waarschijnlijkheidsgetal toegekend. Aan de hand hiervan kunnen de te nemen beslissingen in verschillende categorieën worden ingedeeld.
Bijvoorbeeld:
· Hoogstwaarschijnlijke overeenkomst van klantgegevens
· Waarschijnlijke overeenkomst
· Vermoedelijke overeenkomst
Iedere categorie vergt een andere afhandeling. In de eerste categorie doet men slechts steekproeven. En in de laatste categorie wordt alles intensief gecontroleerd.
Behalve de matching zelf moeten ook afspraken worden gemaakt over welke kenmerken uit welk record overgenomen worden naar het doelsystem. Deze kenmerken vormen samen het zogenaamde ‘Golden Record’.
Het verbeteren van datakwaliteit doet men niet alleen om de datamigratie soepel te laten verlopen
maar kan ook in de huidige processen tot verbeteringen leiden en die op korte termijn al een gunstige financieel effect hebben.
Mogelijkheden:
· Handmatig of automatisch aanpassen zodat attribuut wel de juiste waarde bevat
· Validatie aanpassen zodat de werkelijke waarde niet meer tot uitval leidt, en de werkelijke
waarde doorgaat naar doelsysteem
Het schonen van data kan handmatig of geautomatiseerd worden uitgevoerd. Handmatige schoning gebeurt bij voorkeur in de bronsystemen. Hierdoor vormen deze geschoonde gegevens een geïntegreerd onderdeel van de data. Vaak is het tijdrovend en is gebruikerscapaciteit een beperkende factor. Het liefst worden deze verbeteracties uitgevoerd door de gebruikers die direct belang hebben bij de verbeterde kwaliteit. Mogelijk kunnen sommige acties door uitzendkrachten worden gedaan, hopelijk onder toezicht van key users. Bij een handmatig schoningstraject zijn vaak veel mensen betrokken. Het risico is dan groot dat niet meer duidelijk is wat er gedaan moet worden en wie wat al gedaan heeft. Dit vraagt om een gestructureerde aanpak met centrale
coördinatie en monitoring, gevoed met informatie vanuit het datamigratieproces.
Een ander deel van de kwaliteitsverbeterende maatregelen kan automatisch plaatsvinden. Dit wordt ook wel ‘verrijking’ genoemd. Op de keper beschouwd zijn het datatransformaties, bijvoorbeeld het aanbrengen van de juiste formaten van een telefoonnummer of het automatisch opzoeken en completeren van een postcode. In dergelijke gevallen kan gebruik gemaakt worden van een extra bron die aan de datamigratie wordt toegevoegd.
Er bestaat ook een mengvorm waarbij geautomatiseerd voorstellen gedaan worden voor dataverbetering / verrijking en waarbij de gebruiker beslist om de voorstellen al dan niet over te
nemen. Op basis van de keuze van de gebruiker kan het automatische proces verder voortgezet worden. Ook deze mengvorm kan prima opgenomen worden in het datamigratieproces.
Het matchen van gegevens uit verschillende bronsystemen en het ontdubbelen van gegevens zijn vormen van schoning/verrijking waarvoor de mengvorm vaak wordt toegepast. Stel men heeft
klantgegevens in verschillende bronsystemen en waarschijnlijk bevatten sommige systemen ook meer registraties van dezelfde klant. Op basis van een aantal kenmerken worden de klantgegevens met elkaar vergeleken en kan men voorstellen doen voor de beslissingen die de gebruiker moet nemen. Dit zijn beslissingen in de trant van: klant met klantnummer 123 in systeem A is dezelfde persoon als klant met klantnummer 687 in systeem B.
Op basis van overeenkomstige kenmerken wordt een waarschijnlijkheidsgetal toegekend. Aan de hand hiervan kunnen de te nemen beslissingen in verschillende categorieën worden ingedeeld.
Bijvoorbeeld:
· Hoogstwaarschijnlijke overeenkomst van klantgegevens
· Waarschijnlijke overeenkomst
· Vermoedelijke overeenkomst
Iedere categorie vergt een andere afhandeling. In de eerste categorie doet men slechts steekproeven. En in de laatste categorie wordt alles intensief gecontroleerd.
Behalve de matching zelf moeten ook afspraken worden gemaakt over welke kenmerken uit welk record overgenomen worden naar het doelsystem. Deze kenmerken vormen samen het zogenaamde ‘Golden Record’.
Het verbeteren van datakwaliteit doet men niet alleen om de datamigratie soepel te laten verlopen
maar kan ook in de huidige processen tot verbeteringen leiden en die op korte termijn al een gunstige financieel effect hebben.