Transcriptum
  • Home
  • Dienstverlening
    • Datakwaliteit
    • Datamigratie
    • Master Data Management
    • Documenten
    • Privacy en Security
    • Data-architectuur
    • Data Governance
  • Wie zijn wij?
  • Blog
  • Contact

Dataschoning en datamatching

3/5/2013

0 Comments

 
Voordat je gaat verhuizen ruim je ook eerst je spullen op en gooi je weg wat weg kan. Als je gaat
samenwonen bepaal je ook eerst wie zijn of haar bankstel meeneemt en welke bank op Marktplaats gaat. De te verhuizen spullen gaan in dozen die voorzien worden van stikkers: ‘Slaapkamer’,
‘Zolder’, ‘Keuken’, etc. Nadat de vrachtwagen is uitgeladen begint het uitpakken en inrichten. Het duurt soms nog weken voordat je goed bent ingericht. En die ene doos op zolder wordt misschien zelfs helemaal niet meer uitgepakt.

Zo is het ook met datamigraties. In ieder systeem ontstaan in de loop der jaren datafouten. Deze  wil je niet zomaar meenemen naar je nieuwe systeem. De werking van dit nieuwe en meestal ook dure systeem komt in gevaar door er onjuiste of onvolledige gegevens in te laden. Het gevolg daarvan is dat de bedrijfsprocessen, die door dit nieuwe systeem ondersteund moeten worden, niet goed uitgevoerd kunnen worden. Het risico bestaat dat het nieuwe systeem veel strenger is op  datakwaliteit en niet overweg kan met foutieve data, terwijl het oude systeem daar misschien minder probleem mee had. Dergelijke problemen kunnen soms nog geruime tijd na de
datamigratie aan het licht komen.

Dus vóór de datamigratie willen we zoveel mogelijk de zaak op orde hebben. Daarbij gaat de aandacht natuurlijk naar de gegevens die meegaan naar het nieuwe systeem en waarvan we
weten – of het vermoeden bestaat – dat slechte datakwaliteit verstorend is voor de datamigratie zelf of voor de werking van het systeem en de processen. Dit veronderstelt dat er al enige kennis is, hoe summier dan ook, over (de bedoelingen van het ) nieuwe systeem en de datamigratie.
Vaak gebeurt dat op basis van impliciete aannames. Het is daarentegen beter om die aannames van meet af aan expliciet te maken door bijvoorbeeld een eerste houtskoolschets van de datamigratie te tekenen en daarbij lijsten te maken van welke gegevens zeker meegaan, misschien meegaan en zeker niet mee gaan. In feite begint het datamigratietraject daarmee al in een heel vroeg stadium. Naarmate het traject vordert wordt deze schets steeds definitiever en gedetailleerder. Zo groeit ook gaandeweg het inzicht in de uit te voeren schoningsacties. Vooraf kunnen we nog niet uitputtend zijn in het definiëren van deze schoningsacties. Naarmate de kennis over doelsystemen, bronsystemen en datamigratie groeit ontstaat ook meer duidelijkheid welke acties moeten worden
uitgevoerd om de brongegevens op het minimaal vereiste kwaliteitsniveau te brengen. 
Daar waar de inhoud van de attributen tot uitval leidt, moet er een besluit genomen worden hoe verder te gaan:

Mogelijkheden:
 ·        Handmatig of automatisch aanpassen zodat attribuut wel de juiste waarde bevat
 ·        Validatie aanpassen zodat de werkelijke waarde niet meer tot uitval leidt, en de werkelijke
          waarde doorgaat naar doelsysteem 
 
Het schonen van data kan handmatig of geautomatiseerd worden uitgevoerd. Handmatige schoning gebeurt bij voorkeur in de bronsystemen. Hierdoor vormen deze geschoonde gegevens een geïntegreerd onderdeel van de data. Vaak is het tijdrovend en is gebruikerscapaciteit een beperkende factor. Het liefst worden deze verbeteracties uitgevoerd door de gebruikers die direct belang hebben bij de verbeterde kwaliteit. Mogelijk kunnen sommige acties door uitzendkrachten  worden gedaan, hopelijk onder toezicht van key users.  Bij een handmatig schoningstraject zijn vaak veel mensen betrokken. Het risico is dan groot dat niet meer duidelijk is wat er gedaan moet worden en wie wat al gedaan heeft. Dit vraagt om een gestructureerde aanpak met centrale
coördinatie en monitoring, gevoed met informatie vanuit het datamigratieproces.

Een ander deel van de kwaliteitsverbeterende maatregelen kan automatisch plaatsvinden. Dit wordt ook wel ‘verrijking’ genoemd. Op de keper beschouwd zijn het datatransformaties, bijvoorbeeld het aanbrengen van de juiste formaten van een telefoonnummer of het automatisch opzoeken en completeren van een postcode. In dergelijke gevallen kan gebruik gemaakt worden van een extra bron die aan de datamigratie wordt toegevoegd. 

Er bestaat ook een mengvorm waarbij geautomatiseerd voorstellen gedaan worden voor dataverbetering / verrijking en waarbij de gebruiker beslist om de voorstellen al dan niet over te
nemen. Op basis van de keuze van de gebruiker kan het automatische proces verder voortgezet worden. Ook deze mengvorm kan prima opgenomen worden in het datamigratieproces.

Het matchen van gegevens uit verschillende bronsystemen en het ontdubbelen van gegevens zijn vormen van schoning/verrijking waarvoor de mengvorm vaak wordt toegepast. Stel men heeft
klantgegevens in verschillende bronsystemen en waarschijnlijk bevatten sommige systemen ook meer registraties van dezelfde klant. Op basis van een aantal kenmerken worden de klantgegevens met elkaar vergeleken en kan men voorstellen doen  voor de beslissingen die de gebruiker moet nemen. Dit zijn beslissingen in de trant van: klant met klantnummer 123 in systeem A is dezelfde persoon als klant met klantnummer 687 in systeem B.

Op basis van overeenkomstige kenmerken wordt een waarschijnlijkheidsgetal toegekend. Aan de hand hiervan kunnen de te nemen beslissingen in verschillende categorieën worden ingedeeld.
Bijvoorbeeld:
 ·        Hoogstwaarschijnlijke overeenkomst van klantgegevens
 ·        Waarschijnlijke overeenkomst
 ·        Vermoedelijke overeenkomst

Iedere categorie vergt een andere afhandeling. In de eerste categorie doet men slechts steekproeven. En in de laatste categorie wordt alles intensief gecontroleerd.

Behalve de matching zelf moeten ook afspraken worden gemaakt over welke kenmerken uit welk record overgenomen worden naar het doelsystem. Deze kenmerken vormen samen het zogenaamde ‘Golden Record’.

Het verbeteren van datakwaliteit doet men niet alleen om de datamigratie soepel te laten verlopen
maar kan ook in de huidige processen tot verbeteringen leiden en die op korte termijn al een gunstige financieel effect hebben. 
0 Comments

Your comment will be posted after it is approved.


Leave a Reply.

    Alle blogposts

    Categorieën:

    All
    Big Data
    Business Case
    Content Management
    Datakwaliteit
    Datamanagement
    Data Mapping
    Datamatching
    Datamigratie
    Functional Mapping
    Metadata
    Microsoft Crm
    Ongestructureerde Data
    Privacy
    Projectmanagement

    Archief

    February 2022
    August 2021
    June 2021
    October 2017
    September 2017
    August 2017
    June 2017
    January 2017
    June 2016
    March 2016
    December 2015
    December 2013
    July 2013
    May 2013

    RSS Feed

Home
​​Wie zijn wij?
Blog
Contact
Dienstverlening
​- Datakwaliteit
- Datamigratie
​- Master Data Management
​- Documenten
- Privacy & Security
- Data-architectuur
​- Data Governance
Privacystatement
​Disclaimer
© Transcriptum B.V.