Fuzzy Matching bij Rijkswaterstaat
Rijkswaterstaat implementeert een nieuw geautomatiseerd systeem voor de toekenning, beheer en handhaving van vergunningen. Tot nog toe werd informatie hierover in meerdere systemen bijgehouden. Dezelfde vergunningen werden dus dubbel ingevoerd en beheerd. Binnenkort worden die systemen vervangen door één nieuw systeem. Als voorbereiding hierop heeft Transcriptum onderzoek verricht naar de gegevenshuishouding en de gegevenskwaliteit met betrekking tot vergunningen. Op basis daarvan heeft Transcriptum advies uitgebracht voor de migratiestrategie.
Ontbrekende koppelingen
Een kernpunt hierbij was de constatering dat informatie over dezelfde vergunningen in verschillende systemen werden bijgehouden, zonder dat er een eenduidige matching bestond tussen de gegevens in de verschillende systemen. Er golden geen duidelijke afspraken over de wijze waarop bijvoorbeeld beschikkingsnummers en andere sleutelgegevens werden geregistreerd. Ook ontbrak het bij de systemen aan controles op de ingevoerde gegevens. RWS wil uiteraard voorkomen dat in het nieuwe systeem vergunningen dubbel worden opgenomen. Daarom moet deze matchingsproblematiek voorafgaand aan de conversie van de gegevens worden opgelost.
Transcriptum heeft voor RWS een aanvullend project uitgevoerd voor verbetering van datakwaliteit en matching van de gegevens uit de verschillende systemen, gericht op het entiteittype ‘Zaak’. Bij een eerste nulmeting bleek dat van de verwachte matches slechts circa 20% daadwerkelijk te vinden was. We hebben dit percentage kunnen laten stijgen tot 70%.
Hiertoe heeft Transcriptum enerzijds een traditionele aanpak gevolgd, bestaande uit data profiling, interviews, overzichten maken en dataschoning door gebruikers. Anderzijds heeft Transcriptum een matchingssystematiek opgezet waarbij ook op basis van ‘fuzzy’ kenmerken de vergunningen in de verschillende bronsystemen met elkaar gekoppeld konden worden.
Transcriptum heeft voor RWS een aanvullend project uitgevoerd voor verbetering van datakwaliteit en matching van de gegevens uit de verschillende systemen, gericht op het entiteittype ‘Zaak’. Bij een eerste nulmeting bleek dat van de verwachte matches slechts circa 20% daadwerkelijk te vinden was. We hebben dit percentage kunnen laten stijgen tot 70%.
Hiertoe heeft Transcriptum enerzijds een traditionele aanpak gevolgd, bestaande uit data profiling, interviews, overzichten maken en dataschoning door gebruikers. Anderzijds heeft Transcriptum een matchingssystematiek opgezet waarbij ook op basis van ‘fuzzy’ kenmerken de vergunningen in de verschillende bronsystemen met elkaar gekoppeld konden worden.
Traditionele aanpak
De gegevens uit de bronsystemen werden geanalyseerd met behulp van onze tools voor data profiling. Daarmee ontstond snel inzicht in de vulling van de velden in de database. Op basis daarvan hielden de Transcriptum consultants interviews met beheerders en key users. Aan de hand daarvan heeft Transcriptum ten behoeve van de eindgebruikers lijsten opgesteld van de te verbeteren gegevens. Dit betrof vooral het alsnog invullen van ontbrekende sleutelgegevens. De matchingsgraad steeg hiermee van 20% naar circa 45%.
Fuzzy Logic
Een andere belangrijke oorzaak voor het ontbreken van matches tussen de registraties in de verschillende systemen betrof de inconsistente en onnauwkeurige schrijfwijze voor diverse sleutelvelden. Dat heeft Transcriptum aangepakt middels ‘fuzzy logic’. We ontwierpen een hiërarchie van ‘fuzzy’ matchingsregels, waarbij de waarschijnlijkheid van de matching bepaald wordt door het al dan niet slagen van een matchingregel.
Bij een exacte matchingsregel weet je zeker dat twee verschillende registraties één en dezelfde vergunning betreffen. Bijvoorbeeld omdat bij beide hetzelfde beschikkingsnummer is vastgelegd. Bij
een ‘fuzzy’ matchingsregel weet je dat niet zeker. Stel je hebt twee registraties die de volgende beschikkingsnummers hebben: 235/99-56783 en 0235 9956 783, dan is er een mogelijkheid dat deze dezelfde vergunning betreffen. Hoe groot die mogelijkheid is hangt dan vaak af van andere overeenkomsten of verschillen.
Transcriptum kon met deze systematiek van ‘fuzzy matching’ het totale matchingspercentage opkrikken naar circa 70%.
een ‘fuzzy’ matchingsregel weet je dat niet zeker. Stel je hebt twee registraties die de volgende beschikkingsnummers hebben: 235/99-56783 en 0235 9956 783, dan is er een mogelijkheid dat deze dezelfde vergunning betreffen. Hoe groot die mogelijkheid is hangt dan vaak af van andere overeenkomsten of verschillen.
Transcriptum kon met deze systematiek van ‘fuzzy matching’ het totale matchingspercentage opkrikken naar circa 70%.
Voorkomen: beter dan genezen
Inmiddels zijn op basis van de aanbevelingen uit de data profiling in de bronsystemen de benodigde invoervalidaties aangebracht, waardoor verdere vervuiling zoveel mogelijk wordt voorkomen.