Learning-basiertes Object Matching mit Map/Reduce
Object Matching (auch: Duplikat Erkennung, Record Linkage, Entity Resolution oder Referenz Abstimmung) ist ausschlaggebend für die Datenintegration und –bereinigung, und damit für die Qualität von Daten. Datenqualität ist unter anderem ein Thema im Programm der SMART DATA Developer Conference am 06.12.2016. Dem Object Matching fällt die Bedeutung zu, mehrfache Darstellungen ein und derselben Information zu erkennen und zu verhindern. Herausforderung ist dabei oftmals die hochgradige Heterogenität und mindere Qualität bezüglich der Vollständigkeit und Konsistenz der Datendeskription. Ein Anwendungsfall aus der Unternehmenspraxis ist es, Dubletten von Kundendatensätzen zu identifizieren oder Angebotspreise für Vergleichsportale zu vergleichen.
Learning-basierter Ansatz
Learning-basierte Herangehensweisen zeigen eine hohe Effektivität zulasten einer geringen Effizienz. In realen Datensätzen ist es typischerweise eine Anforderung für das Matching, mehrere Abgleiche zu tätigen – z.B. Charakteristika mit mehreren Ähnlichkeitsmaßen zu vergleichen und davon für jedes Ergebnis eine Entscheidung abzuleiten. Mit steigender Anzahl zu vergleichender Attribute wird diese Aufgabe komplexer und es ist nahezu unmöglich, "manuell" eine vernünftige Strategie daraus abzuleiten. Daher wenden State-of-the-Art Vorgehen learning-basierte Methoden an, womit jeder Vergleich eines der beiden Ergebnisse erlangt: "stimmt überein" oder "stimmt nicht überein". Diese paarweise übereinstimmenden Werte (einer je Abgleich) dienen als Kennzeichen für die Klassifikation.Verarbeitung von großen Datensätzen
Learning-basierte Methoden haben sich in der Praxis zwar als effektiv erwiesen, jedoch als ineffizient, wenn sie für große Datensätze angewendet werden. In einer früheren Studie dauerte die Verarbeitung von 168 Millionen zu vergleichenden Informations-Paaren mehr als fünf Tage [1]. Als Hauptgrund für die schwache Performance können die extrem aufwändigen Berechnungen von Ähnlichkeit/Übereinstimmung gelten, die jeweils wiederum Input für eine Klassifikation sind. Für jeden Abgleich muss das kartesische Produkt, d.h. alle Paarungen von Informations-Entitäten, ausgeschöpft werden. Im Vergleich dazu ist der Aufwand für Lernmengen (Klassifikator-Training) und deren Anwendung zu vernachlässigen. Daher bietet es sich an, erprobte Open-Source-Data-Mining-Lösungen wie Weka oder RepidMiner zu verwenden und mit diesen gleichzeitig mehrere paarweise Abgleiche in Cloud-Infrastrukturen durchzuführen. Dabei kann die Ausführungszeit reduziert werden, indem Map/Reduce angewendet wird.Parallele Berechnung mit Map/Reduce
Map/Reduce ist ein populäres Programmier-Modell für parallele Berechnungen in Cloud-Infrastrukturen mit bis zu mehreren tausend Knoten. Die Verfügbarkeit von Distributionen wie Hadoop macht die Verwendung für eine effiziente Parallelisierung von datenintensiven Aufgaben attraktiv und wurde dafür auch bereits erfolgreich eingesetzt. Learning-basiertes Object Matching kann anhand von Map/Reduce effizient umgesetzt werden, wobei die Berechnung der Übereinstimmung durch das kartesische Produkt der bestimmende Faktor ist. Ein Ansatz mit Map/Reduce ist zu empfehlen, da es sich gezeigt hat, dass hierbei die Übereinstimmungs-Berechnung und die Klassifikator-Anwendung auf die verfügbaren Ressourcen zur Berechnung verteilt werden und damit skalierbar ist. Mehr zur "Sicherung der Datenqualität anhand von Big Data Matching" erfahren Sie im Vortrag von Dr. Hanna Köpcke am 06.12.2016 im Rahmen der SMART DATA Developer Conference [2]. Die wissenschaftliche Versuchsanordnung können Sie hier nachlesen [3].Quellen
- Köpcke et al. Evaluation of entity resolution approaches on real-world match problems. PVLDB, 3(1), 2010
- "Sicherung der Datenqualität anhand von Big Data Matching" – Vortrag von Dr. Hanna Köpcke im Rahmen der SMART DATA Developer Conference.
- researchgate.net
Dr. Hanna Koepcke
Das könnte Sie auch interessieren
Kommentare (0)