Smart Data Analytics
Wie Knowledge-Graphen und KI verstaubte Daten-Silos in businessrelevantes Wissen umwandeln
Unternehmen müssen rechtzeitig auf Marktveränderungen reagieren können, wenn sie langfristig erfolgreich sein wollen. Mit einer stark zunehmenden Dynamik werden stetig neue Technologien und Produkte entwickelt und auf globalen Märkten angeboten. Täglich kommen neue Akteure hinzu, die als Zulieferer, potenzielle Kunden oder Akquisitionsziele in Frage kommen.
Doch welche Möglichkeiten haben Unternehmen, ihre geschäftsrelevanten Entscheidungsprozesse an diese neuen Herausforderungen anzupassen? Wie kann die Entwicklung von Märkten, Technologien und Branchen auf der ganzen Welt – unabhängig von der Sprache oder Domäne – analysiert werden? In diesem Artikel möchten wir zeigen, ob und wie Smart Data Analytics mit Knowledge-Graphen helfen können, diese Fragen zu beantworten. Abschließend zeigen wir eine umgesetzte Beispielanwendung für Markt- und Technologie-Monitoring.
Knowledge-Graphen als Missing Link zwischen den Daten
Informationen über Unternehmen, ihr Produktportfolio, neue Veröffentlichungen und Markteintritte sind über Social-Media-Kanäle, Fachartikel und Publikationen geradezu in Echtzeit weltweit verfügbar. Doch echte Mehrwerte für das Business entstehen nicht durch das reine Ansammeln dieser Informationen in sogenannten "Daten-Silos". Erst durch die Veredelung der Daten und Verschmelzung mit zusätzlichen Quellen entsteht eine Wissensbasis, die als Entscheidungsgrundlage für das Business herangezogen werden kann. Knowledge-Graphen versprechen, eine zentrale Schlüsselrolle in diesem Prozess einzunehmen, indem sie ein für das Data-Management bisher fehlendes, jedoch essenzielles Puzzlestück nachliefern: Ein intelligentes Wissensmanagement, das beliebige Informationen aus aller Welt organisiert und daraus Wissen entstehen lässt. Das klingt zunächst sehr abstrakt, beschreibt aber letztlich einen hochgradig vernetzten Graphen, der uns in die Lage versetzt, wertvolle 360-Grad-Sichten zum Beispiel auf Kunden, Technologien, Produkte und sogar ganze Wertschöpfungsketten zu modellieren [1]. Im Gegensatz zu klassischen Datenbanken, wo es notwendig ist, Verbund-Operationen zwischen Tabellen zu definieren, um Informationen anzufragen, sind in Knowledge-Graphen alle Informationen, die zusammengehören, bereits an ihrer Quelle miteinander verknüpft.
Die Technologien hinter Knowledge-Graphen haben ihre Wurzeln in dem 2001 vorgestellten Semantic Web [2]. Doch richtig spannend und marktreif für den Einsatz in Enterprise-Lösungen wurden diese Ideen erst in den letzten Jahren, mit dem intelligenten Zusammenspiel aus Künstlicher Intelligenz (KI) und Wissensmodellierung auf Grundlage von Knowledge-Graphen. So dienen Knowledge-Graphen auf der einen Seite den vielen AI-gestützten Lösungen als wertvolle Wissensquelle, um neue Modelle zu trainieren. Wichtiges Einsatzgebiet hierfür ist beispielsweise das Query Answering, wie wir es in unseren Alltagshilfen Alexa, Siri und Hey Google vorfinden. Für die automatische Beantwortung von Fragen, die in einer natürlichen Sprache gestellt werden, benötigt man ein breites faktenbasiertes Wissen, wie es beispielsweise in öffentlichen Knowledge-Graphen wie DBPedia [3] und Wikidata [4] bereitgestellt wird. Auf der anderen Seite sind für den Aufbau und die Kuration von qualitativ hochwertigen Knowledge-Graphen AI-gestützte Verfahren nicht mehr wegzudenken.
Was ist ein Knowledge-Graph?
Ein Knowledge-Graph ist eine Wissensdatenbank, in der Informationen über beliebige Entitäten (Menschen, Orte, Dinge, Organisationen) und die Verbindungen zwischen ihnen ("kennt", "wurde geboren in", "hat Tochterunternehmen", "wurde gekauft von") abgespeichert werden können. Informationen werden hierbei in Form von oftmals dreiwertigen Fakten modelliert, die auch ganz intuitiv als eine kurze Aussage von Menschen gelesen werden können (s. Abb. 1)
Jede der drei Entitäten kann dabei als ein Knoten in einem Graphen interpretiert werden, der weitere Eigenschaften wie zum Beispiel eine textuelle Beschreibung, die Gültigkeit, Herkunft der Information oder die Schreibweise in anderen Sprachen enthält. Essenziell hierbei ist, dass alle drei Elemente gleichwertig als Knoten behandelt werden können, obwohl ein Knoten in dem obigen Beispiel als Kante interpretiert werden kann. Dies ermöglicht es, in modularisierter Bauweise einen Knowledge-Graphen aus Fakten zu modellieren, die sich aufeinander beziehen, indem die gleichen Entitäten mehrfach wiederverwendet werden.
Für die Modellierung der einzelnen Entitäten ist es dabei essenziell, auf ein Kernwerkzeug von Knowledge-Graphen zurückzugreifen: weltweilt gültige Identifikatoren, sogenannte "Internationalized Resource Identifier" (IRIs). Folgt man den Best-Practice-Regeln [5] vom Erfinder des Semantic Web, so sollten diese IRIs sowohl von Menschen als auch von automatisierten Diensten konsumiert und interpretiert werden können und das unabhängig von der verwendeten Softwarelösung. Am obigen Beispiel illustriert, entspricht die IRI für Leonardo da Vinci dem Weblink. Ein Mensch kann diesen Link anklicken und bekommt eine Webseite generiert aus dem Knowledge-Graphen von Wikidata, die alle Informationen zu Leonardo da Vinci anzeigt. Eine Applikation kann den publizierenden Server hinter der IRIs mittels der W3C-standardisierten Anfragesprache SPARQL [5] nach dem Geburtsort von Leonardo da Vinci fragen und bekommt als Antwort wieder eine IRI zurück, in diesem Fall den Link.
From Data to Business
Der erfolgreiche Einsatz von Knowledge-Graphen verspricht, die Lücke zwischen Daten und geschäftsrelevanten Entscheidungsprozessen zu schließen. In der Abb. 2 wird dieser Prozess exemplarisch für einige Datenquellen (links) und mögliche Business Cases (rechts) illustriert, die wir in den vergangenen Jahren für Kunden umgesetzt haben. Die intelligente Verknüpfung (Semantische Integration) von Entitäten aus heterogenen, oftmals auch unstrukturierten Datenquellen und deren Harmonisierung steht hierbei im Mittelpunkt der Wissens-Wertschöpfung.
Für den Zugriff auf das Wissen im Knowledge-Graphen möchten wir mehrere erprobte Konzepte vorstellen. Im einfachsten Fall greift eine Anwendung mittels einer Anfragesprache wie SPARQL auf die standardisierten Schnittstellen der darunterliegenden semantischen Graph-Datenbank zu. Hierbei gilt zu beachten, dass die geforderten sicherheitsrelevanten Funktionalitäten direkt von der Graph-Datenbank bereitgestellt werden sollten.
In produktiven Szenarien wird immer häufiger auf das von Datawarehouses bekannte Konzept von Marts zurückgegriffen. Darunter versteht man eine neue Sicht auf das Wissen im Knowledge-Graphen. Diese Sicht kann z. B. den Zugriff auf Informationen einschränken oder eine Kompaktierung und Transformation von Wissen vornehmen, die für die nachfolgende Verarbeitung oder Darstellung in einer Applikation optimiert ist.
Für die technische Umsetzung solcher Knowledge Marts stehen zwei unterschiedliche Ansätze bereit:
Bei dem ersten Ansatz handelt es sich um sogenannte "virtuelle Marts". Diese können in Form von zusätzlichen Metadaten in sogenannten Ontologien unabhängig von den Daten gepflegt werden. Sehr ausdrucksstarke Ontologien wie OWL [6] und RDFS [7] ermöglichen es, ein und dieselben Daten in unterschiedlichen Kontexten zu beleuchten. Der zweite Ansatz umfasst materialisierte Graph Marts. Darunter können sowohl neue Knowledge-Graphen verstanden werden, die nur einen Ausschnitt der Daten vorhalten, als auch grundverschiedene Speicherformate wie zum Beispiel eine Datenbank oder ein Property-Graph. Das Ziel ist es hier, das Wissen aus dem Knowledge-Graphen für neue Anwendungen und Anforderungen zu öffnen, die ganz andere Voraussetzung an ihre Quelldaten festlegen. So wird man zum Beispiel einer Web-Applikation, die eine sehr niedrige Latenz benötigt, vielleicht eher eine voraggregierte NoSQL-Datenbank bereitstellen. Anwender von klassischen Reporting-Apps hingegen, die größtenteils auf tabellarischen Inhalten arbeiten, werden sehr dankbar über eine Tabelle mit Schemainformationen sein, die aus den Graph-Daten abgeleitet wird.
Nach dieser Einführung in die grundlegenden Konzepte und Versprechen von Knowledge-Graphen beschreiben wir im nächsten Abschnitt ein erfolgreich umgesetztes Kundenprojekt für Smart Data Analytics.
Markt- und Technologie-Monitoring
Ein präzises Verständnis über die Entwicklung von Märkten und Technologien im Kontext des eigenen Unternehmens bildet eine Schlüsselkomponente für den Erfolg. Gemeinsam mit der Technischen Hochschule Nürnberg und dem Fraunhofer SCS (Nürnberg) haben wir eine Anwendung entwickelt, die hierfür Knowledge-Graphen als Kernelement nutzt. Abb. 3 skizziert den wissensschöpfenden Prozess ab der Datenquelle bis hin zur Visualisierung des integrierten, angereicherten und harmonisierten Wissens im Knowledge-Graphen. Als Informationsgrundlage werden zunächst unstrukturierte Quellen wie Nachrichtenfeeds sowie andere öffentlich verfügbare Textdokumente wie beispielsweise Publikationen, Patente und Artikel automatisch textuell erfasst (Schritt 1) und mittels modernen KI-gestützten Verfahren, zu denen in diesem Fall primär das sogenannte Entity Discovery und Entity Linking gehört (Schritt 2), in einem Knowledge-Graphen abgebildet (Schritt 3). Dieser zentrale Datenkern repräsentiert das Wissen aus den vereinnahmten unstrukturierten Texten in einer strukturierten und auf Fakten basierten Weise. Für das Markt- und Technologiemonitoring reicht es, zwischen Unternehmen, Technologien und Orten zu unterscheiden. Dieses Konzept lässt sich jedoch, je nach Anwendungsfall, auf beliebige weitere Informations-Typen erweitern.
Die Schritte 1 bis 3 werden fortlaufend durchgeführt. Das ermöglicht es, Änderungen über die Zeit hinweg zu erfassen, um daraus Indikatoren für Marktbewegungen abzuleiten (Schritt 4). Eine Feedbackschleife (vgl. Schritt 4 -> 3) sorgt für die kontinuierliche Optimierung der Verfahren und Modelle, indem neue Erkenntnisse sowie menschliche Bewertungen als zusätzliche Datenbasis für die Erkennung von Technologien, Orten und Unternehmen herangezogen werden können.
Aufbauend auf diesem, sozusagen veredelten Wissen werden für das Technologie- und Marktmonitoring unterschiedliche Trendanalyse-Tools, Reports und Applikationen entwickelt (Schritt 5). Um das Reporting zu vereinfachen, wurden den Entwickler:innen Tabellen mit Schemainformationen bereitgestellt, sodass sie ihre gewohnten Skills für die Erstellung von aussagekräftigen Reports einsetzen könnten.
Typische Fragen, bei denen unsere Lösung hilfreiche Informationen bereitstellen kann, sind:
- Was für neue aufstrebende Technologien gibt es in einem bestimmten Branchensektor, beispielsweise ein neues Material für die Herstellung von Energiespeichern?
- Welche aufsteigenden Unternehmen könnten sich, basierend auf ihrer Produkt-Portfolio-Entwicklung, als neuer Zulieferer, Akquisitionsziel oder potenzieller Kunde eignen?
- Welche Unternehmen stehen in Konkurrenz in bestimmten Märkten und in welche Richtung entwickeln sie sich?
Zu den spannenden Herausforderungen, die wir gemeinsam untersucht haben, zählen vor allem:
- Die Heterogenität der Datenquellen und Formate, die Geschwindigkeit, mit der Informationen ankommen und verarbeitet werden sollen sowie die Granularität, mit der sie konsumiert werden können (Batch, API, Event-basiert).
- Es sollten vorwiegend Open-Source- oder lizenzfreie Softwarekomponenten verwendet werden.
- Öffentliche Knowledge-Graphen wie Wikidata oder DBpedia glänzen zwar mit einem beeindruckend breit aufgestellten Wissen und kommen daher oft in Pilotanwendungen zum Einsatz. Jedoch fehlt es diesen Graphen oftmals an Tiefe, wenn spezielles domänenspezifisches Vokabular in den Texten verarbeitet werden soll. Als Lösung wurden hier insbesondere Active-Learning-Verfahren betrachtet: Die aus Datenquellen extrahierten Informationen, bei denen sich die KI-gestützten Verfahren nicht sicher sind, werden Expert:innen zur Kontrolle vorgezeigt. Dieses wertvolle Expertenwissen wird jedoch nicht nur dazu verwendet, die angezeigten fehlerhaften Informationen zu korrigieren. Das Wissen fließt ebenfalls in das ursprüngliche KI-Verfahren zurück, sodass die Qualität aller zukünftigen Informationen verbessert wird.
Schlusswort
Mit der Menge und Vielfalt an Daten, die täglich produziert und publiziert wird, steigen Möglichkeiten wie auch Herausforderungen, geschäftsrelevante Prozesse und Entscheidungen zu unterstützen.
Smart Data Analytics ermöglichen es, mit der innovativen Kombination aus Knowledge-Graph-basierter Wissensmodellierung und AI-gestützter Informationsverarbeitung eine komplexe Datenlandschaft in nutzbares Wissen umzuwandeln. Unser vorgestelltes Markt- und Technologie-Monitoring gibt einen ersten Einblick in die vielfältigen Einsatzmöglichkeiten von Knowledge-Graphen als zentrale Puzzlestücke in der Datenveredelung. Sehr gerne unterstützen wir Sie bei Ihren individuellen Herausforderungen im wertschöpfenden Umgang mit Daten.
- M. Zablocki: Knowledge-Graphen: Das essenzielle Puzzlestück
- T. Berners-Lee, J. Hendler, and O. Lassila: The Semantic Web, Scientific Am., May 2001, pp. 34–43.
- DBPedia
- Wikidata
- T. Berners-Lee: Linked Data
- W3C: SPARQL 1.1 Query Language
- W3C: Web Ontology Language (OWL)
- W3C: RDF Schema 1.1