Data Science: Buzzword mit gehaltvollem Kern
Für manchen ist Data Science die logische Konsequenz aus den Entwicklungen der letzten Jahre mit dem Ziel, Daten für die Optimierung des Business zu nutzen. Denn weil längst alles digital untermauert ist, werden beinahe an jeder Stelle jedes Geschäftsprozesses Daten generiert und gespeichert. Entstanden sind Data Warehouses, in denen Daten für Analysezwecke gesammelt und gelagert werden. Big Data war geboren. Mit Data Analytics und Data Science lässt sich aus diesen Daten mehr machen, als wöchentliche Management-Reports oder reaktive Produktionssteuerung. Doch was steckt genau dahinter und wie kann es Unternehmen im Geschäftsalltag praktisch nützen?
Ist Data Science das neue Big Data? Diese Frage ist keineswegs einfach zu beantworten – zu unterschiedlich sind die Vorstellungen, was sich hinter beiden Begriffen eigentlich genau verbirgt. Dass Big Data Einzug in die meisten Unternehmen gehalten hat, die in irgendeiner Weise auf dem Pfad der Digitalisierung unterwegs sind, mag unbestritten sein. Riesige Datenmengen, deren Speicherung technisch längst kein Problem mehr ist, sammeln sich seit Jahren an.
Doch Menge ist nicht alles, Big Data hat noch andere Dimensionen, die oft vernachlässigt werden: So ist es ebenso von Bedeutung, aus welchen Datenquellen die Daten mit welcher Geschwindigkeit kommen und welche Formate diese haben. Zudem steht die Frage im Raum, inwieweit die Daten vertrauenswürdig sind – und das im doppelten Sinn. Kann den Daten als solche, also deren Werten und Inhalten, vertraut werden, weil beispielsweise die Quelle als seriös und integer gilt? Ebenso interessant: Wie verlässlich sind die Daten im technischen Sinne? Bei IoT-Anwendungen beispielsweise erfassen oft einfache Sensoren Massendaten. Die Fehlerquote kann hier sehr hoch sein. All dies entscheidet darüber, was mit den Daten geschehen kann und ob sie als Basis für strategische Geschäftsentscheidungen taugen.
Datenbasierte Entscheidungen treffen – eine Kunst
Daten haben dann einen Wert für ein Unternehmen, wenn sie Einfluss auf dessen Geschäftsprozesse nehmen, diese also optimieren und automatisieren. Dafür müssen die gesammelten Informationen aus den verschiedenen Datenquellen zusammengebracht, analysiert und interpretiert werden. Im Kontext von Big Data passiert dabei heute meist Folgendes: Die Infrastruktur wird technisch aufgerüstet, um dem Datenwachstum gerecht zu werden. Softwaregestützte Analysen fließen nun in die etablierten Prozesse ein. Dass das funktioniert, beweisen die aktuellen Entwicklungen in den Bereichen Condition Monitoring, Predictive Maintenance und IoT. Hier werden Daten gezielt benutzt, um Leistungsparameter oder ganze Prozesse zu überwachen, auszusteuern und zu planen. Dabei besteht die Kunst darin, die richtigen Daten in sinnvolle und zugleich nützliche Zusammenhänge zu bringen.
Ziel ist es, Machine Learning zu etablieren.
Hier entsteht die Verbindung zu Data Science. Die Wissenschaft, bestimmte Korrelationen und Informationen aus Daten zu ziehen, geht dem eigenen Verständnis nach aber deutlich weiter als die reine Datenanalyse. Mit Hilfe mehr oder weniger komplizierter mathematischer und statistischer Modelle, von linearer Regression bis zum Deep Learning, werden Zusammenhänge sichtbar, die bisher verborgen blieben. Und mehr noch: Ziel ist es, Algorithmen zu schaffen, die die Prozesse selbständig optimieren und dabei mit Schwankungen der Input-Daten umgehen können. Kurz gesagt: Ziel ist es, Machine Learning zu etablieren.
Daraus entstehen gleich mehrere Herausforderungen: Hinter den angesprochenen mathematischen Modellen stecken zum Teil hochkomplizierte Methoden, deren Sinn für die Praxis deutlich schwerer vorstellbar ist, als klar strukturierte SQL-Statements, die Wenn-Dann-Abhängigkeiten abfragen. Sofort schließt sich die Frage an, ob man Berechnungen trauen will, die man nicht wirklich nachvollziehen kann. Berechtigterweise legen Unternehmens-Lenker Wert darauf, Entscheidungen zu treffen, die nachvollziehbar und begründet sind. Doch wenn die Bedeutung statistischer Methoden für wirtschaftliche Entscheidungen nicht klar ist, kann sich auch nichts Derartiges entwickeln. Oder anders formuliert: Man muss zunächst in der Lage sein, die Frage richtig stellen zu können. Die Frage danach, was Daten-Korrelationen dem Unternehmen nützen und welche dies sind. Selbst wenn das gelingt, muss ausreichend Know-how vorhanden sein, um die Daten vor und nach der Analyse entsprechend aufzubereiten.
Ein Beispiel, das die Veränderung im Umgang mit Daten verdeutlichen soll: Waren früher bei einem Mode-Einzelhändler die Erfahrung, was die Kunden gern tragen und was sie dafür ausgeben, die persönliche Beratung vor Ort und schließlich die regelmäßig wiederkehrenden Jahreszeiten die Hauptargumente für die Gestaltung der Kollektionen, hat sich das mit zunehmender Datenerfassung grundlegend geändert. Durch Online-Shops und andere Datensammlungen werden nun ungleich detaillierte Daten erfasst: die Daten des Kunden, seine Bestellhistorie, seine Vorlieben, die Höhe seiner Ausgaben, etc. Daraus lässt sich – ganz big-data-mäßig – eine Menge machen. Werbekampagnen, individualisierte Angebote und Ähnliches beruhen auf einfachen Zusammenhängen zwischen Angebot, Preis und Nachfrage.
Mit Hilfe von noch mehr verschiedenen Daten und detaillierteren Analysen ließe sich das Angebot weiter perfektionieren: spezifischere Angebote auf der Basis der konkreten Wettervorhersage, lokaler Microtrends oder anderer Details. Die Automatisierung der Prozesse würde dafür sorgen, dass das Unternehmen noch schneller auf sich ändernde Bedingungen reagieren kann. Bisher passiert so etwas nur reaktiv. Ließe sich so etwas vorausschauend erkennen, könnten direkt alle betroffenen Supply-Chain-Prozesse automatisch angepasst werden.
Wie Algorithmen lernen
Schon dieses vergleichsweise einfache Beispiel zeigt, wie schnell die Sache komplex wird. Bedenkt man dann außerdem, dass solche Aktionen eben keine einmaligen bleiben, sondern eine dauerhafte Geschäftsoptimierung durch lernende Algorithmen darstellen sollen, erscheint die Aufgabe eher übermenschlich denn verheißungsvoll. Und tatsächlich gibt es in der Praxis erst wenige echte Anwendungsfälle. Die bereits erwähnte Predictive Maintenance geht in diese Richtung: Um den perfekten Zeitpunkt zu ermitteln, wann ein Maschinenteil gewechselt werden muss, fließen zahlreiche Daten in die Analyse ein. Im Gegenzug zur zyklischen Wartung – das Teil wird dann ausgetauscht, wenn es die prognostizierten Stunden abgeleistet hat – und zur reaktiven Wartung – Austausch erfolgt dann, wenn das Teil kaputt ist – will die vorausschauende Maintenance den perfekten Zeitpunkt ermitteln. Dieser ist nämlich kurz bevor das Teil kaputt geht, ganz egal ob eine bestimmte Leistungsdauer schon erreicht wurde oder nicht. Dafür genügen die gesammelten Erfahrungswerte, wann diese Teile bisher immer ermatteten, nicht. Hinzu kommen zahlreiche Umgebungsvariablen: Wie wurde das Teil wirklich beansprucht, wie waren die Arbeitstemperaturen und was ist in naher Zukunft zu erwarten? Wann ist das Zeitfenster für den Austausch, welches am wenigsten Auswirkungen auf Produktion und Betrieb hat? Passen die Lieferzeiten für das Teil und mögliche Zubehörstoffe dazu, etc.? Je mehr unterschiedliche Daten einfließen können, umso genauer wird sich der Zeitpunkt bestimmen lassen. Und je mehr ein im technischen Sinne intelligenter Algorithmus hier selbst entscheiden kann, umso nahtloser und weniger aufwändig wird der Prozess. Die direkte Folge: Einsparungen bei der Ersatzteilbeschaffung und Optimierung der Maintenance-Zeiten.
Damit Algorithmen und damit Maschinen lernen können, brauchen diese Trainingsdaten. Und davon eine Menge. Diese Trainingsdaten und die daraus generierten Modelle sind gewissermaßen die Basis. Nur wenn die Menge ausreichend groß ist, können alle Eventualitäten gelernt und bewertet werden. Daten, die dann im wahren Leben eingespeist werden, wird der Algorithmus immer mit den Trainingsdaten vergleichen, denn auf irgendetwas muss er seine Entscheidungen referenzieren. Idealerweise nutzt der Algorithmus die neuen Daten zur Anpassung und Verfeinerung des Modells – ein andauernder, hochkomplexer Prozess.
Data Science in der Praxis: Alles beginnt mit einer Datenstrategie
All diese Vorbetrachtungen führen zu der Frage, wie praxisrelevant das alles ist. Stehen Aufwand und Nutzen hier noch in einem vernünftigen Verhältnis? Die Antwort könnte undifferenzierter kaum sein: Es kommt darauf an. Dass die Rolle von Daten für die Optimierung und Automatisierung von Prozessen wichtiger werden wird, kann als gegeben angenommen werden. Doch was genau Daten eigentlich machen sollen und welche Daten benötigt werden, kann kein Algorithmus entscheiden.
Unternehmen müssen demnach zunächst eine ganz individuelle Datenstrategie für sich entwickeln. Diese definiert den Umgang mit Daten im Allgemeinen und im Speziellen sowie deren Wert für die künftige Entwicklung des Unternehmens. Dabei sollte erfasst werden, welche Daten bereits zur Verfügung stehen und wie und von wem sie genutzt werden. Zugleich geht es darum, zu erkennen, ob die Datenmengen künftig wachsen, welche Datenquellen hinzugezogen werden sollten und welche neuen datenbasierten Erkenntnisse dem Unternehmen nützen würden. Meist zeigt sich an dieser Stelle, dass bereits einige Datensilos entstanden sind und die Kommunikation zwischen den Fachabteilungen mangelhaft ist.
Viele Unternehmen machen bereits erste Schritte und experimentieren mit Hadoop-Clustern und verschiedenen Analyse-Werkzeugen. Ein guter, pragmatischer Anfang, der leider zu selten Produktiv-Status erreicht. Denn es geht ja genau nicht um einzelne Datenauswertungen oder Tools. Eine übergreifende Datenstrategie braucht unternehmensstrategische Überlegungen aus allen Bereichen und Unterstützung durch die Geschäftsführung. Bleibt das Thema bei der IT aufgehängt, weil es fachlich dort am ehesten sinnvoll ist, wird mittelfristig der Aktionsraum auf einzelne Anwendungen beschränkt bleiben. Immer häufiger trifft man deshalb auf CDOs (Chief Data Officer), die innerhalb der Geschäftsführung dafür zuständig sind, digitale Strategien umzusetzen. Zudem sind betroffene Abteilungen in den Unternehmen oft noch voneinander getrennt, dabei sollten Data Experts aller Art, von Statistikern über Business-Analysten bis hin zu Data Scientisten, beispielsweise eng mit den Data-Warehouse-Spezialisten zusammenarbeiten.
Operative Analysen verlangen Performance
Basierend auf der definierten Datenstrategie können nun Daten- und Analysemodelle entwickelt und mit Testdaten angelernt werden. Hierfür stehen am Markt zahlreiche Open-Source-Werkzeuge zur Verfügung. Die Herausforderung ist dabei zum einen, einen Experten im Unternehmen zu haben, der sich nicht nur die Funktionen des Tools aneignet, sondern der die mathematischen Hintergründe versteht. Zum anderen gilt es, diese Modelle in die Produktion zu bringen. Das klingt logisch, ist aber erfahrungsgemäß oft der Knackpunkt bei der Umsetzung einer Datenstrategie.
Die Palette an Data-Science-Sprachen ist schon heute groß und ändert sich schnell.
Die Infrastruktur muss hier wichtige Voraussetzungen erfüllen. Zum einen sollte sie flexibel genug sein, um in verschiedenen Programmiersprachen erstellte Modelle und Funktionen integrieren zu können. Data Scientists sollten sich nicht um die passende Infrastruktur kümmern müssen, sondern mit den von ihnen präferierten Werkzeugen arbeiten können. Egal ob R, Python, Tensor Flow, Julia oder Scala – die Palette an Data-Science-Sprachen ist schon heute groß und ändert sich schnell. Die Datenbank, auf die gesetzt werden soll, muss deshalb offen und zukunftsfähig sein und idealerweise alle Sprachen gleichzeitig integrieren können. Nur dann ist es möglich, die neuen Data-Science-Methoden mit den traditionellen Data-Warehouse-Methoden zu verbinden und das Optimum aus Daten zu extrahieren.
Zum anderen sollen diese Modelle auf riesige Mengen an Daten angewendet werden, für hunderte Millionen Nutzer oder Produkte – und dies in kürzester Zeit. Klassische, diskbasierte Datenbanken kommen im analytischen Echtzeit-Bereich an ihre Grenzen. In Benchmark-Tests mit großen Datenmengen beweisen In-Memory-Datenbanken (IMDB) regelmäßig ihre bessere Performance. Die IMDB von Exasol beispielsweise wurde von Grund auf für analytische Anwendungsfälle konzipiert – mit integrativer Offenheit und paralleler In-Memory-Performance gelingt es, datenbasierte Geschäftsstrategien mit Technologien wie Machine Learning zu verbinden und in einem operationellen Data Warehouse der breiten Masse in einem Unternehmen zur Verfügung zu stellen.
Den Hype kritisch hinterfragen
Die Frage nach Aufwand und Nutzen von Data Science stellte sich bereits weiter oben. Die Antwort darauf ist höchst individuell. Die Praxis zeigt jedoch, dass der praktische Wert von Data Science dass große Aufsehen darum (noch) nicht rechtfertigt. Die Diskussion um das Thema ist aber sehr wohl berechtigt, schiebt sie doch praxisrelevantere Themen, wie Datenstrategien und datenbasierte Entscheidungen, in den Vordergrund. Der Weg in die Digitalisierung führt über eine intelligentere, weil datenbasierte Untermauerung der Geschäftsstrategie. Für viele Use Cases gelingt eine Optimierung dabei über regelbasierte Entscheidungswege, wie etwa beim Predictive Maintenance beschrieben – nachvollziehbar und solide. Dennoch wird sich bald in immer mehr Anwendungsfällen zeigen, was alles möglich ist, wenn Daten richtig korreliert werden. Data Science mag heute noch ein Thema mit überschaubarer Praxisrelevanz für spezifische Anwendungen sein, es ist aber wohl eines mit großer Zukunft für eine breite Palette von Optimierungen in Unternehmen.