Über unsMediaKontaktImpressum
Stephanie Fischer & Dr. Christian Winkler 22. September 2015

Anatomie eines Big Data-Projekts – Von der Fragestellung zum Prototypen

Auf dem Weg zum datengetriebenen Unternehmen kreuzen sich technische und organisatorische Herausforderungen. Wie lässt sich eine datenzentrierte Kultur etablieren? Welche Tools und Herangehensweisen sind für die technische Umsetzung geeignet? Welche Auswirkungen ergeben sich daraus für das Geschäftsmodell? Aufbauend auf der Erfahrung aus mehreren Big Data-Projekten zeigen wir in mehreren Beiträgen konkrete Schritte, mit denen CIOs, Innovationsmanager und Fachbereiche diesen Herausforderungen begegnen können.

Dieser Beitrag diskutiert die Bedeutung datengetriebener Entscheidungen und zeigt in sechs Schritten, wie Unternehmen mittels eines Prototyps das Potenzial von Big Data für sich ausloten können. In den nächsten Beiträgen zeigen wir organisatorische, kulturelle und technische Aspekte, die es bei der langfristigen Verankerung von Big Data Prinzipien in der Unternehmensstrategie zu berücksichtigen gilt.

Motivation: Was ist Big Data?

Big Data-Projekte sind durch eine alte Weisheit motiviert: Wissen ist Macht. Es geht darum, aus rasant wachsenden, immer feingranulareren Datenbeständen Erkenntnisse zu gewinnen, um fundierte Entscheidungen zu treffen. Mittlerweile können viele Unternehmen und Fachbereiche davon profitieren – selbst dann, wenn vorrangig externe Datenquellen aus Open Data-Initiativen herangezogen werden.

Eine allgemein akzeptierte Definition für Big Data gibt es nicht. Häufig werden die "drei Vs" – Volume, Variety, Velocity – für Definitionsansätze herangezogen [1]. Big Data fängt demnach dort an, wo traditionelle Systeme der Datenverarbeitung wie relationale Datenbanken überfordert sind – zum Beispiel weil die Datenmengen zu groß sind und eine verteilte Lösung auf Computerclustern erfordern. Oder weil strukturierte, semistrukturierte und unstrukturierte Daten gleichzeitig vorliegen oder die Auswertungszeiten sehr kurz sein müssen. Mit dem Hadoop-Ökosystem stehen heute flexible Open Source-Tools bereit, um große Datenmengen zu speichern und zu analysieren. Auch die Hardwarekosten sinken beständig, während die Leistungsfähigkeit der Systeme weiter wächst. Beschleunigter Flash-Speicher [2] oder gar ein um Größenordnungen schnellerer, neuartiger Ersatz [3] treiben die Entwicklung voran und werden mittelfristig noch mehr Möglichkeiten für die Technologie eröffnen.

Technisch ist der flexible Umgang mit großen Datenmengen also möglich. Doch wozu sollten Unternehmen sich dafür interessieren?

Die Schwierigkeit, unvoreingenommen zu entscheiden

Dass Menschen doch weniger rational sind, als im Industriezeitalter behauptet, ist schon lange nichts Neues mehr. Wer Daniel Kahnemans Buch "Schnelles Denken, langsames Denken" [4] gelesen hat, wird sich der Hintergründe seiner Entscheidungen noch unsicherer geworden sein. Unter anderem führt er Studien auf, die darauf schließen lassen, dass eine kognitiv ausgelastete Führungskraft eher egoistische Entscheidungen trifft, ein hungriger Mitarbeiter tendenziell mehr Anfragen ablehnen wird, als er das nach dem Mittagessen tun würde und wenn die Projektleiterin an Dinge denkt, die mit hohem Alter assoziiert werden, wird sie eher zu seniorenähnlichem Verhalten neigen.

Wege zu fundierteren Entscheidungen

Die obigen Beispiele geben einen Eindruck davon, wie beeinflussbar menschliche Entscheidungen sind. Vor dem Hintergrund komplexer werdender wirtschaftlicher Umfelder stellen sich die Fragen: Wie können Entscheidungen unvoreingenommen, sprich objektiver, getroffen werden? Und wie lassen sich komplexe Probleme durch das verteilte Wissen mehrerer Individuen lösen? Hierfür haben sich mehrere Lösungsansätze entwickelt:

  • Interdisziplinäre Teams können mit ihrer komplementären Expertise komplexe Problemlösungen finden, die im Voraus schwer strukturier- und planbar sind [5].
  • Agile Vorgehensweisen helfen durch ihre rigorose Ausrichtung am Kundennutzen Entscheidungen für Fragestellungen iterativ und inkrementell zu treffen, die in ihrer Gesamtheit zu Beginn nicht entschieden werden können.
  • Qualitative Methoden unterstützen die durch interdisziplinäre Teams entstehenden kognitiven Synergien. Design Thinking [5] ist ein solcher agiler Innovationsansatz. Er rückt die hinter einer Problemstellung befindlichen Bedürfnisse verschiedener Nutzer ins Zentrum.
  • Quantitative Analysen hatten den Ruf, sehr aufwändig zu sein, weil die Verarbeitung, Analyse und Interpretation großer Datenmengen in der Vergangenheit sehr schwierig war. Durch frei verfügbare Software und leistungsfähige Hardware ist das heute anders. Auch sind Daten so leicht verfügbar wie nie zuvor. Mit statistischen Methoden und Programmen wie R [6] können ohne großen Aufwand Infografiken und Statistiken schnell erstellt werden, die komplexe Zusammenhänge erklären.

Quantitative Methoden

Insbesondere quantitative Methoden haben das Potenzial, komplexe Entscheidungen in Unternehmen objektiv begründbar zu machen, und neue Geschäftsmodelle und Produktverbesserungen permanent zu verbessern.

Und genau hier setzt Big Data an. Denn einige Datenaggregationen wie Umsätze und Marktentwicklungen nutzen Unternehmen seit Langem für die Entscheidungsfindung. Big Data ermöglicht die Erstellung von ganz vielen weiteren solcher Kennzahlen – sei es auf Grundlage von Daten aus Produktionsprozessen, logistischen Abläufen oder Kaufentscheidungen. Mehr noch: Anstatt nur einmal pro Quartal die Daten auszuwerten, können heute Informationen in Echtzeit berücksichtigt werden. Das Ergebnis sind ad hoc berechnete Datenaggregationen und damit viel aktuellere Entscheidungsgrundlagen. Damit eröffnet sich eine völlig neue Qualität der Analyse, weil mit diesen Daten ungleich flexibler umgegangen und dennoch alle abgeleiteten Werte ausgerechnet werden können.

Big Data auf Probe – In sechs Schritten zur Testlösung

Um den Mehrwert von Big Data-Lösungen für das eigene Unternehmen auszuloten, ist ein schrittweises, experimentelles Vorgehen empfehlenswert. Die folgenden sechs Schritte zeigen die wichtigsten Phasen in der Entwicklung eines Prototyps. Sie ermöglichen den Verantwortlichen, das Arbeiten mit Big Data in der Organisation kennenzulernen, ohne langfristige Verpflichtungen und hohe Investitionen einzugehen.

1. Fragestellung klären

Am Anfang steht eine strategische oder operative Fragestellung – nicht die Frage nach den Daten selbst oder der technischen Umsetzung. Stellen Sie sich vor, Sie betreiben einen Online-Shop. Sie interessieren sich dafür, was Ihre Kunden kaufen, aber noch mehr möchten Sie den Kunden Vorschläge machen, was noch zu ihrem bereits ausgewählten Produkt passen könnte. Am einfachsten geht das über die Analyse der bisherigen Besucher und deren Kaufverhalten. Amazon [7] beweist dies eindrücklich und muss daher keine Cross Selling-Informationen mehr pflegen.

Reden Sie zum Beispiel mit der Fachabteilung über deren aktuelle Probleme und ungelöste Fragen. Was wollen Sie über Ihre Kunden, Mitarbeiter, Konkurrenz verstehen? Entscheiden Sie sich für eine für Ihr Unternehmen relevante Fragestellung, die aufgrund der aktuellen Informationslage bisher nicht beantwortet werden konnte. Alternativ ist es auch möglich, bereits getroffene Entscheidungen nochmals neu zu bewerten. Holen Sie spätestens jetzt einen Big Data-Experten aus Ihrem Unternehmen oder von außerhalb mit an Bord. Beispiel einer möglichen ersten Fragestellung eines Smart Home-Anbieters: Gibt es eine Korrelation zwischen der Steuerungs-Kennlinie der kontrollierten Wohnraumlüftung und der Sonneneinstrahlung von Süden? Wenn ja, ist diese im Winter anders als im Sommer? Erkannte Korrelationen können Anhaltspunkte liefern, ob sich bestimmte Parameter-Kombinationen zum Machine Learning [8] eignen. So könnte der Smart Home-Anbieter die Daten nutzen, um Wohnraumlüftung und Rollläden zu steuern. Im Sommer könnte vor starker Sonneinstrahlung intensiv gelüftet bevor anschließend die Rollläden geschlossen werden, im Winter könnte erst gelüftet werden wenn die Sonne scheint. Bei weiteren Steuerungssystemen wird das Verhalten noch komplexer und kann nicht mehr einfach "von Hand" modelliert werden.

2. Daten-Stichproben bereitstellen

Wenn die Fragestellung geklärt ist, beginnt die Auswahl der Daten. Welche Daten könnten dazu beitragen, Ihre dringendsten oder wichtigsten Fragen zu beantworten? Erörtern Sie zusammen mit der Fachabteilung und dem Big Data-Experten, welche Daten Sie gerne kombinieren und analysieren möchten, um den Antworten näher zu kommen. Das können Daten aus unterschiedlichen Unternehmensbereichen sein oder auch Open Data.

Achten Sie darauf, zu priorisieren und sich fürs erste nicht zu viele Daten auf einmal vorzunehmen. Es geht zunächst darum, aus den wertvollsten Daten bzw. aus Stichproben Erkenntnisse zu gewinnen, nicht darum, möglichst viele Daten auszuwerten. Der Aufwand für die Datenspeicherung und die Berechnung kann erheblich mit der Größe der Daten wachsen. Am Anfang sollte lieber eine kleine, repräsentative Datenmenge verwendet werden, die leicht handhabbar ist. Insbesondere müssen auch Aspekte des Datenschutzes berücksichtigt werden.

Bei der Auswahl des Datenformats sind Ihnen keine Grenzen gesetzt: Big Data-Lösungen sind so flexibel, dass mit völlig unterschiedlichen Datentypen gearbeitet werden kann, ohne dass ständig Anpassungen notwendig sind. So können z. B. strukturierte und unstrukturierte Daten problemlos nebeneinander existieren und wechselseitig miteinander verrechnet werden.

3. Cloud-basierte Tools auswählen

Flexible Tools aus dem Big Data-Ökosystem wie Hadoop [9] ermöglichen die Speicherung und Analyse großer Datenmengen (Volume) in vielen unterschiedlichen Formaten (Variety) mit kurzen Auswertungszeiten (Velocity). Technisch und fachlich neu ist die praktisch unbegrenzte Skalierbarkeit von Speicher- und Rechenkapazität dank Open Source-Software ohne Lizenzkosten.

Oft können Sie für eine Vielzahl der Aufgaben vorhandene Tools verwenden. Die Kunst besteht nun darin, zueinander passende Komponenten zu identifizieren und passend "zusammenzusetzen". Das ist oft gar nicht schwierig, denn viele Standard-Tools wie Hadoop, Hive, Storm, Kafka und Spark wurden schon oft integriert und es existieren entweder bereits im Standardumfang realisierte Schnittstellen oder separate Open Source-Projekte, die diese Schnittstellen implementieren. Falls bis jetzt zwischen zwei solcher Standard-Komponenten noch keine Schnittstellen implementiert wurden, sollte man den eigenen mit einer solchen Zusammenstellung verfolgten Zweck genau prüfen. Die hauptsächliche Verwendung von freien (Open Source-)Komponenten führt zu niedrigen Software-Investitionskosten, weil auf frei verfügbare Teilfunktionen zugegriffen werden kann. Hardwareseitig können die ersten Versuche durchaus in der Cloud durchgeführt werden. In Bezug auf Datenschutz muss entschieden werden, ob man sich einem amerikanischen Unternehmen wie Amazon mit Amazon EC2 [10] anvertraut. Oder lieber mit einem deutschen/europäischen Unternehmen (wie etwa ProfitBricks [11]) zu den lokalen Datenschutzbedingungen zusammenarbeitet.

4. Iterative Datenexperimente durchführen

Grundsätzlich sind Daten abstrakt. Erst durch die Beschäftigung mit Daten können  Informationen und Erkenntnisse entstehen. Daher ist im Rahmen des Prototyps das Experimentieren mit Daten ein wichtiger Schritt. Das kann bereits mit einer kleinen Teilmenge der Daten geschehen. Daher können für diese Experimente auch andere Tools, wie zum Beispiel Skriptsprachen, verwendet werden.

Es ist wichtig, sich Zeit für die intelligente Auswertung der Daten zu nehmen, aber auch nicht zu lange zu warten, um mit fachlichen und technischen Experten, dem Management oder Fachabteilungen die gefundenen Korrelationen, Muster, Cluster und andere Auffälligkeiten in den Daten zu besprechen. Vielleicht möchten Sie die Analyse auch gemeinsam mit dem Fachbereich durchführen. Der Dialog, der während der Analyse geführt wird, kann dazu führen, dass die Beteiligten ein ganz neues Verständnis für das Zusammenspiel unterschiedlicher Einflussfaktoren auf ihre Fragestellungen entwickeln. Dieses gemeinsame Lernen baut ganz natürlich Bereichssilos ab.

5. Zwischenergebnisse visualisieren

Ein flexibles Visualisierungs-Tool wie R ermöglicht es Ihnen, iterativ die Informationen in den Daten zu erforschen und dabei ihre Experimente einfach zu visualisieren. Es ist wichtig, flexible Tools zur Visualisierung zu verwenden. So sinkt die Hemmschwelle, auch mit wenig Wissen über die benötigten Daten eine Analyse zu starten und durch die gewonnenen Erkenntnisse sukzessive besser zu werden.

6. Erfahrungen evaluieren und über die Fortführung entscheiden

Der regelmäßige Dialog zwischen fachlichen Spezialisten und Big Data-Experten ist essenziell, nicht nur um aus der gemeinsamen Interpretation der Daten Erkenntnisgewinne zu erzielen, sondern auch um die Richtung der Analysen gemeinsam zu verfeinern. Die Dauer der Experimente hängt von unterschiedlichen Rahmenbedingungen ab, wie zum Beispiel der Verfügbarkeit der Daten, Experten und Rechenzeit. Nach circa zwei bis sechs Monaten ist es an der Zeit, über Richtung und Erfolg der Experimente Bilanz zu ziehen. Welchen Nutzen konnten die Beteiligten aus der Auseinandersetzung mit Big Data erzielen? Konnten Entscheidungen dank gewonnenen Faktenwissens einfacher getroffen werden? Haben Sie eine neue interessante Kennzahl entdeckt? Gibt es neue Erkenntnisse über Kunden, Ihr Unternehmen, Konkurrenten? An welche Grenzen sind Sie gestoßen?

Wenn Sie in Ihren Experimenten feststellen, dass Big Data tatsächlich als weiteres Standbein zur Entscheidungsfindung für Ihr Unternehmen wertvoll ist, sollten Sie den nächsten Schritt gehen: Für die nachhaltige Verankerung datengetriebener Entscheidungen im Unternehmen gilt es, die technischen Rahmenbedingungen zu schaffen. Eine wichtige Rolle spielt dabei die praktische Umsetzbarkeit – an vorderster Stelle steht die Zeit (bzw. Skalierbarkeit), damit die notwendigen Aggregate schnell berechnet werden können.

Typischerweise werden in Big Data-Lösungen viele Aggregate unterschiedlichster Art berechnet. Diese Schritte können sich in puncto Rechenaufwand drastisch unterscheiden. Bereits während der Erprobungsphase sollte beachtet werden, dass in einer dauerhaften Lösung mit weit größeren Datenmengen operiert wird. Die Algorithmen müssen sowohl konzeptionell als auch für die Implementierung an diese Datenmengen angepasst werden. Die Entscheidung, langfristig auf Big Data zu setzen, ist nicht nur von funktionalen und technischen Faktoren abhängig: Die Weiterentwicklung eines Unternehmens hin zu datengestützten Entscheidungen ist ein Lernprozess, der nur mit dazu befähigten Mitarbeitern und mit für die Organisation passenden Tools und Prozessen gelingen kann. Ein erstes erfolgreich umgesetztes Big Data-Projekt ist dabei der erste Schritt, um datengetriebene Entscheidungen im Unternehmen zu verankern.

In unseren nächsten Beiträgen gehen wir auf die technischen und organisatorischen Stellhebel ein, die bei der langfristigen Verankerung von Big Data-Prinzipien innerhalb des Unternehmens berücksichtigt werden sollten.

Quellen
  1. Big Data
  2. Beschleunigter Flash-Speicher
  3. intel-3d-memory
  4. Daniel Kahneman: Schnelles Denken, Langsames Denken, Pantheon Verlag, 2015
  5. Wikipedia: Design Thinking
  6. R-Project
  7. Amazon
  8. Wikipedia: Maschinelles Lernen
  9. Informatik Aktuell: Hadoop: eine Insel im Ozean der Open Source BigData-Technologien
  10. Amazon EC2
  11. Profitbricks

Weiterführende Literatur

  1. Tim Brown: Change by Design: how design thinking transforms organizations and inspires innovation, 2009, Harper Collins Books, 1st ed.
  2. Big Data Needs Thick Data
  3. Interdisciplinary and Multidisciplinary Research
  4. Open Data Deutschland
  5. Apache Tools: Hadoop / Hive / Storm / Kafka / Spark

Autoren

Stephanie Fischer

Stephanie Fischer arbeitet als Scrum Master, Programm und Change Managerin bei der mgm consulting partners GmbH. Die Schwerpunkte ihrer Tätigkeit liegen in agiler Softwareentwicklung. Mit einem Faible für eingängige...
>> Weiterlesen

Dr. Christian Winkler

Dr. Christian Winkler leitet die Nürnberger Niederlassung der mgm technology partners GmbH. Der Umgang mit großen Datenmengen oder vielen Nutzern reizt ihn besonders. Seinen Schwerpunkt legt er auf intelligente Algorithmen aus dem...
>> Weiterlesen
botMessage_toctoc_comments_9210