Über unsMediaKontaktImpressum
Arjan van Staveren 20. Juli 2021

In sechs Schritten zur erfolgreichen Data-Engineering-Praxis

Data Science ist derzeit in aller Munde. Doch nicht nur die Fähigkeit, smarte Entscheidungen aus großen Datenmengen ableiten zu können, ist für Unternehmen entscheidend. Um einen echten Mehrwert aus ihren Informationen zu generieren, spielt ihre Aufbereitung, also das Data Engineering, eine mindestens ebenso wichtige Rolle. Denn wenn Daten der Treibstoff sind, den ein Unternehmen benötigt, um seine Geschäftsprozesse am Laufen zu halten, dann ist der Data Engineer der Mechatroniker, der dafür sorgt, dass alle Zahnräder richtig ineinandergreifen und stets geölt sind. Nur so kann im übertragenen Sinne sichergestellt werden, dass der Treibstoff ohne Verluste durch die Schläuche gelangt. In der Praxis bedeutet das, dass genaue und qualitativ hochwertige Daten zu den Lösungen fließen, die von ihnen abhängen.

Vor dem Hintergrund, dass Analysen heute immer wichtiger werden, ist auch das Data Engineering zu einem Wettbewerbsvorteil geworden und steht im Mittelpunkt der Technologieinitiativen, die Unternehmen zum Erfolg verhelfen. Um eine nachhaltige und erfolgreiche Data-Engineering-Praxis zu etablieren, gilt es jedoch sechs grundlegende Schritte zu beachten:

1. Think big, start small

Am Anfang sollte zunächst eine genaue Bestandsaufnahme erfolgen, die klärt, wie gut oder schlecht das jeweilige Unternehmen bereits in Sachen Data Engineering aufgestellt ist. Welcher Teil der aktuellen Architektur muss geändert oder erweitert werden, um robustere Data Pipelines zu unterstützen? In welche Tools wurde bereits investiert? Wo kann das Unternehmen am meisten profitieren, wenn Legacy-Tools durch moderne Technologien ersetzt werden? Und nicht zuletzt: Mit welcher Analytik-Initiative sollte man beginnen?

Hilfreich ist es, zunächst mit einem überschaubaren Anwendungsfall zu starten – idealerweise einem, der eine unmittelbare Auswirkung auf das Geschäft haben wird. Häufig sind dringend operative Verbesserungen gefragt, wie die Identifizierung ungenauer Daten oder die Reparatur einer ineffizienten Data Pipeline, die zu lange für die Ausführung braucht. Längerfristig gedacht stünde dann die Erschließung neuer Umsatzmöglichkeiten im Fokus.

Von diesem Anfangsprojekt ausgehend ist es dann möglich, weitere folgen zu lassen. Moderne Technologien wie beispielsweise die Data Cloud können dabei helfen, die notwendige Grundlage zu legen. Sie bilden eine Architektur, die schrittweise aufgebaut werden kann, indem sie vorhandene Daten, Tools und Funktionen nutzt und gleichzeitig offen ist für neue Erweiterungen, Prozesse und Verfahren.

2. Die Architektur vereinfachen

Wenn die Daten mit begrenzten Ressourcen schnell zu den Nutzern gelangen sollen, ist es notwendig, die Datenarchitektur zu vereinfachen. Für die Führungskräfte im Unternehmen ist es wichtig, hierbei eine grundlegende Tatsache zu verinnerlichen: Am schnellsten lässt sich ein analytischer Mehrwert erzielen, wenn keine Hardware und Software mehr verwaltet werden muss. Die Lösung bietet ein Managed Cloud Service, mit dem große und kleine Unternehmen ihre Informationssysteme sofort und nahezu unbegrenzt dynamisch erweitern und verkleinern können – automatisch oder on-the-fly. Ein solcher Service kann flexibel sämtliche digitale IT-Herausforderungen lösen sowie eine Infrastruktur liefern, die die Bedürfnisse vollständig und dynamisch erfüllt – und das alles aus einer einzigen Quelle. Das hat mehrere Vorteile: Zum einen werden Datensilos beseitigt und stattdessen eine sichere und strukturierte Plattform geschaffen, die für alle Beteiligten gleichermaßen zugänglich ist. Auf der anderen Seite bedeutet das für die IT-Experten, dass sie weniger Systeme hosten und weniger "Knöpfe" drücken müssen, was gleichbedeutend ist mit weniger manueller Abstimmung und Administration.

3. Alle Beteiligten ins Boot holen

Data Engineering ist ein Teamsport – das ist nicht neu. Doch wie findet man die richtigen Teammitglieder? Die Antwort liegt in den Daten, denn letztendlich hängt es von ihnen ab, welche Nutzer, Manager und Abteilungen am meisten profitieren können. Auch die IT-Abteilung sollte involviert werden. Ihre Aufgabe ist es, zu klären, welche Data-Engineering-Ressourcen bereits vorhanden sind. Auch müssen sie klären, welche Mitglieder ihres IT-Teams dazu bereit sind, eine neue Rolle zu übernehmen und seitens des Data Engineerings zu unterstützen. Nicht zuletzt ist es entscheidend, sich die Unterstützung von Vorstand und Geschäftsführung auf höchster Ebene zu sichern.

Auf dieser Basis können die erforderlichen Fähigkeiten für die Datenaufnahme, -aufbereitung, -transformation, -exploration und -bereitstellung entwickelt werden, idealerweise basierend auf DataOps-Verfahren und Methoden der kontinuierlichen Integration/kontinuierlichen Bereitstellung.

4. Data Governance von Anfang an berücksichtigen

Sobald die Abstimmung mit den Fachbereichen und der IT erfolgt ist, sollten Verantwortliche für die Überwachung der Datenqualität benannt werden. Denn die Grundlagen von Data Governance, Datensicherheit, -pflege und -reihenfolge sowie andere Datenverwaltungspraktiken müssen jederzeit nachvollziehbar umgesetzt werden. Wichtig hierbei ist, ob das jeweilige Unternehmen bereits über eine DevOps-Strategie verfügt. Wenn ja: Wer ist dafür verantwortlich und ist der- oder diejenige auch mit den Prinzipien von DataOps vertraut? DataOps-Praktiken tragen schließlich entscheidend dazu bei, eine gute Data-Governance-Grundlage zu schaffen. Nur, wenn den Benutzern aktuelle und hochwertige Daten zugänglich sind, können sie diese auch selbständig vorbereiten, durchsuchen, analysieren und modellieren.

5. Maximale Effizienz dank der richtigen technologischen Grundlage

Häufig ist es besser, Daten erst dann zu verarbeiten, wenn sie ihr Ziel erreicht haben, insbesondere wenn dieses Ziel ein skalierbarer Cloud-Service ist. So oder so erfordert die Transformation von Daten große Mengen an Rechenressourcen. Es ist daher sinnvoll, die Möglichkeiten der modernen Datenverarbeitung in der Cloud bestmöglich auszuschöpfen.

Die besten Cloud-Datenplattformen umfassen skalierbare Pipeline-Services, die Streaming- und Stapeldaten verarbeiten können. Sie ermöglichen eine Vielzahl von gleichzeitigen Workloads, einschließlich Data Warehouses, Data Lakes, Data Pipelines und Datenaustausch, sowie die Unterstützung von Business-Intelligence- und Data-Science-Anwendungen. Eine angemessen konzipierte Cloud-Datenplattform kann all dies mit einem hochintegrierten Satz von Services zusammenführen und so die Nutzung der Daten optimieren. Sobald die Daten an einer Stelle vereinheitlicht sind, ist es einfacher, auf sie zuzugreifen, sie zu analysieren und sie mit anderen Beteiligten auszutauschen. Außerdem können IT-Experten ihren Fokus von der Verwaltung der Infrastruktur auf die einfache Verwaltung der Daten als Single Source of Truth verlagern.

6. Die Zukunft im Blick behalten

Bei der Auswahl von Data-Engineering-Technologien, dem Design von Data Pipelines und der Einrichtung neuer Datenarchitekturen ist zu überlegen, wie die aktuellen Anforderungen des Unternehmens erfüllt und gleichzeitig die Weichen für die Zukunft gestellt werden können. Das betrifft zum Beispiel fortschrittlichere Data-Science-Initiativen wie maschinelles Lernen und Deep Learning.

Ziel des Data Engineers muss es sein, nicht nur eine kleine Gruppe von Data Scientists und Analysten zu bedienen, sondern auch die anderen 90 Prozent der Mitarbeiter zu unterstützen, die bei ihrer Arbeit auf Daten angewiesen sind. Voraussetzung hierfür ist eine produktbezogene Denkweise, die darauf zielt, Umsatz zu generieren, die Effizienz zu maximieren und Mitarbeitern zu helfen, neue Möglichkeiten für das Unternehmen zu entdecken.

Fazit

Viele Data-Engineering-Aktivitäten können heute von hochtechnischen Datenexperten in die Hände von Geschäftsanwendern übergeben werden. Das nützt beiden Seiten: Während die IT die Kontrolle über einige Datentypen abgibt, bieten benutzerfreundliche Data-Engineering-Tools den Fachanwendern mehr Unabhängigkeit. Um eine funktionierende und produktive Data-Engineering-Praxis zu etablieren, ist jedoch ein Gleichgewicht zwischen Agilität und Kontrolle unbedingt erforderlich. Gefragt sind deshalb einerseits umfassende Kontrollen, um sicherzustellen, dass die Daten sauber, genau und auf dem neuesten Stand sind. Andererseits sollen die Nutzer nicht durch allzu schwerfällige Data-Governance-Verfahren ausgebremst werden. Die technologische Herausforderung ist dabei, diese Prinzipien beim Einlesen, Replizieren, Transformieren und Bereitstellen von Daten im gesamten Unternehmen einzuhalten und Verfahren der kontinuierlichen Integration und Bereitstellung für die mit der Verwaltung der Datenumgebung betrauten IT-Mitarbeiter einzurichten. Moderne Technologien wie die Data Cloud bilden dabei eine agile, aber gleichzeitig sichere und verlässliche Grundlage. Letztendlich besteht das Ziel darin, eine Umgebung zu gestalten, die breit zugänglich und einfach zu bedienen ist, ohne dabei zusätzliche Sicherheitslücken zu schaffen.

Autor

Arjan van Staveren

Arjan van Staveren war 2017 der erste deutsche Mitarbeiter beim Data-Cloud-Unternehmen Snowflake. Heute ist er als Country Manager Germany für den deutschen Markt verantwortlich.
>> Weiterlesen
Das könnte Sie auch interessieren
Kommentare (0)

Neuen Kommentar schreiben