Benoit Dageville 01. September 2020

Das Zeitalter der Data Cloud

Vom Einzelhandel über Software-Unternehmen bis hin zur Medizin: Inzwischen hat der Bedarf an schnellen, elastischen und gleichzeitig kostengünstigen Lösungen zur Speicherung und Analyse großer Datenmengen jede erdenkliche Branche erreicht. Um diese Bedürfnisse decken zu können, liegt die Zukunft der Daten in der Cloud – da ist sich laut einer Bitkom-Umfrage der Großteil der deutschen Unternehmen einig [1]. 76 Prozent der insgesamt 555 befragten Firmen gaben 2019 an, Rechenleistungen aus der Cloud zu nutzen. Das sind zehn Prozent mehr als noch im Jahr 2017. Und: 77 Prozent von denen, die eine oder mehrere Clouds für ihre Daten verwenden, sehen darin einen wesentlichen Beitrag für die Digitalisierung ihres Unternehmens.

Dass aber nicht jede Lösung im Ernstfall das leisten kann, was sich Geschäftsführer von ihr erhofften, hat die Coronakrise einmal mehr verdeutlicht. Der Artikel erklärt, worauf IT-Verantwortliche jetzt achten müssen, um langfristige Flexibilität für ihre großen Datenvolumina zu gewährleisten.

Big Data gestern und heute

Um verstehen zu können, wohin sich der Trend entwickelt, wenn es um große Datenmengen geht, ist es zunächst sinnvoll, einen Blick in die Vergangenheit zu werfen. Denn woher kommt die Technologie überhaupt, die ein scheinbar grenzenloses Wachstum von Unternehmen wie Google oder Amazon erst ermöglicht? Obwohl sich kluge Köpfe bereits seit Jahrzehnten mit der Frage, wie sich viele Daten bestmöglich speichern, verwalten und analysieren lassen, auseinandersetzen, entstand die Bezeichnung "Big Data" erst in den 90er-Jahren. Im Zuge der flächendeckenden Einführung des Internets und der daraus resultierenden Digitalisierung aller Unternehmensprozesse, durch welche das Volumen gesammelter Daten innerhalb kürzester Zeit in die Höhe schoss, wurde eine Weiterentwicklung der bestehenden Technologien dringend notwendig – und zwar nicht nur in der Theorie, sondern praktisch.

Eine beliebte Möglichkeit, um nicht nur die Kontrolle über seine enormen Datenmengen zu behalten, sondern auch einen echten Mehrwert daraus zu ziehen, sind sogenannte "Data Warehouses". Sie beschreiben einen zentrales Speichersystem, in dem Daten aus verschiedenen Quellen zusammengeführt werden. Die Idee für dieses Konzept entstand bereits in den 70er-Jahren. Der Vorteil der Data Warehouses besteht darin, dass sie eine globale Sicht auf Daten aus unterschiedlichen Datenbeständen ermöglichen. Gleichzeitig erleichtert sich der Zugriff für die Anwender deutlich. Doch es gibt auch Nachteile: Der größte Minuspunkt besteht darin, dass sich Data Warehouses hauptsächlich auf die Beschaffung und Bereitstellung von strukturierten Datensätzen, vor allem aus SQL-Datenbanken, fokussieren. Im Big-Data-Umfeld ist es für Unternehmen allerdings notwendig, auf eine Vielzahl an Informationen zugreifen zu können, die oft nur in unstrukturierter Form vorliegen [2].

Und genau an dieser Stelle kommen die Data Lakes ins Spiel: Sie haben im Vergleich zu Data Warehouses einen entscheidenden Vorteil, denn sie lassen sich sowohl mit strukturierten als auch mit semistrukturierten und unstrukturierten Rohdaten aus den unterschiedlichsten Quellen speisen. Das bedeutet, es können Bilder und Videos ebenso aufgenommen werden wie Texte oder auch jedes andere Dateiformat, was für Unternehmen ein extrem hohes Maß an Flexibilität im Umgang mit ihren Daten bedeutet. Eine Strukturierung und gegebenenfalls notwendige Umformatierung erfolgt erst dann, wenn die Daten abgefragt und analysiert werden. Doch auch Data Lakes bringen einen entscheidenden Nachteil mit sich: In den meisten Fällen bestehen sie nämlich aus der Summe von Einzellösungen, die nicht ganzheitlich funktionieren. Aus diesem Grund können sie in der Realität nur selten die Flexibilität einhalten, die ihre Nutzung in der Theorie verspricht.

Das Unternehmen Hadoop war lange Zeit der absolute Vorreiter im aufkommenden Big-Data-Trend und ermöglichte die Verarbeitung von Daten, deren Volumen zu diesem Zeitpunkt kaum vorstellbar war. Das Konzept hinter Hadoop besteht darin, große Datenmengen in kleinere Päckchen aufzuteilen. Diese werden parallel auf mehreren Clusterknoten gespeichert und später wieder zusammengeführt. Große Digitalfirmen wie Google, Yahoo und Facebook gehörten zu den ersten Unternehmen, die erfolgreich von dem quelloffenen Hadoop-Ökosystem Gebrauch machten [3].

Doch obwohl die Data-Management-Plattform zur damaligen Zeit ein vergleichsweise hohes Maß an Flexibilität bot, waren die Abfragen von Daten noch immer extrem kompliziert und zeitaufwändig. Das Grundprinzip von Hadoop, Datencluster fest an einzelne Knotenpunkte zu binden, war Vor- und Nachteil zugleich. Einerseits ist es gerade dieses Konzept, das Hadoop wirtschaftlich macht. Andererseits wird es dadurch aber träge, denn das notwendige Laden ganzer Festplatten in den Arbeitsspeicher, um die Daten verwertbar zu machen, ist ein extrem aufwändiger Prozess.

Zwischen Wunsch und Wirklichkeit

Seit dem Aufkommen des Big-Data-Trends und den damit verbundenen Lösungsansätzen hat sich einiges getan, dennoch ist der Begriff heute aktueller als je zuvor: Bereits im Jahr 2017 erzeugte jeder Mensch im Durchschnitt 600 bis 700 Megabyte täglich [4]. Inzwischen liegen wir bei über einem Gigabyte – Tendenz weiter steigend, denn die weltweit erzeugten Datenmengen verdoppeln sich etwa alle drei Jahre [5,6]. Um diesem enormen Wachstum gerecht zu werden, mussten neue Konzepte her, doch tatsächlich besaß erst das moderne Cloud-Computing das Potenzial, die Anforderungen der Unternehmen zu erfüllen. Es ermöglicht endlich massive Skalierungs- und Rechenleistungen in Höhe von mehreren Tera- und Petabyte und setzt damit Dimensionen in die Tat um, die vor einigen Jahren allein in der Vorstellung existierten. Allerdings ist das Problem der maximalen Agilität auch hier nicht abschließend gelöst. Nur weil ein Unternehmen seine Daten ab sofort in einer Cloud anstatt in einer lokalen Lösung zusammenfließen lässt, bedeutet das noch lange nicht, dass alle Anwender uneingeschränkt auf sie zugreifen und daraus profitieren können.

In vielen Fällen hat die zugrundeliegende Software der modernen Speicher, die auch Infrastructure Cloud genannt werden, ihre Wurzeln nämlich immer noch in traditionellen, lokalen Rechenzentren. In der Praxis können sie deshalb häufig nicht die Leistung einhalten, die sie versprechen. Das mussten zuletzt viele Unternehmen feststellen, die im Zuge der Corona-Pandemie ins Homeoffice gezwungen wurden. Hier stellte sich heraus, dass, wenn viele Anwender von unterschiedlichen Geräten und Netzwerken aus auf die Daten zugreifen wollen, die Latenzzeiten ähnlich lang sind, wie es früher der Fall war. Eine schnelle und barrierefreie Zusammenarbeit war deshalb leider nicht immer in dem Maße möglich, wie man es sich durch den Einsatz der neuen Technologien erhoffte. Erschwerend hinzu kommt die Tatsache, dass auch hier – ähnlich den klassischen Data Lakes – häufig zusätzliche Application Clouds wie die von Salesforce oder SAP benötigt werden, um aus den abliegenden Daten einen praktischen Mehrwert ziehen können.

Speicherort und Datenverarbeitung voneinander zu entkoppeln, hat für Unternehmen viele Vorteile. Einerseits bleiben sie auf diese Weise unabhängig von einem einzigen Anbieter und ermöglichen sich dadurch ein ganz neues Niveau von Elastizität. Das wiederum bedeutet, dass verwendete Rechen- und Speicherressourcen dynamisch hoch- und runterskaliert werden können. Falls nötig, können über die Anbieter sogar innerhalb weniger Minuten zusätzliche Ressourcen hinzu- oder wieder abgebucht werden. Gerade für junge Unternehmen ist das eine kostengünstige Option, da sie keine eigene IT-Infrastruktur aufbauen müssen und sich jeden Spielraum für ein mögliches Wachstum offenhalten.

Aber auch für Unternehmen, die bereits seit Längerem in ihrer Branche bestehen, bietet das erhebliche Kostenvorteile. Häufig gibt es hier tageszeitabhängige Lastspitzen, auf deren Grundlage sie ihre notwendigen Ressourcen berechnen. Andere wiederum müssen nur einmal wöchentlich eine komplexe Analyse durchführen, die die Normalauslastung des Systems jedoch bei Weitem übersteigt. In beiden Szenarien bieten moderne Cloud-Lösungen die Möglichkeit, auf genau die Kapazität zurückzugreifen, die gerade benötigt wird, ohne Ressourcen zu verschwenden oder diese durch einzelne Peaks zu überlasten. Andererseits wird das Problem der Datensilos aber auch dadurch nicht gelöst – es wird lediglich verschoben.

Wahre Flexibilität ist nur ohne Grenzen möglich

Was es braucht, um in vollem Umfang von der cloud-basierten Speicherung und Verarbeitung großer Datenmengen profitieren zu können, ist eine Schnittstelle, die beides auf sichere und lückenlose Art und Weise miteinander verbindet: eine übergreifende Data Cloud. Sie hat das Potenzial, eine Brücke zwischen der Infrastructure Cloud und der Application Cloud zu bauen, durch die Unternehmen flexibel von den Vorzügen der einzelnen Lösungsanbieter profitieren können. Doch wie ist es bei einer solchen Lösung um die Sicherheit der Daten bestellt?

Das größte Kapital eines jeden Unternehmens besteht in seinen Daten, das steht fest. Sie sind nicht nur der Motor, der alle aktuellen Geschäftsprozesse am Laufen hält, sondern können auch über zukünftige Trends und Optimierungsansätze Auskunft geben – man muss sie nur zielgerichtet zu analysieren und einzusetzen wissen. Werden große Datenmengen in die Obhut einer Data Cloud übergeben, ist es nur logisch, sich über diese Frage Gedanken zu machen. Leider fiel gerade dieser Aspekt im Kontext der Coronakrise zu häufig hinten runter, was ein erhöhtes Cyber-Crime-Risiko zur Folge hatte.

Doch es gibt auch positive Nachrichten: Während sich die IT-Verantwortlichen bei einer eigenständigen Lösung selbst um die Verwaltung und Aktualisierung von Sicherheits- und Datenschutzbestimmungen kümmern müssen, wird dies bei der Data Cloud komplett extern übernommen. Sie haben die Sicherheit der Unternehmensdaten rund um die Uhr im Blick, können etwaige Neuerungen innerhalb kürzester Zeit umsetzen und dadurch auch Sicherheitslücken schneller schließen, als ein Unternehmen es selbst zu leisten in der Lage wäre. Sogar Datenlieferanten und Kooperationspartner können dadurch auf alle relevanten Daten zugreifen, ohne dass daraus ein erhöhtes Sicherheitsrisiko resultiert. Was die zeit- und ortsunabhängige Zusammenarbeit betrifft, ist diese neue Flexibilität der nächste wichtige Schritt.

Finanzinstitute nutzen die Data Cloud beispielsweise, um personenbezogene Ereignisse wie eine Eheschließung oder den Wechsel des Arbeitsplatzes mit dem Angebot von gezielt eingesetzten Finanzdienstleistungen zu verbinden. Einzelhändler machen sich dasselbe Prinzip zunutze, um das Einkaufsverhalten ihrer Kunden zu analysieren und daraus abzuleiten, welches Produkt ihnen ebenfalls gefallen könnte. Beide Beispiele können nur dann funktionieren, wenn keine Grenzen zwischen den einzelnen datengetriebenen Prozessen, zum Beispiel den Informationen über vergangene Einkäufe und deren Interpretation, bestehen.

Weil die Grenzen zwischen den einzelnen Speicher- und Verwendungsorten aufgelöst wurden, bleiben die Daten stets auf dem neuesten Stand und das Ablegen, Analysieren und Reagieren geschieht ohne jegliche Verzögerungen. Nur so können Unternehmen letztlich an dem Wissen verdienen, das sie aus ihren Daten ziehen. Gerade im Hinblick auf die abebbende Coronakrise wird die Fähigkeit, agil reagieren zu können, immer wichtiger. Denn dieses Maß an Flexibilität kann im Hinblick auf große Datenmengen heute schon den Unterschied machen, um im Kampf mit der Konkurrenz auf lange Sicht zu bestehen.

Quellen

Bitkom: Drei von vier Unternehmen nutzen Cloud-Computing
Was ist ein Data Warehouse?
Big Data und Hadoop: Apache macht das Unmögliche möglich
Definition Datenwachstum: Wo kommen all die Daten her?
Big Data oder: Viel hilft viel?!
Big Data: Die weltweit erzeugten Datenvolumina verdoppeln sich alle drei Jahre

Autor

Benoit Dageville

Benoit Dageville ist Co-Founder und President of Product bei Snowflake. Vor der Gründung von Snowflake im Jahr 2012 war er 15 Jahre lang bei Oracle als...

Kommentare (0)

Benoit Dageville

Aktuelles

DevSecOps mit GitLab: Kostenfreie Roadshow in Frankfurt, Zürich, München, Düsseldorf, Berlin und Wien

Europäische Alternativen zu Cloud-Diensten

Konferenz für Java-Entwicklung 2025: Java-Tage in Frankfurt am Main

Das Zeitalter der Data Cloud

Big Data gestern und heute

Zwischen Wunsch und Wirklichkeit

Wahre Flexibilität ist nur ohne Grenzen möglich

Benoit Dageville

Vendor Lock-in vermeiden – mit einer klaren Strategie

Azure Container optimal nutzen: mehr Performance für Ihre Cloud

Resiliente und fehlertolerante Software-Architektur: cell-based architecture

Cloud-Monolith – Wie Serverless-Architektur in der Realität scheitert

Quantencomputing in der Praxis mit Amazon Braket

Cloud-Modernisierung und ESG-Ziele im Einklang

Neuen Kommentar schreiben