Zum Hauptinhalt springen Skip to page footer

Data Lake – Eigenschaften und Bedeutung dieser Form von Datenspeicher

Durch die Digitalisierung explodieren die Datenmengen geradezu. In Unternehmen entstehen Daten an einer Vielzahl von Punkten und liegen in zahlreichen Formaten vor, von Datenbanken über Webseiten bis hin zu Binärdateien. Aus diesem Grund kommen immer häufiger Data Lakes für die zentrale Speicherung zum Einsatz. Darüber hinaus bieten diese Speicherlösungen interessante Funktionen.

1 Was genau ist ein Data Lake und wie funktioniert er?

Ein Data Lake, was zu Deutsch so viel wie Datensee bedeutet, ist eine Form von Datenspeicherkonzept für Unternehmen. Der Begriff Datensee beschreibt das Konzept recht gut. Es handelt sich um eine Art von digitalem See, der alle Unternehmensdaten im Rohformat aufnimmt. Die Datenarchitektur ist die eines Objektspeichers und es gibt keine hierarchische Strukturierung wie bei einem dateibasiertem Storage.

Eine wichtige Eigenschaft ist die zentrale Speicherung an einem Ort. Im Gegensatz zu einer Datenbank, wo die Informationen in einem bestimmten, einheitlichen Format eingetragen sind, nimmt ein Data Lake Rohdaten auf. Das reicht von Dokumenten über PDF bis hin zu binären Dateien. Damit erfüllen die Daten, die im Lake gespeichert sind, die Kriterien von Big Data. Dies sind große Datenmengen, die sich rapide verändern und zu unstrukturiert sind, um sie mit einer einheitlichen Methode der Datenverarbeitung zu verwerten.

Im Betrieb hat ein solcher Data Lake bestimmte Funktionen und Eigenschaften. Aufgrund der umfassenden Datenspeicherung müssen eine sichere Verschlüsselung sowie ein Schutz der Zugänge mit Rollen gewährleistet werden, um den Zugriff zu kontrollieren. Außerdem sind Maßnahmen für die Sicherstellung der Datenqualität und Data Governance erforderlich. Etablieren Unternehmen solche Maßnahmen nicht, wird von einem Datensumpf gesprochen. Dies ist ein nicht verwalteter Lake, der nicht zugänglich ist, keine Basis für Analysen bildet und somit keinen Mehrwert bietet.

Die Datenarchitektur eines solchen Datensees folgt einem klaren Schema. Alle Datenquellen sind mit dem zentralen Speicher verbunden. Dort erfolgt die Verwaltung aller Dateien und die Sicherstellung der Datenqualität. Das Konzept basiert auf der Langzeitspeicherung aller dieser Informationen, sodass im Laufe der Zeit ein enormes Repository entsteht. Der Data Lake bietet zudem Schnittstellen zum Datenzugriff, in erster Linie für spezielle Tools, die für Big-Data-Analysen konzipiert sind. Flexibilität und Skalierbarkeit stehen bei einem Data Lake im Vordergrund. Auch aus diesem Grund befindet sich der Lake meist in der Cloud, was die Integration aller Datenquellen erleichtert. So gibt der Datensee kein festes Schema für die Datenverarbeitung vor und erlaubt es, Anfragen für die Extraktion über Algorithmen selbst zu designen. 

2 Vorteile sowie Herausforderungen beim Einsatz eines Data Lakes

Ein Data Lake öffnet Unternehmen Optionen, die andere Datenarchitekturen nicht bieten. Durch die Sammlung aller Daten in einem zentralen Objektspeicher steht eine Informationsdatenbank zur Verfügung, die für Analysen zum Einsatz kommt. Durch den umfassenden Ansatz bei der Speicherung und Auswahl schränkt ein Data Lake nicht ein, welche Informationen für die Auswertung bereitstehen, sondern bezieht das gesamte Spektrum mit ein. Da ein Data Lake Datenformate nativ speichert und keine Verarbeitung stattfindet, sind die Anforderungen an die Rechenleistung vergleichsweise niedrig. Somit lässt sich ein Data Lake kostengünstig und unter Einsatz geringer Ressourcen realisieren.
Es gibt jedoch auch Herausforderungen, die der Betrieb eines solchen Data Lakes mit sich bringt. Vor allem betrifft dies den Datenschutz. Im Data Lake sind kritische, personenbezogene und vertrauliche 
Informationen gespeichert. Es muss also unbedingt sichergestellt sein, dass die Daten sicher sind und auch intern kein Missbrauch möglich ist. Aufgrund der unstrukturierten Speicherlösung ist außerdem Fachwissen erforderlich, um sinnvolle Algorithmen zu konstruieren, um Analysen durchzuführen. So sind erfahrene Data Scientists erforderlich, um einen solchen Data Lake sinnvoll zu nutzen.

3 In diesen Szenarien kommen Data Lakes zum Einsatz

Data Lakes und Big Data gewinnen in jüngerer Vergangenheit an Bedeutung. Dafür gibt es Gründe, die vor allem mit dem technischen Fortschritt zusammenhängen. In Daten stecken wichtige Informationen, die jedoch erst durch Analysen sichtbar werden. Dies ist mit einem Data Lake möglich und einer der zentralen Gründe für den Betrieb eines solchen Datensilos.

Die Daten im Lake stellen die Basis für Analysen und das maschinelle Lernen dar. Dafür sind spezielle Anwendungen erforderlich. Hier gibt es inzwischen eine Reihe von Optionen und die Möglichkeiten wachsen laufend. Solche Anwendungen visualisieren Geschäftsdaten, erstellen Prognosen oder lesen Trends aus dem Verhalten der Kunden heraus. Damit entstehen Vorhersagen, die für die Entscheidungsfindung hilfreich sind. Mit Machine Learning ist es zudem möglich, Wahrscheinlichkeiten zu prognostizieren oder die Auswirkung von Entscheidungen zu simulieren. Im Kern geht es also immer darum, mit einem Data Lake Prozesse zu etablieren, die Informationen liefern und einen Wettbewerbsvorteil generieren.

Weiterhin zeigt sich, dass durch die Digitalisierung in immer mehr Branchen auch die Kernprozesse digital ablaufen. Ein gutes Beispiel hierfür ist die Industrie 4.0, die maßgeblich auf digitalen Lösungen aufbaut. Dadurch entstehen die Informationen, die für den Betrieb eines Data Lakes erforderlich sind. In diesen Szenarien erfordert es die steigende Menge an digitalen Daten zum einen, Struktur in diese zu bringen. Zum anderen bieten diese digitalen Datenquellen auch eine Chance, um durch Datenanalysen wichtige Erkenntnisse für Entscheidungen zu treffen.

Wie viel kostet Ihre Cloud? Wie viel kostet Ihre Cloud?

4 Die Unterschiede zwischen Data Lake und Data Warehouse

Nicht immer sind die Unterschiede zwischen einem Data Warehouse und dem Data Lake offensichtlich. Der zentrale Punkt, der die beiden Konzepte unterscheidet, ist die Form der Speicherung. Im Data Warehouse sind die Daten in einer Datenbank in einem einheitlichen Format gespeichert. Dafür dienen verschiedene Datenquellen, die gezielt ausgewählt und bei Bedarf in ein heterogenes Format gewandelt werden. Außerdem sind die Quellen begrenzt. Für ein Data Warehouse kommen nur strukturierte Daten infrage. Bilder, Videodaten und ähnliche binäre 
Informationen sammelt ein Data Warehouse nicht. Ansonsten speichern beide Konzepte Unternehmensdaten mit dem Ziel, diese für Analysen bereitzustellen.

Eine Mischform der beiden Konzepte ist das Data Lakehouse. Dieses kombiniert die Speicherung von Rohdaten mit der Strukturierung des Data Warehouses. Durch die strukturierten Daten ist es einfacher möglich, mit verschiedenen Anwendungen auf die Informationen zuzugreifen. Das ist hilfreich in der Business Intelligence und der Auswertung von Geschäftsinformationen. In der Praxis ergänzen sich Data Warehouse und Lake oft, während das Lakehouse versucht, beide Aufgaben zu übernehmen.

5 Data Lake – ein Konzept mit viel Potenzial

Data Lake ist eine Speicherlösung, die immer häufiger in der Praxis zum Einsatz kommt. Zunehmend wichtig sind die Datensilos für Unternehmen, weil es mit anderen Methoden immer schwerer wird, sinnvolle Analysen aus den wachsenden Datenmengen zu ziehen. Stetig sinkende Kosten in der IT erlauben es, solche Lösungen auch in kleinen und mittleren Unternehmen verfügbar zu machen. Der Einstieg gelingt beispielsweise über ein IT-Infrastruktur-Consulting mit TelemaxX. Gleichzeitig lassen sich dann die Plattformen integrieren, die für das Machine Learning und die Big-Data-Analysen erforderlich sind. Auf diesem Weg entsteht eine Infrastruktur, die zukünftig wertvolle Informationen für Geschäftsentscheidungen liefert.

Das könnte Sie auch interessieren:

Bandbreite

Bandbreite, wie wird gemessen
und wie viel brauchen Unternehmen

Mehr Informationen

Business Server

So finden Unternehmen
die richtigen IT-Systeme

Mehr Informationen

Business Internet

Das sind die Unterschiede zu
einem privaten Internetanschluss

Mehr Informationen

Colocation

Colocation-Dienstleistungen
für Unternehmen

Mehr Informationen

Ready to do business? Sprechen Sie uns an!