Beschäftigen Sie sich mit Big Data, kommen Sie früher oder später mit den Begriffen Data Lake und Data Warehouse in Kontakt. Obwohl beide Begriffe ähnlich klingen und zum Teil fälschlicherweise als Synonym verwendet werden, bestehen zwischen beiden Arten der Datensammlung mehr Unterschiede als Gemeinsamkeiten.
In diesem Artikel werden wir Ihnen erklären, was ein Data Lake bzw. Data Warehouse ist. Außerdem gehen wir näher auf die Vorzüge und Unterschiede beider Varianten ein. Ebenso zeigen wir Ihnen anhand von Beispielen mögliche Anwendungsgebiete im Unternehmen.
Übersicht
Bei einem Data Lake handelt es sich um ein Repository zum Speichern großer Mengen von Rohdaten. Diese Daten werden in verschiedenen Datenformaten von E-Mails, PDFs, Excel-Dateien, Datenbanken, JSON- und XML-Files bis hin zu Bildern, Videos und Audiodaten abgelegt. Im Data Lake werden demnach sowohl unstrukturierter, halb-strukturierter als auch vollständig strukturierter Daten gespeichert. Der Zweck der Daten wird erst bei der Verwendung festgelegt. Dadurch ist ein Data Lake flexibel und einfach zu skalieren. Dafür benötigt es spezielle Tools und Expertenwissen, um die Daten nutzen zu können.
Ein Data Warehouse (DWH) ist ebenfalls ein digitales Speichersystem, um die Daten aus verschiedenen Quellen miteinander verbinden zu können. Diese werden durch das DWH für Berichte, Analysen und weitere Anwendungsfälle im Unternehmen zugänglich gemacht. Hauptsächlich werden in einem DWH strukturierte Daten gespeichert, etwa in Form von Datenbanken. Der Zweck der Daten muss bereits zu Beginn festgelegt werden, um die Datenstruktur definieren zu können. Eine Skalierung ist entsprechend kompliziert und kostspielig. Dafür sind die Daten einfacher zu verwenden, etwa direkt von den Business-Anwendern.
Data Lake | Data Warehouse | |
Datenstruktur | Strukturierte und unstrukturierte Daten | Strukturierte Daten |
Datenformate | E-Mails, PDFs, Excel-Dateien, Datenbanken, JSON- und XML-Files, Bilder, Videos, Audiodateien | Excel-Dateien, Datenbanken, JSON- und XML-Files |
Datenquellen | Big Data, Internet of Things, Social Media, Streaming Data, Anwendungen, Geschäftsdaten, Reporting | Anwendungen, Geschäftsdaten, Reporting |
Skalierbarkeit | einfach, kostengünstig zu skalieren | aufwendige, kostenintensive Skalierung |
Zweck der Daten | erst bei Nutzung festgelegt | zu Beginn festgelegt |
Benutzer | Data-Scientists, KI | Business-Anwender |
Zugänglichkeit | Zugang nur mit speziellen Know-how und Tools möglich | schnelle, unkomplizierte Zugänglichkeit zu den Daten |
Was ist ein Data Lake?
Bei einem Data Lake handelt es sich um ein Repository zum Speichern großer Mengen von Rohdaten. Durch die Flexibilität und Skalierbarkeit ermöglicht es die Aufnahme sowie Verarbeitung unstrukturierter, halb-strukturierter sowie vollständig strukturierter Daten. So können in einem Data Lake beispielsweise E-Mails, PDFs, Excel-Dateien, Datenbanken, JSON- und XML-Files, aber auch Bilder oder Videos gespeichert werden.
Eingesetzt werden Data Lakes aufgrund dieser Eigenschaften, vor allem dann, wenn Vorhersagen getroffen werden sollen, etwa um das Kundenverhalten vorherzusagen und die Kundenerfahrung zu verbessern. Doch auch zum Anlernen sowie Trainieren von KIs können die Daten in Data Lakes genutzt werden.
Endanwender haben in aller Regel keinen Zugriff auf die Daten in Data Lakes. Stattdessen werden sie von Data-Spezialisten verwendet und mit speziellen Anwendungen aufbereitet sowie zugänglich gemacht.
Eigenschaften:
- Erfassung von strukturierten Daten, meist in Form von Tabellen, z. B. in Datenbanken
- Vorab Planung und Festlegung des Datenmodells notwendig
- Starres Modell, dadurch wenig anpassbar und schwer zu skalieren
- Hohe Robustheit
- Einfach zu pflegen und zu bedienen
- Durch Endanwender nutzbar
- Arbeitet mit operativen Daten
Was ist ein Data Warehouse?
Ein Data Warehouse (DWH) ist ein digitales Speichersystem. Es verbindet die Daten aus verschiedenen Quellen miteinander, um sie für Berichte, Analysen und weitere Anwendungsfälle im Unternehmen zugänglich zu machen. So spielen Data Warehouses auch eine zentrale Rolle bei der Einhaltung gesetzlicher Bestimmungen.
Hauptsächlich werden in einem DWH strukturierte Daten gespeichert, etwa in Form von Datenbanken. Die Daten im Warehouse stammen aus Anwendungsdatenbanken, externen Quellen (z. B. sozialen Medien, Wetter-Apps), Tabellenkalkulationen und operativen Systemen (z. B. ERP, CRM). Es werden Daten dabei historisch gespeichert, was Auswertungen und Vergleiche verschiedener Data Sets ermöglicht.
Aufgrund der Strukturiertheit der Daten, sind sie von Endanwendern direkt nutzbar. Zugriff erfolgt etwa durch Reporting-Anwendungen, Data-Miner oder Planungs- und Kontrollsysteme.
Eigenschaften:
- Erfassung von strukturierten und unstrukturierten Daten in vielfältigen Formaten
- Datenformat erst beim Auslesen definiert
- Hohe Flexibilität bei Datenquellen und -formaten
- Großer Pflegebedarf, um Datenqualität und -aktualität zu gewährleisten (Vermeidung Data Swamp)
- Einfach zu skalieren
- Genutzt von Data Scientists und KI
- Benötigt spezielle Tools zum strukturierten Zugriff auf die Daten
Data Lake vs. Data Warehouse – die wichtigsten Unterschiede
Data Lake | Data Warehouse | |
Datenstruktur | Strukturierte und unstrukturierte Daten | Strukturierte Daten |
Datenformate | E-Mails, PDFs, Excel-Dateien, Datenbanken, JSON- und XML-Files, Bilder, Videos, Audiodateien | Excel-Dateien, Datenbanken, JSON- und XML-Files |
Datenquellen | Big Data, Internet of Things, Social Media, Streaming Data, Anwendungen, Geschäftsdaten, Reporting | Anwendungen, Geschäftsdaten, Reporting |
Skalierbarkeit | einfach, kostengünstig zu skalieren | aufwendige, kostenintensive Skalierung |
Zweck der Daten | erst bei Nutzung festgelegt | zu Beginn festgelegt |
Benutzer | Data-Scientists, KI | Business-Anwender |
Zugänglichkeit | Zugang nur mit speziellen Know-how und Tools möglich | schnelle, unkomplizierte Zugänglichkeit zu den Daten |
Datenstruktur und -qualität
Ein Unterschied und vielleicht sogar der größte zwischen Data Lake und Data Warehouse ist die Datenstruktur sowie -qualität.
Im Data Lake werden Rohdaten gespeichert. Dabei handelt es sich um Daten, die nicht strukturiert, aufbereitet oder in einer anderen Form verarbeitet wurden. Hingegen dient ein Data Warehouse zur Speicherung verarbeiteter, strukturierter und selektierter Daten.
Dieser Unterschied führt dazu, dass es weitere Unterschiede hinsichtlich der Einsatzgebiete und Vor- sowie Nachteile beider Varianten gibt.
Ein Data Lake eignet sich zum Speichern großer Daten. Diese müssen nicht strukturiert werden, sondern lassen sich einfach abkippen. Derartige Datenmengen können beispielsweise zum Trainieren einer KI verwendet werden. Nachteile eines Data Lakes sind die Mehrkosten aufgrund der großen Speichermengen. Außerdem besteht das Risiko der Entstehung von unüberblickbaren Datensümpfen, wenn keine ausreichende Sicherung der Datenqualität vorliegt.
Auf der anderen Seiten müssen Daten für die Verwendung im Data Warehouse aufbereitet werden. Ebenso muss sich vor dem Aufsetzen des Warehouses überlegt werden, wie die Datenstruktur aufzusetzen ist, was zu einem erhöhten Planungsaufwand und geringerer Flexibilität führt. Dafür haben die Daten eine höhere Qualität, sind von einem größeren Personenkreis nutzbar und benötigen weniger Ressourcen zur Speicherung.
Skalierbarkeit
Ein Data Warehouse ist flexibler, was die zu speichernden Daten angeht. Es können sämtliche Informationen gespeichert werden, ohne diese vorher in jeglicher Form aufzubereiten. Aufgrund dieser Flexibilität ist ein Data Lake leicht skalierbar.
Gegenteilig stellt sich das beim Data Warehouse dar. Hier müssen sie Strukturen für die Daten von Beginn an festgelegt werden. Die Erweiterung eines DWH, um neue Datenstrukturen abzubilden oder es für einen neuen Anwendungsfall nutzbar zu machen, erfordert daher Planungs- und Anpassungsaufwand. Eine Skalierung ist somit nur mit deutlich mehr Ressourcen umsetzbar.
Zweck der Daten
Auch beim Zweck der Daten gibt es zwischen Data Warehouse und Data Lake einem erheblichen Unterschied. Wie erwähnt, müssen die Strukturen in einem DHW zu Beginn festgelegt werden und lassen sich nur mit erheblichem Aufwand erweitern. Entsprechend muss hier bereits zu Beginn festgelegt werden, zu welchem Zweck das Warehouse aufgesetzt wird.
Eine Data Lake ist im Vergleich dazu wesentlich flexibler. Hier kann der Verwendungszweck erst später festgelegt werden. Ebenso können die Daten problemlos für neue Anwendungsfälle genutzt werden. Mit speziellen Tools werden sie dann von Datenexperten für den jeweiligen Use Case aufbereitet und zugänglich gemacht.
Zugänglichkeit und Benutzerfreundlichkeit
Während die Starrheit eines DHW einerseits ein Nachteil hinsichtlich der Flexibilität und Skalierbarkeit ist, hat es Vorteile für die Anwendung. Die Daten sind klar strukturiert, verständlich und lassen sich einfach aufbereiten. Damit können sie direkt durch den Endanwender, etwa in Form von Reportings, genutzt werden.
Die Anwender eines Data Lakes auf der anderen Seite sind Experten für Datenverarbeitung, etwa Data Analysts und Scientists. Sie machen die unstrukturierten Rohdaten mithilfe spezieller Tools zugänglich sowie les- und auswertbar.
Data Lake vs. Data Warehouse – Was eignet sich für meine Anforderungen?
Sie haben nun erfahren, was Data Lakes sowie Data Warehouses sind und worin die Unterschiede bestehen. Jetzt möchten wir anhand von vier Beispielen zeigen, wann ein Lake und wann ein Warehouse zum Einsatz kommt. Dabei erklären wir, welche Daten warum in welcher Form gespeichert werden.
Anmerkung: Es kommen in den meisten Unternehmen sowohl Data Lakes als auch Data Warehouses zum Einsatz. Letztere können sogar Bestandteil eines Data Lakes sein.
Daten im Gesundheitswesen – fehlende Strukturen
Im Gesundheitswesen kommen große Mengen unstrukturierter Daten vor. Denken Sie an Arztbriefe, händisch ausgefüllte Rezepte und die Daten verschiedener Kliniken sowie Arztpraxen. Hier werden Echtzeitdaten benötigt, die jederzeit abgerufen werden können. Der Einsatz eines Data Lakes wäre in dem Fall ideal. Dennoch sind Data Warehouses seit Jahren im Gesundheitswesen im Einsatz.
Buchhaltungsdaten – grundsätzlich strukturiert
Die Buchhaltung eines Unternehmens steckt voller Daten. Diese haben festgelegte Formate und Anlageorte, um rechtliche Bestimmungen zur ordnungsgemäßen Buchführung einhalten sowie Bilanzen und Co. erstellen zu können. Beispielsweise haben Rechnungen eindeutige Nummern, Datensätze von Kunden haben ein definiertes Format und Geldflüsse werden auf Konten gebucht. Für die Buchhaltung kommen daher grundsätzlich Data Warehouses für die Datenhaltung zum Einsatz. Das können etwa SQL-Datenbanken sein, die hinter einer Buchhaltungssoftware laufen. Oftmals werden diese mit kleineren Data-Lakes kombiniert, um unstrukturierte Daten in Form von Belegen durchsuchbar zu machen.
Vorhersagen treffen dank Big Data
Vorhersagen werden von Unternehmen in allen Bereichen des Lebens getroffen. Etwa werden Wahlergebnisse anhand von den Aktivitäten in sozialen Medien vorausgesagt. Andererseits helfen Prognosen einem Unternehmen bei der Kosteneinsparungen oder beim Erkennen von Engpässen. Das ist etwa im Transportwesen, konkret im Supply Chain Management der Fall. Derartige Anwendungsfälle benötigen eine sehr große Menge an Daten aus verschiedenen Quellen und in verschiedenen Formaten, die ausgewertet werden können und müssen. Entsprechend eignet sich hier ein Data Lake bestens zur Datenspeicherung.
Anlernen und trainieren von KIs
Künstliche Intelligenzen bilden die neuronalen Netze von menschlichen Gehirnen nach. Sie sollen dadurch wie ein Mensch denken und handeln können. Damit dies möglich ist, müssen derartige Programme mit schier unendlichen Datenmengen jeglicher Form von Text über Bilder und Videos gefüttert werden. Um diese Daten nachzuhalten, kommen Data Lakes zum Einsatz. Ist die KI einmal angelernt, ermöglicht sie zudem das Arbeiten mit Data Lakes. Sie kann dank der neuronalen Netze eigenständig Zusammenhänge zwischen Daten erkennen, die Daten verknüpfen und auch auswerten. Gleiches kann sie auch mit neuen Daten tun, die anschließend im Data Lake gespeichert werden.
Aktuelle KI-Jobs
Sie interessieren sich für eine IT-Karriere? Hier finden Sie aktuelle Stellenanzeigen im KI-Bereich, die auf unserer Seite veröffentlicht wurden:
Fazit – Data Lake vs. Data Warehouse: Das sind die Unterschiede
Data Lake und Data Warehouse sind zwei Begriffe im Kosmos von Big Data. Obwohl beide ähnlich klingen, unterscheiden sie sich fachlich erheblich. Diese Unterschiede reichen von der Datenstruktur, -qualität und -menge über die Skalierbarkeit und Nutzerfreundlichkeit bis letztendlich hin zu den Anwendungsgebieten. All das haben wir Ihnen im Artikel erklärt. Darüber hinaus haben wir anhand von Praxisbeispielen gezeigt, wann ein Data Lake und wann ein Data Warehouse eingesetzt wird.
Wir hoffen, dass wir Ihnen damit weiterhelfen konnten!
Newsletter
Keine Stellenangebote mehr verpassen mit unserem Newsletter.
Alle 14 Tage. Jederzeit kündbar. Keine Werbung.