Einführung
Viele Organisationen haben die letzten beiden Jahrzehnte damit verbracht, Data Warehouses und Business Intelligence-Lösungen (BI) zu entwickeln, die auf relationalen Datenbanksystemen basieren. Bei vielen BI-Lösungen war es aufgrund der Kosten und Komplexität der verwendeten Daten nicht möglich, unstrukturierte Daten in Datenbanken zu speichern.
Data Lakes haben sich zu einer gängigen Lösung für dieses Problem entwickelt. Ein Data Lake bietet dateibasierten Speicher, in der Regel in einem verteilten Dateisystem, das eine hohe Skalierbarkeit großer Datenmengen unterstützt. Organisationen können strukturierte, teilstrukturierte und unstrukturierte Dateien im Data Lake speichern und dann von dort aus in Big Data-Verarbeitungstechnologien wie Apache Spark nutzen.
Azure Data Lake Storage Gen2 bietet eine cloudbasierte Lösung zur Data Lake-Speicherung in Microsoft Azure und unterstützt viele umfangreiche Analyselösungen, die auf Azure basieren.