Freigeben über


Was ist ein Data Lakehouse?

Ein Data Lakehouse ist ein Datenmanagementsystem, das die Vorteile von Data Lakes und Data Warehouses kombiniert. In diesem Artikel wird das architektonische Muster des Lakehouses und dessen Möglichkeiten in Azure Databricks beschrieben.

Ein Diagramm der Lakehouse-Architektur mit Unity-Katalog- und Deltatabellen.

Wofür wird ein Data Lakehouse verwendet?

Ein Data Lakehouse bietet skalierbare Speicher- und Verarbeitungskapazität für moderne Organisationen, die ein isoliertes System für die Verarbeitung verschiedener Workloads vermeiden möchten, z. B. Machine Learning (ML) und Business Intelligence (BI). Ein Data Lakehouse kann dazu beitragen, eine einzige Wahrheitsquelle zu schaffen, redundante Kosten zu beseitigen und die Aktualität der Daten sicherzustellen.

Data Lakehouses verwenden häufig ein Datenentwurfsmuster, das Daten inkrementell verbessert, anreichert und optimiert, während sie sich durch Ebenen von Staging und Transformation bewegt. Jede Schicht des Seehauses kann eine oder mehrere Schichten enthalten. Dieses Muster wird häufig als Medaillenarchitektur bezeichnet. Weitere Informationen finden Sie unter Was ist die Medallion Lakehouse-Architektur?

Wie funktioniert das Databricks Lakehouse?

Databricks basiert auf Apache Spark. Apache Spark ermöglicht ein massiv skalierbares Modul, das auf Computeressourcen ausgeführt wird, die vom Speicher entkoppelt werden. Weitere Informationen finden Sie unter Apache Spark auf Azure Databricks

Das Databricks Lakehouse nutzt zwei zusätzliche Schlüsseltechnologien:

  • Delta Lake: eine optimierte Speicherebene, die ACID-Transaktionen und Schemaerzwingung unterstützt.
  • Unity-Katalog: eine einheitliche, differenzierte Governance-Lösung für Daten und KI.

Datenaufnahme

Auf der Aufnahmeebene kommen Batch- oder Streamingdaten aus einer Vielzahl von Quellen und in einer Vielzahl von Formaten an. Diese erste logische Ebene stellt einen Ort bereit, an dem diese Daten im rohen Format landen. Wenn Sie diese Dateien in Delta-Tabellen konvertieren, können Sie mithilfe der Schemaerzwingungsfunktionen von Delta Lake nach fehlenden oder unerwarteten Daten suchen. Sie können den Unity-Katalog verwenden, um Tabellen gemäß Ihrem Datengovernancemodell und den erforderlichen Datenisolationsgrenzen zu registrieren. Unity Catalog ermöglicht es Ihnen, die Herkunft Ihrer Daten nachzuverfolgen, während sie transformiert und verfeinert wird, sowie ein einheitliches Governancemodell anzuwenden, um vertrauliche Daten privat und sicher zu halten.

Datenverarbeitung, Aufbereitung und Integration

Nach der Überprüfung können Sie ihre Daten zusammenstellen und verfeinern. Data Scientists und Machine Learning-Experten arbeiten in dieser Phase häufig mit Daten zusammen, um mit der Kombination oder Erstellung neuer Features und vollständiger Datenbereinigung zu beginnen. Nachdem Ihre Daten gründlich bereinigt wurden, kann sie in Tabellen integriert und neu organisiert werden, die ihren speziellen Geschäftsanforderungen entsprechen.

Ein Schema-on-Write-Ansatz, kombiniert mit Delta-Schemaentwicklungsfunktionen, bedeutet, dass Sie Änderungen an dieser Ebene vornehmen können, ohne die nachgelagerte Logik, die Daten an Ihre Endbenutzer liefert, neu schreiben zu müssen.

Datenbereitstellung

Die letzte Ebene dient sauberen, angereicherten Daten für Endbenutzer. Die endgültigen Tabellen sollten so konzipiert sein, dass Sie Daten für alle Ihre Anwendungsfälle bereitstellen. Ein einheitliches Governance-Modell bedeutet, dass Sie die Datenlinie zurück zu Ihrer einzigen Quelle der Wahrheit nachverfolgen können. Datenlayouts, die für unterschiedliche Aufgaben optimiert sind, ermöglichen Endbenutzern den Zugriff auf Daten für Machine Learning-Anwendungen, Data Engineering und Business Intelligence und Reporting.

Weitere Informationen zum Delta Lake finden Sie unter Was ist Delta Lake in Azure Databricks? Weitere Informationen zum Unity-Katalog finden Sie unter Was ist Unity-Katalog?

Funktionen eines Databricks-Seehauses

Ein auf Databricks aufgebautes Lakehouse ersetzt die derzeitige Abhängigkeit von Datenseen und Datenbanken für moderne Datenunternehmen. Einige wichtige Aufgaben, die Sie ausführen können, umfassen:

  • Echtzeitdatenverarbeitung: Verarbeiten von Streamingdaten in Echtzeit für sofortige Analyse und Aktion.
  • Datenintegration: Vereinheitlichen Sie Ihre Daten in einem einzigen System, um die Zusammenarbeit zu ermöglichen und eine einzige Wahrheitsquelle für Ihre Organisation zu schaffen.
  • Schemaentwicklung: Ändern Sie das Datenschema im Laufe der Zeit, um sich an die sich ändernden Geschäftsanforderungen anzupassen, ohne vorhandene Datenpipelinen zu unterbrechen.
  • Datentransformationen: Die Verwendung von Apache Spark und Delta Lake bringt Geschwindigkeit, Skalierbarkeit und Zuverlässigkeit zu Ihren Daten.
  • Datenanalyse und Berichterstellung: Führen Sie komplexe analytische Abfragen mit einem Modul aus, das für Data Warehouse-Workloads optimiert ist.
  • Maschinelles Lernen und KI: Wenden Sie erweiterte Analysetechniken auf alle Ihre Daten an. Verwenden Sie ML, um Ihre Daten zu bereichern und andere Workloads zu unterstützen.
  • Datenversionsverwaltung und -lineage: Verwalten Sie den Versionsverlauf für Datasets, und verfolgen Sie die Linien, um die Herkunft und Rückverfolgbarkeit von Daten sicherzustellen.
  • Datengovernance: Verwenden Sie ein einzelnes, einheitliches System, um den Zugriff auf Ihre Daten zu steuern und Audits durchzuführen.
  • Datenfreigabe: Fördern Sie die Zusammenarbeit, indem Sie die Freigabe von kuratierten Datensätzen, Berichten und Erkenntnissen über Teamgrenzen hinweg ermöglichen.
  • Betriebsanalysen: Überwachen Sie Datenqualitätsmetriken, Modellqualitätsmetriken und Drift, indem Sie maschinelles Lernen auf Lakehouse-Überwachungsdaten anwenden.

Lakehouse vs Data Lake vs Data Warehouse

Data Warehouses haben Business Intelligence (BI)-Entscheidungen seit etwa 30 Jahren unterstützt, nachdem sie sich als eine Reihe von Entwurfsrichtlinien für Systeme entwickelt haben, die den Datenfluss steuern. Enterprise Data Warehouses optimieren Abfragen für BI-Berichte, können aber minuten oder sogar Stunden dauern, um Ergebnisse zu generieren. Für Daten entwickelt, die sich mit hoher Häufigkeit nicht ändern können, versuchen Data Warehouses, Konflikte zwischen gleichzeitig ausgeführten Abfragen zu verhindern. Viele Data Warehouses basieren auf proprietären Formaten, die häufig die Unterstützung für maschinelles Lernen einschränken. Data Warehouse auf Azure Databricks nutzt die Funktionen eines Databricks Lakehouse und Databricks SQL. Weitere Informationen finden Sie unter Was ist Data Warehouse für Azure Databricks?.

Angetrieben durch technologische Fortschritte in der Datenspeicherung und durch exponentielle Zunahmen der Arten und des Datenvolumens sind Datenseen im letzten Jahrzehnt weit verbreitet in Anwendungen geworden. Data Lakes speichern und verarbeiten Daten billig und effizient. Datenseen werden häufig gegen Data Warehouses definiert: Ein Data Warehouse liefert saubere, strukturierte Daten für BI-Analysen, während ein Data Lake dauerhaft und billig Daten jeglicher Art in jedem Format speichert. Viele Organisationen verwenden Datenseen für Data Science und maschinelles Lernen, aber nicht für BI-Berichte aufgrund ihrer nichtvalidierten Natur.

Das Data Lakehouse kombiniert die Vorteile von Data Lakes und Data Warehouses und bietet:

  • Offener, direkter Zugriff auf Daten, die in Standarddatenformaten gespeichert sind.
  • Für maschinelles Lernen und Data Science optimierte Indizierungsprotokolle.
  • Niedrige Abfragelatenz und hohe Zuverlässigkeit für Business Intelligence und erweiterte Analysen.

Durch die Kombination einer optimierten Metadatenebene mit validierten Daten, die in Standardformaten im Cloudobjektspeicher gespeichert sind, ermöglicht es Data Lakehouse Data Scientists und ML-Technikern, Modelle aus denselben datengesteuerten BI-Berichten zu erstellen.

Nächster Schritt

Weitere Informationen zu den Grundsätzen und bewährten Methoden für die Implementierung und Ausführung eines Seehauses mit Databricks finden Sie in der Einführung in das gut durchdachte Datenseehaus