Besser zusammen: das Lakehouse und Warehouse

Gilt für: SQL-Analyseendpunkt und Warehouse in Microsoft Fabric

In diesem Artikel werden die Data Warehousing-Arbeitslasten mit dem SQL-Analyseendpunkt des Lakehouse und Szenarien zu dessen Nutzung in Data Warehousing erläutert.

Was ist ein Lakehouse SQL-Analyseendpunkt?

Wenn Sie in Fabric ein Lakehouse erstellen, wird ein Warehouse automatisch erstellt.

Über den SQL-Analyseendpunkt können Sie Daten im Lakehouse mithilfe der T-SQL-Sprache und des TDS-Protokolls abfragen. Jedes Lakehouse hat einen SQL-Analyseendpunkt, und jeder Arbeitsbereich kann mehrere Lakehouse-Instanzen aufweisen. Die Anzahl der SQL-Analyseendpunkte in einem Arbeitsbereich entspricht der Anzahl der Lakehouse-Elemente.

  • Der SQL-Analyseendpunkt wird für jedes Lakehouse automatisch generiert und macht Delta-Tabellen daraus als SQL-Tabellen verfügbar, die mithilfe der T-SQL-Sprache abgefragt werden können.
  • Jede Deltatabelle aus einem Lakehouse wird als eine einzige Tabelle dargestellt. Daten sollten im Deltaformat vorliegen.
  • Das standardmäßige Power BI-Semantikmodell wird für jeden SQL-Analyseendpunkt erstellt und folgt der Namenskonvention der Lakehouse-Objekte.

Es ist nicht erforderlich, einen SQL-Analyseendpunkt in Microsoft Fabric zu erstellen. Microsoft Fabric-Benutzer*innen können keinen SQL-Analyseendpunkt in einem Arbeitsbereich erstellen. Für jedes Lakehouse wird automatisch ein SQL-Analyseendpunkt erstellt. Wenn Sie einen SQL-Analyseendpunkt erhalten möchten, erstellen Sie ein Lakehouse. Dann wird automatisch ein SQL-Analyseendpunkt dafür erstellt.

Hinweis

Im Hintergrund verwendet der SQL-Analyseendpunkt dieselbe Engine wie das Warehouse, um SQL-Abfragen mit hoher Leistung und niedriger Latenz zu verarbeiten.

Automatische Metadatenermittlung

Ein nahtloser Prozess liest die Deltaprotokolle aus dem Ordner mit Dateien und stellt sicher, dass SQL-Metadaten für Tabellen, z. B. Statistiken, immer auf dem neuesten Stand sind. Eine Benutzeraktion ist nicht erforderlich, und es ist auch nicht erforderlich, Daten zu importieren, zu kopieren oder eine Infrastruktur einzurichten. Weitere Informationen finden Sie unter Automatisch generiertes Schema im SQL-Analyseendpunkt.

Szenarien, die das Lakehouse für Data Warehousing ermöglicht

In Fabric bieten wir ein einziges Warehouse an.

Das Lakehouse mit seinem SQL-Analyseendpunkt, der vom Warehouse unterstützt wird, kann die herkömmliche Entscheidungsstruktur von Batch-, Streaming- oder Lambda-Architekturmustern vereinfachen. Zusammen mit einem Warehouse ermöglicht das Lakehouse viele additive Analyseszenarien. In diesem Abschnitt wird erläutert, wie Sie ein Lakehouse zusammen mit einem Warehouse nutzen können, um eine optimale Analysestrategie zu erzielen.

Analysen mit der Goldebene Ihres Fabric-Lakehouses

Eine der bekannten Strategien für die Lake-Datenorganisation ist eine Medaillon-Architektur, bei der die Dateien in Rohdaten- (Bronze-), konsolidierten (Silber-) und verfeinerten (Gold-)Ebenen organisiert werden. Ein SQL-Analyseendpunkt kann zum Analysieren von Daten in der Goldebene der Medallion-Architektur verwendet werden, wenn die Dateien im Delta Lake-Format – sogar außerhalb von Microsoft Fabric OneLake – gespeichert sind.

Sie können mithilfe von OneLake-Verknüpfungen auf Goldordner in externen Azure Data Lake-Speicherkonten verweisen, die von Synapse Spark- oder Azure Databricks-Engines verwaltet werden.

Warehouses können auch als Themenbereich oder domänenorientierte Lösungen für bestimmte Inhalte hinzugefügt werden, bei denen es möglicherweise individuelle Analyseanforderungen gibt.

Wenn Sie sich dafür entscheiden, Ihre Daten in Fabric zu behalten, ist es immer geöffnet und der Zugriff darauf über APIs, das Delta-Format und natürlich T-SQL möglich.

Abfragen als Dienst für Ihre Deltatabellen aus Lakehouse und anderen Elementen aus OneLake Data Hub

Es gibt Anwendungsfälle, in denen ein Analyst, eine wissenschaftliche Fachkraft für Daten (Data Scientist) oder technische Fachkraft für Daten (Data Engineer) möglicherweise Daten innerhalb eines Data Lakes abfragen muss. In Fabric ist diese End-to-End-Erfahrung vollständig SaaS-gestützt.

OneLake ist ein einziger, einheitlicher, logischer Data Lake für die gesamte Organisation. OneLake ist OneDrive für Daten. OneLake kann mehrere Arbeitsbereiche enthalten, z. B. an Ihren Organisationsbereichen entlang. Jedes Element in Fabric ermöglicht den Zugriff auf seine Daten über OneLake.

Daten in einem Microsoft Fabric-Lakehouse werden in OneLake mit der folgenden Ordnerstruktur physisch gespeichert:

  • Der Ordner /Files enthält unformatierte und unkonsolidierte (Bronze)-Dateien, die von technischen Fachkräften für Daten verarbeitet werden sollten, bevor sie analysiert werden. Die Dateien könnten in verschiedenen Formaten vorliegen, z. B. CSV, Parquet, verschiedenen Arten von Images usw.
  • Der Ordner /Tables enthält verfeinerte und konsolidierte (Gold)-Daten, die für die Geschäftsanalyse bereit sind. Die konsolidierten Daten sind im Delta Lake-Format.

Ein SQL-Analyseendpunkt kann Daten innerhalb von OneLake im Ordner /tables lesen. Die Analyse ist so einfach wie das Abfragen des SQL-Analyseendpunkt von Lakehouse. Zusammen mit dem Warehouse erhalten Sie auch datenbankübergreifende Abfragen und die Möglichkeit, mit Synapse Data Warehouse nahtlos von schreibgeschützten Abfragen zur Erstellung von zusätzlicher Geschäftslogik auf der Basis Ihrer OneLake-Daten zu wechseln.

Datentechnik mit Spark und Bereitstellen mit SQL

Datengesteuerte Unternehmen müssen ihre Back-End- und Analysesysteme nahezu in Echtzeit mit kundenorientierten Anwendungen synchronisieren. Die Auswirkung von Transaktionen muss in End-to-End-Prozessen, verwandten Anwendungen und OLTP-Systemen (Online Transaction Processing, Onlinetransaktionsverarbeitung) exakt widergespiegelt werden.

In Fabric können Sie Spark Streaming oder Datentechnik zum Zusammenstellen Ihrer Daten verwenden. Sie können mithilfe des Lakehouse SQL-Analyseendpunkts die Datenqualität und vorhandene T-SQL-Prozesse überprüfen. Dies kann in einer Medaillon-Architektur oder in mehreren Ebenen Ihres Lakehouses geschehen, die Bronze-, Silber-, Gold- oder Staging-, kuratierte und verfeinerte Daten zur Verfügung stellen. Sie können die über Spark erstellten Ordner und Tabellen anpassen, damit sie Ihre Datentechnik- und Geschäftsanforderungen erfüllen. Wenn ein Warehouse eingerichtet ist, können Sie es für alle Ihre Downstream-Business-Intelligence-Anwendungen und sonstigen Analyseanwendungsfälle nutzen, ohne Daten zu kopieren, Ansichten zu verwenden oder Daten mithilfe von CREATE TABLE AS SELECT (CTAS), gespeicherten Prozeduren und anderen DML/DDL-Befehlen zu verfeinern.

Integration in die Goldebene Ihres Open Lakehouses

Der Bereich eines SQL-Analyseendpunkts ist nicht auf die Datenanalyse nur im Fabric Lakehouse begrenzt. Ein SQL-Analyseendpunkt ermöglicht es Ihnen, Lake-Daten in jedem beliebigen Lakehouse mithilfe von Synapse Spark, Azure Databricks oder einer anderen Lake-orientierten Datentechnik-Engine zu verwenden. Die Daten können in Azure Data Lake Storage oder Amazon S3 gespeichert werden.

Auf diese enge, bidirektionale Integration in das Fabric Lakehouse kann immer über jede beliebige Engine mit offenen APIs, dem Delta-Format und natürlich T-SQL zugegriffen werden.

Datenvirtualisierung von externen Data Lakes mit Verknüpfungen

Sie können mithilfe von OneLake-Verknüpfungen auf Goldordner in externen Azure Data Lake-Speicherkonten, die von Synapse Spark- oder Azure Databricks-Engines verwaltet werden, sowie auf alle in Amazon S3 gespeicherten Deltatabellen verweisen.

Jeder Ordner, auf den mithilfe einer Verknüpfung verwiesen wird, kann über einen SQL-Analyseendpunkt analysiert werden, und eine SQL-Tabelle wird für die Daten erstellt, auf die verwiesen wird. Die SQL-Tabelle kann verwendet werden, um Daten in extern verwalteten Data Lakes verfügbar zu machen und Analysen dafür zu ermöglichen.

Diese Verknüpfung fungiert als virtuelles Warehouse, das von einem Warehouse für zusätzliche Downstream-Analyseanforderungen genutzt oder direkt abgefragt werden kann.

Führen Sie die folgenden Schritte zum Analysieren von Daten in externen Data Lake-Speicherkonten aus:

  1. Erstellen Sie eine Verknüpfung, die auf einen Ordner in Azure Data Lake Storage oder im Amazon S3-Konto verweist. Sobald Sie Verbindungsdetails und Anmeldeinformationen eingegeben haben, wird im Lakehouse eine Verknüpfung angezeigt.
  2. Wechseln Sie zum SQL-Analyseendpunkt des Lakehouse, und suchen Sie nach einer SQL-Tabelle mit einem Namen, der mit dem Verknüpfungsnamen übereinstimmt. Diese SQL-Tabelle verweist auf den Ordner im Ordner „ADLS/S3“.
  3. Fragen Sie die SQL-Tabelle ab, die auf Daten in „ADLS/S3“ verweist. Die Tabelle kann wie jede andere Tabelle im SQL-Analyseendpunkt verwendet werden. Sie können Tabellen verknüpfen, die auf Daten in verschiedenen Speicherkonten verweisen.

Hinweis

Wenn die SQL-Tabelle im SQL-Analyseendpunkt nicht sofort angezeigt wird, müssen Sie möglicherweise einige Minuten warten. Die SQL-Tabelle, die auf Daten im externen Speicherkonto verweist, wird mit einer Verzögerung erstellt.

Analysieren von archivierten oder historischen Daten in einem Data Lake

Die Datenpartitionierung ist eine bekannte Technik zur Optimierung des Datenzugriffs in Data Lakes. Partitionierte Datasets werden in den hierarchischen Ordnerstrukturen im Format /year=<year>/month=<month>/day=<day> gespeichert, wobei year, month, und day die Partitionierungsspalten sind. Dadurch können Sie Verlaufsdaten logisch getrennt in einem Format speichern, das es Compute-Engines ermöglicht, die Daten nach Bedarf mit leistungsstarker Filterung zu lesen, statt das gesamte Verzeichnis sowie alle darin gespeicherten Ordner und Dateien zu lesen.

Partitionierte Daten ermöglichen einen schnelleren Zugriff, wenn die Abfragen nach den Prädikaten filtern, die Prädikatspalten mit einem Wert vergleichen.

Ein SQL-Analyseendpunkt kann diesen Datentyp problemlos lesen, ohne dass eine Konfiguration erforderlich ist. Sie können Daten beispielsweise mithilfe einer beliebigen Anwendung in einem Data Lake archivieren, einschließlich SQL Server 2022 oder Azure SQL Managed Instance. Nachdem Sie Daten partitioniert und zu Archivierungszwecken mit externen Tabellen in einem Lake gespeichert haben, kann ein SQL-Analyseendpunkt partitionierte Delta Lake-Tabellen als SQL-Tabellen lesen und es Ihrer Organisation ermöglichen, sie zu analysieren. Dies senkt die Gesamtkosten, reduziert die Datenduplizierung und hebt Big Data, KI sowie andere Analyseszenarien hervor.

Datenvirtualisierung von Fabric-Daten mit Verknüpfungen

In Fabric ermöglichen Ihnen Arbeitsbereiche die Trennung von Daten basierend auf komplexen geschäftlichen, geografischen oder gesetzlichen Anforderungen.

Ein SQL-Analyseendpunkt ermöglicht es Ihnen, die Daten an Ort und Stelle zu belassen und sie im Warehouse oder Lakehouse über eine nahtlose Virtualisierung weiterhin zu analysieren – sogar in anderen Microsoft Fabric-Arbeitsbereichen. Jedes Microsoft Fabric-Lakehouse speichert Daten in OneLake.

Verknüpfungen ermöglichen es Ihnen, auf Ordner an einem beliebigen OneLake-Speicherort zu verweisen.

Jedes Microsoft Fabric-Warehouse speichert Tabellendaten in OneLake. Wenn eine Tabelle nur angefügt werden kann, werden die Tabellendaten in OneLake als Delta Lake-Daten verfügbar gemacht. Mithilfe von Verknüpfungen können Sie auf Ordner in jedem beliebigen OneLake-Objekt verweisen, in dem die Warehouse-Tabellen verfügbar gemacht werden.

Arbeitsbereichsübergreifende Freigabe und Abfragen

Arbeitsbereiche ermöglichen es Ihnen zwar, Daten basierend auf komplexen geschäftlichen, geografischen oder gesetzlichen Anforderungen zu trennen, aber manchmal müssen Sie die Freigabe in diesen Bereichen für bestimmte Analyseanforderungen vereinfachen.

Ein Lakehouse-SQL-Analyseendpunkt kann eine einfache Freigabe von Daten zwischen Abteilungen und Benutzer*innen ermöglichen, wobei Benutzer*innen ihre eigene Kapazität und ihr eigenes Warehouse verwenden können. Arbeitsbereiche organisieren Abteilungen, Geschäftseinheiten oder analytische Domänen. Mithilfe von Verknüpfungen können Benutzer alle Warehouse- oder Lakehouse-Daten finden. Benutzer können ihre eigenen benutzerdefinierten Analysen aus denselben freigegebenen Daten sofort durchführen. Zusätzlich zur Unterstützung bei Abteilungsrückbuchungen und der Nutzungszuordnung ist dies auch eine Version ohne Kopien der Daten.

Der SQL-Analyseendpunkt ermöglicht das Abfragen einer beliebigen Tabelle und die einfache Freigabe. Die hinzugefügten Steuerelemente von Arbeitsbereichs- und Sicherheitsrollen, die weiter geschichtet werden können, um zusätzliche Geschäftsanforderungen zu erfüllen.

Führen Sie die folgenden Schritte zum Aktivieren von arbeitsbereichsübergreifenden Datenanalysen aus:

  1. Erstellen Sie eine OneLake-Verknüpfung, die auf eine Tabelle oder einen Ordner in einem Arbeitsbereich verweist, auf den Sie zugreifen können.
  2. Wählen Sie ein Lakehouse oder Warehouse aus, das die Tabelle oder den Delta Lake-Ordner enthält, die bzw. den Sie analysieren möchten. Sobald Sie eine Tabelle/einen Ordner ausgewählt haben, wird im Lakehouse eine Verknüpfung angezeigt.
  3. Wechseln Sie zum SQL-Analyseendpunkt des Lakehouse, und suchen Sie nach der SQL-Tabelle mit einem Namen, der mit dem Verknüpfungsnamen übereinstimmt. Diese SQL-Tabelle verweist auf den Ordner in einem anderen Arbeitsbereich.
  4. Fragen Sie die SQL-Tabelle ab, die auf Daten in einem anderen Arbeitsbereich verweist. Die Tabelle kann wie jede andere Tabelle im SQL-Analyseendpunkt verwendet werden. Sie können die Tabellen verknüpfen, die auf Daten in verschiedenen Arbeitsbereichen verweisen.

Hinweis

Wenn die SQL-Tabelle im SQL-Analyseendpunkt nicht sofort angezeigt wird, müssen Sie möglicherweise einige Minuten warten. Die SQL-Tabelle, die auf Daten in einem anderen Arbeitsbereich verweist, wird mit einer Verzögerung erstellt.

Analysieren von partitionierten Daten

Die Datenpartitionierung ist eine bekannte Technik zur Optimierung des Datenzugriffs in Data Lakes. Partitionierte Datasets werden in den hierarchischen Ordnerstrukturen im Format /year=<year>/month=<month>/day=<day> gespeichert, wobei year, month, und day die Partitionierungsspalten sind. Partitionierte Datasets ermöglichen einen schnelleren Datenzugriff, wenn die Abfragen Daten mithilfe der Prädikate filtern, die Daten durch Vergleichen von Prädikatspalten mit einem Wert filtern.

Ein SQL-Analyseendpunkt kann partitionierte Delta Lake-Datasets als SQL-Tabellen darstellen und Ihnen deren Analyse ermöglichen.