Besser zusammen: das Lakehouse und das Lager

Gilt für: SQL-Endpunkt und -Warehouse in Microsoft Fabric

In diesem Artikel werden die Data Warehousing-Erfahrung mit dem SQL-Endpunkt von Lakehouse und Szenarien für die Verwendung von Lakehouse in Data Warehousing erläutert.

Wichtig

Microsoft Fabric befindet sich derzeit in der VORSCHAU. Diese Informationen beziehen sich auf eine Vorabversion des Produkts, an der vor der Veröffentlichung noch wesentliche Änderungen vorgenommen werden können. Microsoft übernimmt keine Garantie, weder ausdrücklich noch stillschweigend, für die hier bereitgestellten Informationen.

Was ist ein Lakehouse SQL-Endpunkt?

Wenn Sie in Fabric ein Lakehouse erstellen, wird automatisch ein Warehouse erstellt.

Mit dem SQL-Endpunkt können Sie Daten im Lakehouse mithilfe der T-SQL-Sprache und des TDS-Protokolls abfragen. Jedes Lakehouse verfügt über einen SQL-Endpunkt, und jeder Arbeitsbereich kann mehrere Lakehouse-Instanzen aufweisen. Die Anzahl der SQL-Endpunkte in einem Arbeitsbereich entspricht der Anzahl der Lakehouse-Elemente.

  • Der SQL-Endpunkt wird automatisch für jedes Lakehouse generiert und macht Delta-Tabellen aus Lakehouse als SQL-Tabellen verfügbar, die mit der T-SQL-Sprache abgefragt werden können.
  • Jede Deltatabelle aus einem Lakehouse wird als eine Tabelle dargestellt. Die Daten sollten im Deltaformat vorliegen.
  • Das Standardmäßige Power BI-Dataset wird für jeden SQL-Endpunkt erstellt und folgt der Namenskonvention der Lakehouse-Objekte.

Es ist nicht erforderlich, einen SQL-Endpunkt in Microsoft Fabric zu erstellen. Microsoft Fabric-Benutzer können keinen SQL-Endpunkt in einem Arbeitsbereich erstellen. Für jedes Lakehouse wird automatisch ein SQL-Endpunkt erstellt. Um einen SQL-Endpunkt zu erhalten, erstellen Sie ein Lakehouse , und ein SQL-Endpunkt wird automatisch für lakehouse erstellt.

Hinweis

Im Hintergrund verwendet der SQL-Endpunkt dieselbe Engine wie das Warehouse , um SQL-Abfragen mit hoher Leistung und geringer Latenz zu verarbeiten.

Automatische Metadatenermittlung

Ein nahtloser Prozess liest die Deltaprotokolle und aus dem Ordner files und stellt sicher, dass SQL-Metadaten für Tabellen, z. B. Statistiken, immer auf dem neuesten Stand sind. Es ist keine Benutzeraktion erforderlich, und es ist nicht erforderlich, Daten zu importieren, zu kopieren oder eine Infrastruktur einzurichten. Weitere Informationen finden Sie unter Automatisch generiertes Schema im SQL-Endpunkt.

Szenarien, die Lakehouse für Data Warehousing ermöglicht

In Fabric bieten wir ein Lager an.

Lakehouse mit seinem SQL-Endpunkt, der vom Warehouse unterstützt wird, kann die herkömmliche Entscheidungsstruktur von Batch-, Streaming- oder Lambda-Architekturmustern vereinfachen. Zusammen mit einem Lager ermöglicht das Lakehouse viele Additive Analytics-Szenarien. In diesem Abschnitt wird erläutert, wie Sie ein Lakehouse zusammen mit einem Warehouse nutzen, um eine best-of-breed-Analysestrategie zu erzielen.

Analysen mit der Goldschicht Ihres Fabric Lakehouse

Eine der bekannten Strategien für lake data organization ist eine Medaillonarchitektur, bei der die Dateien in rohen (Bronze-), konsolidierten (Silber-) und raffinierten (Gold-)Schichten organisiert sind. Ein SQL-Endpunkt kann verwendet werden, um Daten in der Goldschicht der Medallion-Architektur zu analysieren, wenn die Dateien im Delta Lake Format gespeichert sind, auch wenn sie außerhalb von Microsoft Fabric OneLake gespeichert sind.

Sie können OneLake-Verknüpfungen verwenden, um auf Goldordner in externen Azure Data Lake-Speicherkonten zu verweisen, die von Synapse Spark oder Azure Databricks-Engines verwaltet werden.

Warehouses können auch als themen- oder domänenorientierte Lösungen für bestimmte Themen hinzugefügt werden, die möglicherweise maßgeschneiderte Analyseanforderungen haben.

Wenn Sie sich dafür entscheiden, Ihre Daten in Fabric zu behalten, sind sie immer offen und über APIs, das Delta-Format und natürlich T-SQL zugänglich.

Abfragen als Dienst für Ihre Deltatabellen aus Lakehouse und anderen Elementen aus OneLake Data Hub

Es gibt Anwendungsfälle, in denen ein Analyst, Data Scientist oder Data Engineer möglicherweise Daten innerhalb eines Data Lake abfragen muss. In Fabric ist diese End-to-End-Erfahrung vollständig SaaSified.

OneLake ist ein einzelner, einheitlicher, logischer Data Lake für den gesamten organization. OneLake ist OneDrive für Daten. OneLake kann mehrere Arbeitsbereiche enthalten, z. B. entlang Ihrer Organisationsbereiche. Jedes Element in Fabric ermöglicht den Zugriff auf Daten über OneLake.

Daten in einem Microsoft Fabric Lakehouse werden physisch in OneLake mit der folgenden Ordnerstruktur gespeichert:

  • Der /Files Ordner enthält unformatierte und unkonsolidierte (Bronze-)Dateien, die von Data Engineers verarbeitet werden sollen, bevor sie analysiert werden. Die Dateien können in verschiedenen Formaten vorliegen, z. B. CSV, Parquet, verschiedene Arten von Bildern usw.
  • Der /Tables Ordner enthält verfeinerte und konsolidierte (Gold)-Daten, die für die Geschäftsanalyse bereit sind. Die konsolidierten Daten haben das Delta Lake-Format.

Ein SQL-Endpunkt kann Daten im /tables Ordner in OneLake lesen. Die Analyse ist so einfach wie das Abfragen des SQL-Endpunkts von Lakehouse. Zusammen mit dem Warehouse erhalten Sie auch datenbankübergreifende Abfragen und die Möglichkeit, mit Synapse Data Warehouse nahtlos von schreibgeschützten Abfragen zur Erstellung zusätzlicher Geschäftslogik auf Ihren OneLake-Daten umzustellen.

Datentechnik mit Spark und Bereitstellen mit SQL

Datengesteuerte Unternehmen müssen ihre Back-End- und Analysesysteme nahezu in Echtzeit mit kundenorientierten Anwendungen synchronisieren. Die Auswirkungen von Transaktionen müssen durch End-to-End-Prozesse, zugehörige Anwendungen und OLTP-Systeme (Online Transaction Processing) genau widergespiegelt werden.

In Fabric können Sie Spark Streaming oder Datentechnik nutzen, um Ihre Daten zu kuratieren. Sie können den Lakehouse SQL-Endpunkt verwenden, um die Datenqualität und für vorhandene T-SQL-Prozesse zu überprüfen. Dies kann in einer Medaillonarchitektur oder in mehreren Schichten Ihres Lakehouse erfolgen, die Bronze-, Silber-, Gold- oder Staging-, kuratierte und verfeinerte Daten zur Verfügung stellen. Sie können die mit Spark erstellten Ordner und Tabellen anpassen, um Ihre Datentechnik- und Geschäftsanforderungen zu erfüllen. Wenn Sie bereit sind, können Sie dann ein Warehouse nutzen, um alle Ihre downstream-Business Intelligence-Anwendungen und andere Analyseanwendungsfälle zu bedienen, ohne Daten zu kopieren, Ansichten zu verwenden oder Daten mithilfe von CREATE TABLE AS SELECT (CTAS), gespeicherten Prozeduren und anderen DML/DDL-Befehlen zu verfeinern.

Integration in die Goldschicht Ihres Open Lakehouse

Ein SQL-Endpunkt ist nicht nur auf die Datenanalyse in Fabric Lakehouse beschränkt. Mit einem SQL-Endpunkt können Sie Lake-Daten in jedem Lakehouse analysieren, indem Sie Synapse Spark, Azure Databricks oder eine andere lake-zentrierte Data Engineering-Engine verwenden. Die Daten können in Azure Data Lake Storage oder Amazon S3 gespeichert werden.

Diese enge, bidirektionale Integration mit Fabric Lakehouse ist immer über jede Engine mit offenen APIs, dem Delta-Format und natürlich T-SQL zugänglich.

Datenvirtualisierung externer Data Lakes mit Tastenkombinationen

Sie können OneLake-Verknüpfungen verwenden, um auf Goldordner in externen Azure Data Lake-Speicherkonten zu verweisen, die von Synapse Spark- oder Azure Databricks-Engines verwaltet werden, sowie auf alle in Amazon S3 gespeicherten Deltatabellen.

Jeder Ordner, auf den mithilfe einer Verknüpfung verwiesen wird, kann von einem SQL-Endpunkt aus analysiert werden, und eine SQL-Tabelle wird für das Dataset erstellt, auf das verwiesen wird. Die SQL-Tabelle kann verwendet werden, um Daten in extern verwalteten Data Lakes verfügbar zu machen und Analysen für diese zu ermöglichen.

Diese Verknüpfung fungiert als virtuelles Warehouse, das von einem Warehouse für zusätzliche Downstreamanalyseanforderungen genutzt oder direkt abgefragt werden kann.

Führen Sie die folgenden Schritte aus, um Daten in externen Data Lake-Speicherkonten zu analysieren:

  1. Erstellen Sie eine Verknüpfung, die auf einen Ordner in Azure Data Lake Storage oder Amazon S3-Konto verweist. Nachdem Sie Verbindungsdetails und Anmeldeinformationen eingegeben haben, wird im Lakehouse eine Verknüpfung angezeigt.
  2. Wechseln Sie zum SQL-Endpunkt des Lakehouse, und suchen Sie eine SQL-Tabelle mit einem Namen, der dem Verknüpfungsnamen entspricht. Diese SQL-Tabelle verweist auf den Ordner im Ordner ADLS/S3.
  3. Fragen Sie die SQL-Tabelle ab, die auf Daten in ADLS/S3 verweist. Die Tabelle kann wie jede andere Tabelle im SQL-Endpunkt verwendet werden. Sie können Tabellen verknüpfen, die auf Daten in verschiedenen Speicherkonten verweisen.

Hinweis

Wenn die SQL-Tabelle nicht sofort im SQL-Endpunkt angezeigt wird, müssen Sie möglicherweise einige Minuten warten. Die SQL-Tabelle, die auf Daten im externen Speicherkonto verweist, wird mit einer Verzögerung erstellt.

Analysieren von archivierten oder historischen Daten in einem Data Lake

Die Datenpartitionierung ist eine bekannte Methode zur Optimierung des Datenzugriffs in Data Lakes. Partitionierte Datasets werden in den hierarchischen Ordnerstrukturen im Format /year=<year>/month=<month>/day=<day>gespeichert, wobei year, month, und day die Partitionierungsspalten sind. Dadurch können Sie Verlaufsdaten logisch getrennt in einem Format speichern, das es Compute-Engines ermöglicht, die Daten nach Bedarf mit leistungsstarker Filterung zu lesen, anstatt das gesamte Verzeichnis und alle darin enthaltenen Ordner und Dateien zu lesen.

Partitionierte Daten ermöglichen einen schnelleren Zugriff, wenn die Abfragen nach den Prädikaten filtern, die Prädikatspalten mit einem Wert vergleichen.

Ein SQL-Endpunkt kann diese Art von Daten problemlos lesen, ohne dass eine Konfiguration erforderlich ist. Sie können beispielsweise eine beliebige Anwendung verwenden, um Daten in einem Data Lake zu archivieren, einschließlich SQL Server 2022 oder Azure SQL Managed Instance. Nachdem Sie Daten partitioniert und zu Archivierungszwecken mit externen Tabellen in einem Lake gelandet haben, kann ein SQL-Endpunkt partitionierte Delta Lake-Tabellen als SQL-Tabellen lesen und Ihren organization ermöglichen, sie zu analysieren. Dies reduziert die Gesamtkosten, reduziert die Datenduplizierung und beleuchtet Big Data, KI und andere Analyseszenarien.

Datenvirtualisierung von Fabric-Daten mit Tastenkombinationen

In Fabric ermöglichen Arbeitsbereiche die Trennung von Daten basierend auf komplexen geschäftlichen, geografischen oder behördlichen Anforderungen.

Ein SQL-Endpunkt ermöglicht es Ihnen, die Daten an Ort und Stelle zu belassen und weiterhin Daten im Warehouse oder Lakehouse zu analysieren, auch in anderen Microsoft Fabric-Arbeitsbereichen, über eine nahtlose Virtualisierung. Jedes Microsoft Fabric Lakehouse speichert Daten in OneLake.

Mit Verknüpfungen können Sie auf Ordner an einem beliebigen OneLake-Speicherort verweisen.

Jedes Microsoft Fabric Warehouse speichert Tabellendaten in OneLake. Wenn eine Tabelle nur anfügebar ist, werden die Tabellendaten als Delta Lake-Datasets in OneLake verfügbar gemacht. Mit Verknüpfungen können Sie auf Ordner in jedem OneLake-Objekt verweisen, in dem die Warehouse-Tabellen verfügbar gemacht werden.

Arbeitsbereichsübergreifende Freigabe und Abfrage

Arbeitsbereiche ermöglichen es Ihnen zwar, Daten basierend auf komplexen geschäftlichen, geografischen oder gesetzlichen Anforderungen zu trennen, aber manchmal müssen Sie die Freigabe in diesen Bereichen für bestimmte Analyseanforderungen vereinfachen.

Ein Lakehouse-SQL-Endpunkt kann eine einfache Freigabe von Daten zwischen Abteilungen und Benutzern ermöglichen, wobei ein Benutzer seine eigene Kapazität und sein eigenes Lager mitbringen kann. Arbeitsbereiche organisieren Abteilungen, Geschäftseinheiten oder Analytische Domänen. Mithilfe von Tastenkombinationen können Benutzer alle Warehouse- oder Lakehouse-Daten finden. Benutzer können sofort ihre eigenen benutzerdefinierten Analysen aus denselben freigegebenen Daten durchführen. Zusätzlich zur Unterstützung bei Abteilungsrückbelastungen und der Nutzungszuordnung ist dies auch eine Version ohne Kopie der Daten.

Der SQL-Endpunkt ermöglicht das Abfragen beliebiger Tabellen und die einfache Freigabe. Die zusätzlichen Steuerelemente von Arbeitsbereichsrollen und Sicherheitsrollen, die weiter überlappen können, um zusätzliche Geschäftsanforderungen zu erfüllen.

Führen Sie die folgenden Schritte aus, um arbeitsbereichsübergreifende Datenanalysen zu aktivieren:

  1. Erstellen Sie eine OneLake-Verknüpfung, die auf eine Tabelle oder einen Ordner in einem Arbeitsbereich verweist, auf den Sie zugreifen können.
  2. Wählen Sie ein Lakehouse oder Warehouse aus, das eine Tabelle oder einen Delta Lake-Ordner enthält, den Sie analysieren möchten. Nachdem Sie eine Tabelle/einen Ordner ausgewählt haben, wird im Lakehouse eine Verknüpfung angezeigt.
  3. Wechseln Sie zum SQL-Endpunkt des Lakehouse, und suchen Sie nach der SQL-Tabelle, die einen Namen hat, der mit dem Verknüpfungsnamen übereinstimmt. Diese SQL-Tabelle verweist auf den Ordner in einem anderen Arbeitsbereich.
  4. Fragen Sie die SQL-Tabelle ab, die auf Daten in einem anderen Arbeitsbereich verweist. Die Tabelle kann wie jede andere Tabelle im SQL-Endpunkt verwendet werden. Sie können die Tabellen verknüpfen, die auf Daten in verschiedenen Arbeitsbereichen verweisen.

Hinweis

Wenn die SQL-Tabelle nicht sofort im SQL-Endpunkt angezeigt wird, müssen Sie möglicherweise einige Minuten warten. Die SQL-Tabelle, die auf Daten in einem anderen Arbeitsbereich verweist, wird mit einer Verzögerung erstellt.

Analysieren von partitionierten Daten

Die Datenpartitionierung ist eine bekannte Methode zur Optimierung des Datenzugriffs in Data Lakes. Partitionierte Datasets werden in den hierarchischen Ordnerstrukturen im Format /year=<year>/month=<month>/day=<day>gespeichert, wobei year, month, und day die Partitionierungsspalten sind. Partitionierte Datasets ermöglichen einen schnelleren Datenzugriff, wenn die Abfragen Daten mithilfe der Prädikate filtern, die Daten filtern, indem Prädikatspalten mit einem Wert verglichen werden.

Ein SQL-Endpunkt kann partitionierte Delta Lake-Datasets als SQL-Tabellen darstellen und sie analysieren.

Nächste Schritte