Lakehouse- und Delta Lake-Tabellen

Microsoft Fabric Lakehouse ist eine Datenarchitekturplattform zum Speichern, Verwalten und Analysieren strukturierter und unstrukturierter Daten an einem einzigen Speicherort. Um einen nahtlosen Datenzugriff über alle Compute-Engines in Microsoft Fabric zu erzielen, wird Delta Lake als einheitliches Tabellenformat ausgewählt.

Beim Speichern von Daten im Lakehouse mithilfe von Funktionen wie Laden in Tabellen oder methoden, die unter Optionen zum Abrufen von Daten in das Fabric Lakehouse beschrieben sind, werden alle Daten im Delta-Format gespeichert. Delta wird auch als Standardmäßiger Spark-Tabellenformatmodus in Code-First-Umgebungen wie Notebooks und Spark-Auftragsdefinitionen verwendet.

Wichtig

Microsoft Fabric befindet sich derzeit in der Vorschauversion. Diese Informationen beziehen sich auf eine Vorabversion des Produkts, an der vor der Veröffentlichung noch wesentliche Änderungen vorgenommen werden können. Microsoft übernimmt keine Garantie, weder ausdrücklich noch stillschweigend, für die hier bereitgestellten Informationen.

Eine umfassendere Einführung in das Delta Lake-Tabellenformat findest du unter den Links im Abschnitt Nächste Schritte.

Big Data, Apache Spark und Ältere Tabellenformate

Microsoft Fabric Runtime für Apache Spark verwendet die gleiche Grundlage wie Azure Synapse Analytics Runtime für Apache Spark, enthält jedoch wichtige Unterschiede, um ein optimiertes Verhalten für alle Engines im Microsoft Fabric-Dienst bereitzustellen. In Microsoft Fabric sind die wichtigsten Leistungsfeatures standardmäßig aktiviert. Erweiterte Apache Spark-Benutzer können Konfigurationen mit früheren Werten rückgängig machen, um sich besser an bestimmten Szenarien auszurichten.

Microsoft Fabric Lakehouse und die Apache Spark-Engine unterstützen alle Tabellentypen, sowohl verwaltet als auch nicht verwaltet. dies umfasst Ansichten und reguläre Nicht-Delta Hive-Tabellenformate. Tabellen, die mit PARQUET, CSV, AVRO, JSON und einem beliebigen Apache Hive-kompatiblen Dateiformat definiert wurden, funktionieren wie erwartet.

Die Benutzeroberfläche des Lakehouse-Explorers variiert je nach Tabellentyp. Derzeit rendert der Lakehouse-Explorer nur Tabellenobjekte.

Konfigurationsunterschiede mit Azure Synapse Analytics

Die folgende Tabelle enthält die Konfigurationsunterschiede zwischen Azure Synapse Analytics und Microsoft Fabric Runtime für Apache Spark.

Apache Spark-Konfiguration Microsoft Fabric-Wert Azure Synapse Analytics-Wert Hinweise
spark.sql.sources.default delta parquet Standardtabellenformat
spark.sql.parquet.vorder.enabled true V-Order Writer
spark.sql.parquet.vorder.dictionaryPageSize 2 GB Nicht zutreffend Größenlimit für Wörterbuchseiten für V-Order
spark.microsoft.delta.optimizeWrite.enabled true Nicht festgelegt (false) Optimieren des Schreibvorgangs

Automatische Ermittlung von Tabellen

Der Lakehouse-Explorer bietet eine strukturähnliche Ansicht der Objekte im Microsoft Fabric Lakehouse-Element. Es verfügt über eine wichtige Funktion zum Ermitteln und Anzeigen von Tabellen, die im Metadatenrepository und im OneLake-Speicher beschrieben werden. Die Tabellenverweise werden im Abschnitt der Tables Benutzeroberfläche des Lakehouse-Explorers angezeigt. Die automatische Ermittlung gilt auch für Tabellen, die über OneLake-Verknüpfungen definiert sind.

Tabellen über Verknüpfungen

Microsoft Fabric Lakehouse unterstützt Tabellen, die über OneLake-Verknüpfungen definiert sind, um größtmögliche Kompatibilität und keine Datenverschiebung zu gewährleisten. Die folgende Tabelle enthält die bewährten Methoden des Szenarios für jeden Elementtyp bei der Verwendung über Tastenkombinationen.

Verknüpfungsziel Erstellen der Verknüpfung Bewährte Methode
Delta Lake-Tabelle Tables-Abschnitt Wenn mehrere Tabellen im Ziel vorhanden sind, erstellen Sie eine Verknüpfung pro Tabelle.
Ordner mit Dateien Files-Abschnitt Verwenden Sie Apache Spark, um das Ziel direkt mithilfe relativer Pfade zu verwenden. Laden Sie die Daten in native Delta-Tabellen von Lakehouse, um maximale Leistung zu erzielen.
Apache Hive-Legacytabellen Files-Abschnitt Verwenden Sie Apache Spark, um das Ziel direkt mithilfe relativer Pfade zu verwenden, oder erstellen Sie mithilfe von CREATE EXTERNAL TABLE Syntax einen Metadatenkatalogverweis. Laden Sie die Daten in native Delta-Tabellen von Lakehouse, um maximale Leistung zu erzielen.

Laden in Tabellen

Microsoft Fabric Lakehouse bietet eine komfortable und produktive Benutzeroberfläche, um das Laden von Daten in Delta-Tabellen zu optimieren. Das Feature In Tabellen laden ermöglicht es einer visuellen Umgebung, gängige Dateiformate und Ordner in Delta zu laden, um die analytische Produktivität für alle Personas zu steigern. Weitere Informationen zum Feature Laden in Tabellen finden Sie in der Referenzdokumentation zum Laden in Tabellen .

Delta Lake-Tabellenoptimierung

Tabellen für den breiten Bereich der Analyseszenarien in Form zu halten, ist keine untergeordnete Aufgabe. Microsoft Fabric Lakehouse ermöglicht proaktiv die wichtigen Parameter, um häufige Probleme im Zusammenhang mit Big Data-Tabellen wie Verdichtung und kleinen Dateigrößen zu minimieren und die Abfrageleistung zu maximieren. Dennoch gibt es viele Szenarien, in denen diese Parameter geändert werden müssen. Der Artikel Delta Lake-Tabellenoptimierung und V-Order behandelt einige wichtige Szenarien und enthält eine ausführliche Anleitung zum effizienten Verwalten von Delta-Tabellen für maximale Leistung.

Nächste Schritte