Lakehouse- och Delta Lake-tabeller

Artikel
11/15/2023

Microsoft Fabric Lakehouse är en plattform för dataarkitektur för lagring, hantering och analys av strukturerade och ostrukturerade data på en enda plats. För att uppnå sömlös dataåtkomst för alla beräkningsmotorer i Microsoft Fabric väljs Delta Lake som enhetligt tabellformat.

Om du sparar data i Lakehouse med funktioner som Läs in till tabeller eller metoder som beskrivs i Alternativ för att hämta data till Fabric Lakehouse sparas alla data i Delta-format.

Om du vill ha en mer omfattande introduktion till Delta Lake-tabellformatet följer du länkarna i avsnittet Nästa steg.

Stordata, Apache Spark och äldre tabellformat

Microsoft Fabric Runtime för Apache Spark använder samma grund som Azure Synapse Analytics Runtime för Apache Spark, men innehåller viktiga skillnader för att ge ett mer effektiviserat beteende för alla motorer i Microsoft Fabric-tjänsten. I Microsoft Fabric är viktiga prestandafunktioner aktiverade som standard. Avancerade Apache Spark-användare kan återställa konfigurationer till tidigare värden för att bättre anpassa sig till specifika scenarier.

Microsoft Fabric Lakehouse och Apache Spark-motorn stöder alla tabelltyper, både hanterade och ohanterade. Detta inkluderar vyer och vanliga icke-Delta Hive-tabellformat. Tabeller som definierats med PARQUET, CSV, AVRO, JSON och alla Apache Hive-kompatibla filformat fungerar som förväntat.

Användargränssnittsupplevelsen för Lakehouse Explorer varierar beroende på tabelltyp. För närvarande renderar Lakehouse Explorer endast tabellobjekt.

Konfigurationsskillnader med Azure Synapse Analytics

Följande tabell innehåller konfigurationsskillnaderna mellan Azure Synapse Analytics och Microsoft Fabric Runtime för Apache Spark.

Apache Spark-konfiguration	Microsoft Fabric-värde	Azure Synapse Analytics-värde	Kommentar
spark.sql.sources.default	delta	Parkett	Standardtabellformat
spark.sql.parquet.vorder.enabled	true	Ej tillämpligt	V-orderskrivare
spark.sql.parquet.vorder.dictionaryPageSize	2 GB	Ej tillämpligt	Storleksgräns för ordlistesida för V-order
spark.microsoft.delta.optimizeWrite.enabled	true	unset (false)	Optimera skrivning

Automatisk identifiering av tabeller

Lakehouse Explorer ger en trädliknande vy över objekten i Microsoft Fabric Lakehouse-objektet. Den har en viktig funktion för att identifiera och visa tabeller som beskrivs i metadatalagringsplatsen och i OneLake Storage. Tabellreferenserna visas under Tables avsnittet i Användargränssnittet för Lakehouse Explorer. Automatisk identifiering gäller även för tabeller som definierats via OneLake-genvägar.

Tabeller över genvägar

Microsoft Fabric Lakehouse har stöd för tabeller som definierats via OneLake-genvägar för att ge största möjliga kompatibilitet och inga dataförflyttningar. Följande tabell innehåller bästa praxis för scenariot för varje objekttyp när du använder den via genvägar.

Genvägsmål	Var du kan skapa genvägen	Bästa metod
Delta Lake-tabell	`Tables` Avsnitt	Om flera tabeller finns i målet skapar du en genväg per tabell.
Mappar med filer	`Files` Avsnitt	Använd Apache Spark för att använda målet direkt med hjälp av relativa sökvägar. Läs in data i Lakehouse-interna Delta-tabeller för maximal prestanda.
Äldre Apache Hive-tabeller	`Files` Avsnitt	Använd Apache Spark för att använda målet direkt med hjälp av relativa sökvägar eller skapa en referens för metadatakatalogen med hjälp av `CREATE EXTERNAL TABLE` syntax. Läs in data i Lakehouse-interna Delta-tabeller för maximal prestanda.

Läs in till tabeller

Microsoft Fabric Lakehouse tillhandahåller ett bekvämt och produktivt användargränssnitt för att effektivisera inläsningen av data i Delta-tabeller. Med funktionen Läs in till tabeller kan en visuell upplevelse läsa in vanliga filformat till Delta för att öka analysproduktiviteten för alla personer. Mer information om funktionen Läs in till tabeller finns i referensdokumentationen för Lakehouse Load to Tables .

Delta Lake-tabelloptimering

Att hålla tabellerna i form för det breda omfånget av analysscenarier är ingen mindre bedrift. Med Microsoft Fabric Lakehouse kan de viktiga parametrarna aktivt minimera vanliga problem som är associerade med stordatatabeller, till exempel komprimering och små filstorlekar, och för att maximera frågeprestanda. Det finns dock många scenarier där dessa parametrar behöver ändras. Delta Lake-tabellens optimering och V-Order-artikeln beskriver några viktiga scenarier och innehåller en djupgående guide om hur du effektivt underhåller Delta-tabeller för maximal prestanda.

Lakehouse- och Delta Lake-tabeller

Stordata, Apache Spark och äldre tabellformat

Konfigurationsskillnader med Azure Synapse Analytics

Automatisk identifiering av tabeller

Tabeller över genvägar

Läs in till tabeller

Delta Lake-tabelloptimering

Feedback

Feedback

Ytterligare resurser

Lakehouse- och Delta Lake-tabeller

Stordata, Apache Spark och äldre tabellformat

Konfigurationsskillnader med Azure Synapse Analytics

Automatisk identifiering av tabeller

Tabeller över genvägar

Läs in till tabeller

Delta Lake-tabelloptimering

Relaterat innehåll

Feedback

Feedback

Ytterligare resurser