Lakehouse og Delta Lake tabeller

Microsoft Fabric Lakehouse er en dataarkitekturplattform for lagring, administrasjon og analyse av strukturerte og ustrukturerte data på ett sted. Delta Lake er valgt som enhetlig tabellformat for å oppnå sømløs datatilgang på tvers av alle databehandlingsmotorer i Microsoft Fabric.

Hvis du lagrer data i Lakehouse ved hjelp av funksjoner som Last inn i tabeller eller metoder som er beskrevet i Alternativer for å hente data inn i Fabric Lakehouse, lagres alle data i Delta-format.

Hvis du vil ha en mer omfattende innføring i tabellformatet Delta Lake, følger du koblinger i neste trinn-delen.

Store data, Apache Spark og eldre tabellformater

Microsoft Fabric Runtime for Apache Spark bruker samme grunnlag som Azure Synapse Analytics Runtime for Apache Spark, men inneholder viktige forskjeller for å gi en mer strømlinjeformet atferd på tvers av alle motorene i Microsoft Fabric-tjenesten. I Microsoft Fabric er viktige ytelsesfunksjoner aktivert som standard. Avanserte Apache Spark-brukere kan tilbakestille konfigurasjoner til tidligere verdier for bedre å tilpasse seg bestemte scenarier.

Microsoft Fabric Lakehouse og Apache Spark-motoren støtter alle tabelltyper, både administrerte og uadministrerte. dette omfatter visninger og vanlige tabellformater som ikke er deltadelte hive. Tabeller som er definert ved hjelp av PARQUET, CSV, AVRO, JSON og alle Apache Hive-kompatible filformater, fungerer som forventet.

Brukergrensesnittopplevelsen for Lakehouse Explorer varierer avhengig av tabelltype. Lakehouse Explorer gjengir for øyeblikket bare tabellobjekter.

Konfigurasjonsforskjeller med Azure Synapse Analytics

Tabellen nedenfor inneholder konfigurasjonsforskjellene mellom Azure Synapse Analytics og Microsoft Fabric Runtime for Apache Spark.

Apache Spark-konfigurasjon Microsoft Fabric-verdi Azure Synapse Analytics-verdi Notater
spark.sql.sources.default delta Parkett Standard tabellformat
spark.sql.parquet.vorder.enabled sann Ikke tilgjengelig V-Order-forfatter
spark.sql.parquet.vorder.dictionaryPageSize 2 GB Ikke tilgjengelig Størrelsesgrense for ordlisteside for V-rekkefølge
spark.microsoft.delta.optimizeWrite.enabled sann unset (usann) Optimaliser skriving

Automatisk oppdaging av tabeller

Lakehouse Explorer gir en trelignende visning av objektene i Microsoft Fabric Lakehouse-elementet. Den har en viktig funksjon for å oppdage og vise tabeller som er beskrevet i metadatarepositoriet og i OneLake-lagring. Tabellreferansene vises under Tables delen av Brukergrensesnittet i Lakehouse Explorer. Automatisk søk gjelder også for tabeller som er definert over OneLake-snarveier.

Tabeller over snarveier

Microsoft Fabric Lakehouse støtter tabeller som er definert over OneLake-snarveier, for å gi stor kompatibilitet og ingen databevegelse. Tabellen nedenfor inneholder anbefalte fremgangsmåter for scenario for hver elementtype når du bruker den over snarveier.

Snarveismål Her kan du opprette snarveien Anbefalt fremgangsmåte
Delta Lake-bord Tables Delen Hvis flere tabeller finnes i målet, oppretter du én snarvei per tabell.
Mapper med filer Files Delen Bruk Apache Spark til å bruke målet direkte ved hjelp av relative baner. Last inn dataene i Opprinnelige Delta-tabeller i Lakehouse for maksimal ytelse.
Eldre Apache Hive-tabeller Files Delen Bruk Apache Spark til å bruke målet direkte ved hjelp av relative baner, eller opprett en metadatakatalogreferanse ved hjelp av CREATE EXTERNAL TABLE syntaks. Last inn dataene i Opprinnelige Delta-tabeller i Lakehouse for maksimal ytelse.

Last inn i tabeller

Microsoft Fabric Lakehouse tilbyr et praktisk og produktivt brukergrensesnitt for å effektivisere innlasting av data i Delta-tabeller. Funksjonen Last inn i tabeller gjør det mulig for en visuell opplevelse å laste inn vanlige filformater til Delta for å øke analyseproduktiviteten til alle personligheter. Hvis du vil lære mer om funksjonen Last til tabeller i detaljer, kan du lese referansedokumentasjonen Lakehouse Load to Tables .

Tabelloptimalisering for Delta Lake

Det er ingen liten prestasjon å holde tabeller i form for det brede omfanget av analysescenarioer. Microsoft Fabric Lakehouse gjør det aktivt mulig for de viktige parameterne å minimere vanlige problemer knyttet til store datatabeller, for eksempel komprimering og små filstørrelser, og for å maksimere spørringsytelsen. Likevel er det mange scenarioer der disse parameterne trenger endringer. Tabelloptimalisering for Delta Lake og V-Order-artikkelen dekker noen viktige scenarier og gir en grundig veiledning om hvordan du effektivt opprettholder Delta-tabeller for maksimal ytelse.