Lakehouse- og Delta Lake-bord

Microsoft Fabric Lakehouse er en dataarkitekturplattform for lagring, administrasjon og analyse av strukturerte og ustrukturerte data på ett enkelt sted. Delta Lake er valgt som enhetlig tabellformat for å oppnå sømløs datatilgang på tvers av alle databehandlingsmotorer i Microsoft Fabric.

Lagring av data i Lakehouse ved hjelp av funksjoner som Last inn til tabeller eller metoder som er beskrevet i Alternativer for å hente data inn i Fabric Lakehouse, lagres alle data i Delta-format. Delta brukes også som standard spark-tabellformatmodus i kode-first-opplevelser som notatblokker og Spark-jobbdefinisjoner.

Viktig

Microsoft Fabric er for øyeblikket i PREVIEW. Denne informasjonen er knyttet til et forhåndsutgitt produkt som kan endres vesentlig før det utgis. Microsoft gir ingen garantier, uttrykt eller underforstått, med hensyn til informasjonen som er oppgitt her.

Hvis du vil ha en mer omfattende innføring i tabellformatet deltasjøen, følger du koblingene i neste trinn-delen.

Stordata, Apache Spark og eldre tabellformater

Microsoft Fabric Runtime for Apache Spark bruker samme foundation som Azure Synapse Analytics Runtime for Apache Spark, men inneholder viktige forskjeller for å gi en mer strømlinjeformet atferd på tvers av alle motorer i Microsoft Fabric-tjenesten. I Microsoft Fabric er viktige ytelsesfunksjoner aktivert som standard. Avanserte Apache Spark-brukere kan tilbakestille konfigurasjoner til tidligere verdier for bedre å samsvare med bestemte scenarioer.

Microsoft Fabric Lakehouse og Apache Spark-motoren støtter alle tabelltyper, både administrerte og uadministrerte; dette omfatter visninger og vanlige tabellformater for ikke-Delta Hive. Tabeller som er definert ved hjelp av PARQUET, CSV, AVRO, JSON og alle Apache Hive-kompatible filformater, fungerer som forventet.

Brukergrensesnittopplevelsen i Lakehouse Explorer varierer avhengig av tabelltype. For øyeblikket gjengir Lakehouse Explorer bare tabellobjekter.

Konfigurasjonsforskjeller med Azure Synapse Analytics

Tabellen nedenfor inneholder konfigurasjonsforskjellene mellom Azure Synapse Analytics og Microsoft Fabric Runtime for Apache Spark.

Apache Spark-konfigurasjon Microsoft Fabric-verdi Azure Synapse Analyseverdi Notater
spark.sql.sources.default delta Parkett Standard tabellformat
spark.sql.parquet.vorder.enabled sann I/T V-Order-forfatter
spark.sql.parquet.vorder.dictionaryPageSize 2 GB I/T Størrelsesgrense for ordlisteside for V-rekkefølge
spark.microsoft.delta.optimizeWrite.enabled sann unset (usann) Optimaliser skriving

Automatisk søk etter tabeller

Lakehouse Explorer gir en trelignende visning av objektene i Microsoft Fabric Lakehouse-elementet. Den har en viktig funksjon for å oppdage og vise tabeller som er beskrevet i metadatarepositoriet og i OneLake-lagring. Tabellreferansene vises under Tables delen av brukergrensesnittet i Lakehouse Explorer. Automatisk søk gjelder også for tabeller som er definert over OneLake-snarveier.

Tabeller over snarveier

Microsoft Fabric Lakehouse støtter tabeller som er definert over OneLake-snarveier, for å gi ytterste kompatibilitet og ingen databevegelser. Tabellen nedenfor inneholder de beste fremgangsmåtene for scenarioer for hver elementtype når du bruker den over snarveier.

Snarveismål Hvor du oppretter snarveien Anbefalt fremgangsmåte
Delta Lake-bord Tables Delen Hvis det finnes flere tabeller i målet, oppretter du én snarvei per tabell.
Mapper med filer Files Delen Bruk Apache Spark til å bruke målet direkte ved hjelp av relative baner. Last inn dataene i Delta-tabeller i Lakehouse for maksimal ytelse.
Eldre Apache Hive-tabeller Files Delen Bruk Apache Spark til å bruke målet direkte ved hjelp av relative baner, eller opprett en metadatakatalogreferanse ved hjelp av CREATE EXTERNAL TABLE syntaks. Last inn dataene i Delta-tabeller i Lakehouse for maksimal ytelse.

Last inn til tabeller

Microsoft Fabric Lakehouse tilbyr et praktisk og produktivt brukergrensesnitt for å effektivisere innlasting av data i Delta-tabeller. Funksjonen Last inn til tabeller gjør det mulig for visuelle opplevelser å laste inn vanlige filformater til Delta for å øke analytisk produktivitet til alle personligheter. Hvis du vil lære mer om last til tabeller-funksjonen i detaljer, kan du lese referansedokumentasjonen Lakehouse Load to Tables .

Tabelloptimalisering for Delta Lake

Det er ingen mindre bragd å holde tabeller i form for det brede omfanget av analysescenarioer. Microsoft Fabric Lakehouse gjør det aktivt mulig for de viktige parameterne å minimere vanlige problemer knyttet til store datatabeller, for eksempel komprimering og små filstørrelser, og for å maksimere spørringsytelsen. Likevel er det mange scenarioer der disse parameterne trenger endringer. Tabelloptimalisering for Delta Lake og V-Order-artikkelen dekker noen viktige scenarioer og gir en detaljert veiledning om hvordan du effektivt opprettholder Delta-tabeller for maksimal ytelse.

Neste trinn