Lakehouse og Delta Lake tabeller
Microsoft Fabric Lakehouse er en dataarkitekturplattform for lagring, administrasjon og analyse av strukturerte og ustrukturerte data på ett sted. Delta Lake er valgt som enhetlig tabellformat for å oppnå sømløs datatilgang på tvers av alle databehandlingsmotorer i Microsoft Fabric.
Hvis du lagrer data i Lakehouse ved hjelp av funksjoner som Last inn i tabeller eller metoder som er beskrevet i Alternativer for å hente data inn i Fabric Lakehouse, lagres alle data i Delta-format.
Hvis du vil ha en mer omfattende innføring i tabellformatet Delta Lake, følger du koblinger i neste trinn-delen.
Store data, Apache Spark og eldre tabellformater
Microsoft Fabric Runtime for Apache Spark bruker samme grunnlag som Azure Synapse Analytics Runtime for Apache Spark, men inneholder viktige forskjeller for å gi en mer strømlinjeformet atferd på tvers av alle motorene i Microsoft Fabric-tjenesten. I Microsoft Fabric er viktige ytelsesfunksjoner aktivert som standard. Avanserte Apache Spark-brukere kan tilbakestille konfigurasjoner til tidligere verdier for bedre å tilpasse seg bestemte scenarier.
Microsoft Fabric Lakehouse og Apache Spark-motoren støtter alle tabelltyper, både administrerte og uadministrerte. dette omfatter visninger og vanlige tabellformater som ikke er deltadelte hive. Tabeller som er definert ved hjelp av PARQUET, CSV, AVRO, JSON og alle Apache Hive-kompatible filformater, fungerer som forventet.
Brukergrensesnittopplevelsen for Lakehouse Explorer varierer avhengig av tabelltype. Lakehouse Explorer gjengir for øyeblikket bare tabellobjekter.
Konfigurasjonsforskjeller med Azure Synapse Analytics
Tabellen nedenfor inneholder konfigurasjonsforskjellene mellom Azure Synapse Analytics og Microsoft Fabric Runtime for Apache Spark.
Apache Spark-konfigurasjon | Microsoft Fabric-verdi | Azure Synapse Analytics-verdi | Notater |
---|---|---|---|
spark.sql.sources.default | delta | parkett | Standard tabellformat |
spark.sql.parquet.vorder.enabled | sann | Ikke tilgjengelig | V-Order-forfatter |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | Ikke tilgjengelig | Størrelsesgrense for ordlisteside for V-rekkefølge |
spark.microsoft.delta.optimizeWrite.enabled | sann | unset (usann) | Optimaliser skriving |
Automatisk oppdaging av tabeller
Lakehouse Explorer gir en trelignende visning av objektene i Microsoft Fabric Lakehouse-elementet. Den har en viktig funksjon for å oppdage og vise tabeller som er beskrevet i metadatarepositoriet og i OneLake-lagring. Tabellreferansene vises under Tables
delen av Brukergrensesnittet i Lakehouse Explorer. Automatisk søk gjelder også for tabeller som er definert over OneLake-snarveier.
Tabeller over snarveier
Microsoft Fabric Lakehouse støtter tabeller som er definert over OneLake-snarveier, for å gi stor kompatibilitet og ingen databevegelse. Tabellen nedenfor inneholder anbefalte fremgangsmåter for scenario for hver elementtype når du bruker den over snarveier.
Snarveismål | Her kan du opprette snarveien | Anbefalt fremgangsmåte |
---|---|---|
Delta Lake-bord | Tables seksjon |
Hvis flere tabeller finnes i målet, oppretter du én snarvei per tabell. |
Mapper med filer | Files seksjon |
Bruk Apache Spark til å bruke målet direkte ved hjelp av relative baner. Last inn dataene i Opprinnelige Delta-tabeller i Lakehouse for maksimal ytelse. |
Eldre Apache Hive-tabeller | Files seksjon |
Bruk Apache Spark til å bruke målet direkte ved hjelp av relative baner, eller opprett en metadatakatalogreferanse ved hjelp av CREATE EXTERNAL TABLE syntaks. Last inn dataene i Opprinnelige Delta-tabeller i Lakehouse for maksimal ytelse. |
Last inn i tabeller
Microsoft Fabric Lakehouse tilbyr et praktisk og produktivt brukergrensesnitt for å effektivisere innlasting av data i Delta-tabeller. Funksjonen Last inn i tabeller gjør det mulig for en visuell opplevelse å laste inn vanlige filformater til Delta for å øke analyseproduktiviteten til alle personligheter. Hvis du vil lære mer om funksjonen Last til tabeller i detaljer, kan du lese referansedokumentasjonen Lakehouse Load to Tables .
Tabelloptimalisering for Delta Lake
Det er ingen liten prestasjon å holde tabeller i form for det brede omfanget av analysescenarioer. Microsoft Fabric Lakehouse gjør det aktivt mulig for de viktige parameterne å minimere vanlige problemer knyttet til store datatabeller, for eksempel komprimering og små filstørrelser, og for å maksimere spørringsytelsen. Likevel er det mange scenarioer der disse parameterne trenger endringer. Tabelloptimalisering for Delta Lake og V-Order-artikkelen dekker noen viktige scenarier og gir en grundig veiledning om hvordan du effektivt opprettholder Delta-tabeller for maksimal ytelse.