Lakehouse- og Delta Lake-bord
Microsoft Fabric Lakehouse er en dataarkitekturplattform for lagring, administrasjon og analyse av strukturerte og ustrukturerte data på ett enkelt sted. Delta Lake er valgt som enhetlig tabellformat for å oppnå sømløs datatilgang på tvers av alle databehandlingsmotorer i Microsoft Fabric.
Lagring av data i Lakehouse ved hjelp av funksjoner som Last inn til tabeller eller metoder som er beskrevet i Alternativer for å hente data inn i Fabric Lakehouse, lagres alle data i Delta-format. Delta brukes også som standard spark-tabellformatmodus i kode-first-opplevelser som notatblokker og Spark-jobbdefinisjoner.
Viktig
Microsoft Fabric er for øyeblikket i PREVIEW. Denne informasjonen er knyttet til et forhåndsutgitt produkt som kan endres vesentlig før det utgis. Microsoft gir ingen garantier, uttrykt eller underforstått, med hensyn til informasjonen som er oppgitt her.
Hvis du vil ha en mer omfattende innføring i tabellformatet deltasjøen, følger du koblingene i neste trinn-delen.
Stordata, Apache Spark og eldre tabellformater
Microsoft Fabric Runtime for Apache Spark bruker samme foundation som Azure Synapse Analytics Runtime for Apache Spark, men inneholder viktige forskjeller for å gi en mer strømlinjeformet atferd på tvers av alle motorer i Microsoft Fabric-tjenesten. I Microsoft Fabric er viktige ytelsesfunksjoner aktivert som standard. Avanserte Apache Spark-brukere kan tilbakestille konfigurasjoner til tidligere verdier for bedre å samsvare med bestemte scenarioer.
Microsoft Fabric Lakehouse og Apache Spark-motoren støtter alle tabelltyper, både administrerte og uadministrerte; dette omfatter visninger og vanlige tabellformater for ikke-Delta Hive. Tabeller som er definert ved hjelp av PARQUET, CSV, AVRO, JSON og alle Apache Hive-kompatible filformater, fungerer som forventet.
Brukergrensesnittopplevelsen i Lakehouse Explorer varierer avhengig av tabelltype. For øyeblikket gjengir Lakehouse Explorer bare tabellobjekter.
Konfigurasjonsforskjeller med Azure Synapse Analytics
Tabellen nedenfor inneholder konfigurasjonsforskjellene mellom Azure Synapse Analytics og Microsoft Fabric Runtime for Apache Spark.
Apache Spark-konfigurasjon | Microsoft Fabric-verdi | Azure Synapse Analyseverdi | Notater |
---|---|---|---|
spark.sql.sources.default | delta | Parkett | Standard tabellformat |
spark.sql.parquet.vorder.enabled | sann | I/T | V-Order-forfatter |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | I/T | Størrelsesgrense for ordlisteside for V-rekkefølge |
spark.microsoft.delta.optimizeWrite.enabled | sann | unset (usann) | Optimaliser skriving |
Automatisk søk etter tabeller
Lakehouse Explorer gir en trelignende visning av objektene i Microsoft Fabric Lakehouse-elementet. Den har en viktig funksjon for å oppdage og vise tabeller som er beskrevet i metadatarepositoriet og i OneLake-lagring. Tabellreferansene vises under Tables
delen av brukergrensesnittet i Lakehouse Explorer. Automatisk søk gjelder også for tabeller som er definert over OneLake-snarveier.
Tabeller over snarveier
Microsoft Fabric Lakehouse støtter tabeller som er definert over OneLake-snarveier, for å gi ytterste kompatibilitet og ingen databevegelser. Tabellen nedenfor inneholder de beste fremgangsmåtene for scenarioer for hver elementtype når du bruker den over snarveier.
Snarveismål | Hvor du oppretter snarveien | Anbefalt fremgangsmåte |
---|---|---|
Delta Lake-bord | Tables Delen |
Hvis det finnes flere tabeller i målet, oppretter du én snarvei per tabell. |
Mapper med filer | Files Delen |
Bruk Apache Spark til å bruke målet direkte ved hjelp av relative baner. Last inn dataene i Delta-tabeller i Lakehouse for maksimal ytelse. |
Eldre Apache Hive-tabeller | Files Delen |
Bruk Apache Spark til å bruke målet direkte ved hjelp av relative baner, eller opprett en metadatakatalogreferanse ved hjelp av CREATE EXTERNAL TABLE syntaks. Last inn dataene i Delta-tabeller i Lakehouse for maksimal ytelse. |
Last inn til tabeller
Microsoft Fabric Lakehouse tilbyr et praktisk og produktivt brukergrensesnitt for å effektivisere innlasting av data i Delta-tabeller. Funksjonen Last inn til tabeller gjør det mulig for visuelle opplevelser å laste inn vanlige filformater til Delta for å øke analytisk produktivitet til alle personligheter. Hvis du vil lære mer om last til tabeller-funksjonen i detaljer, kan du lese referansedokumentasjonen Lakehouse Load to Tables .
Tabelloptimalisering for Delta Lake
Det er ingen mindre bragd å holde tabeller i form for det brede omfanget av analysescenarioer. Microsoft Fabric Lakehouse gjør det aktivt mulig for de viktige parameterne å minimere vanlige problemer knyttet til store datatabeller, for eksempel komprimering og små filstørrelser, og for å maksimere spørringsytelsen. Likevel er det mange scenarioer der disse parameterne trenger endringer. Tabelloptimalisering for Delta Lake og V-Order-artikkelen dekker noen viktige scenarioer og gir en detaljert veiledning om hvordan du effektivt opprettholder Delta-tabeller for maksimal ytelse.