Del via


Lakehouse- og Delta Lake-tabeller

Microsoft Fabric Lakehouse bruger Delta Lake som standard og foretrukne tabelformat for at levere pålidelig, højtydende datalagring og -behandling. Mens andre formater understøttes, tilbyder Delta Lake den bedste integration og ydeevne på tværs af alle Fabric-tjenester. Denne artikel forklarer, hvad Delta Lake-tabeller er, hvordan de fungerer i Fabric, og hvordan du får den bedste ydeevne ud af dine data.

Hvad er Delta Lake-borde?

Når du gemmer data i et Microsoft Fabric Lakehouse, gemmes dine data automatisk i et særligt format kaldet Delta Lake. Tænk på Delta Lake som en forbedret version af almindelige datafiler, der giver:

  • Bedre ydeevne - Hurtigere forespørgsler og databehandling
  • Datapålidelighed - Automatisk fejlkontrol og dataintegritet
  • Fleksibilitet - Fungerer både med strukturerede data (som databasetabeller) og semistrukturerede data (som JSON-filer)

Hvorfor er det vigtigt?

Delta Lake er standardtabelformatet for alle data i Fabric Lakehouse. Det betyder:

  • Konsistens: Alle dine data bruger det samme format, hvilket gør det lettere at arbejde med
  • Kompatibilitet: Dine data fungerer problemfrit på tværs af alle Fabric-værktøjer (Power BI, notebooks, datapipelines osv.)
  • Ingen ekstra arbejde: Når du indlæser data i tabeller eller bruger andre dataindlæsningsmetoder, anvendes Delta-formatet automatisk

Du behøver ikke bekymre dig om de tekniske detaljer – Fabric håndterer Delta Lake-formateringen bag kulisserne. Denne artikel forklarer, hvordan det fungerer, og hvordan du får den bedste ydeevne ud af dine data.

Apache Spark-motor og dataformater

Fabric Lakehouse drives af Apache Spark Runtime, som er baseret på samme fundament som Azure Synapse Analytics Runtime for Apache Spark. Fabric indeholder dog optimeringer og forskellige standardindstillinger for at give bedre ydeevne på tværs af alle Fabric-tjenester.

Understøttede dataformater:

  • Delta Lake - Det foretrukne format (automatisk optimering)
  • CSV-filer - Regnearkslignende datafiler
  • JSON-filer - Web- og applikationsdata
  • Parketfiler - Komprimerede datafiler
  • Andre formater - AVRO og ældre Hive-tabelformater

Nøglefordele ved Fabrics Apache Spark:

  • Optimeret som standard: Ydelsesfunktioner er automatisk aktiveret for bedre hastighed
  • Flere formater understøttet: Du kan læse fra eksisterende filer i forskellige formater
  • Automatisk konvertering: Når du indlæser data i tabeller, optimeres det automatisk med Delta Lake-formatet

Notat

Selvom du kan arbejde med forskellige filformater, er tabellerne, der vises i Lakehouse Explorer, optimerede Delta Lake-tabeller for bedst ydeevne og pålidelighed.

Forskelle fra Azure Synapse Analytics

Hvis du migrerer fra Azure Synapse Analytics, er her de vigtigste konfigurationsforskelle i Fabrics Apache Spark-runtime:

Apache Spark-konfiguration Microsoft Fabric-værdi Azure Synapse Analytics-værdi Bemærkninger
spark.sql.sources.default delta Parket Standardtabelformat
spark.sql.parquet.vorder.default sand I/R V-Order-skriver
spark.sql.parquet.vorder.dictionaryPageSize 2 GB I/R Grænse for størrelse på ordbogsside for V-order
spark.databricks.delta.optimizeWrite.enabled sand unset (falsk) Optimer skrivning

Disse optimeringer er designet til at give bedre ydeevne direkte fra starten i Fabric. Avancerede brugere kan ændre disse konfigurationer, hvis det er nødvendigt til specifikke scenarier.

Hvordan Fabric automatisk finder dine borde

Når du åbner din Lakehouse, scanner Fabric automatisk dine data og viser alle tabeller, den finder i Tabeller-sektionen i exploreren. Det betyder:

  • Ingen manuel opsætning nødvendig – Fabric opdager automatisk eksisterende tabeller
  • Organiseret visning - Tabeller vises i en træstruktur for nem navigation
  • Fungerer med genveje – Tabeller, der er forbundet fra andre lokationer, bliver også automatisk opdaget

Denne automatiske opdagelse gør det nemt at se alle dine tilgængelige data med ét blik.

Tabeller over genveje

Microsoft Fabric Lakehouse understøtter tabeller, der er defineret via OneLake-genveje, for at sikre størst mulig kompatibilitet og ingen dataflytning. Følgende tabel indeholder scenariets bedste fremgangsmåder for hver elementtype, når den bruges via genveje.

Genvejsdestination Sådan opretter du genvejen Anbefalet fremgangsmåde
Delta Lake-tabel Tables afsnit Hvis der findes flere tabeller i destinationen, skal du oprette én genvej pr. tabel.
Mapper med filer Files afsnit Brug Apache Spark til at bruge destinationen direkte ved hjælp af relative stier. Indlæs dataene i Lakehouse-oprindelige Delta-tabeller for at opnå maksimal ydeevne.
Ældre Apache Hive-tabeller Files afsnit Brug Apache Spark til at bruge destinationen direkte ved hjælp af relative stier, eller opret en reference til metadatakataloget ved hjælp af CREATE EXTERNAL TABLE syntaks. Indlæs dataene i Lakehouse-oprindelige Delta-tabeller for at opnå maksimal ydeevne.

Indlæs i tabel

Microsoft Fabric Lakehouse indeholder en praktisk og produktiv brugergrænseflade til at strømline indlæsning af data i Delta-tabeller. Funktionen Indlæs til tabel giver en visuel oplevelse til indlæsning af almindelige filformater til Delta for at øge analyseproduktiviteten for alle personer. Hvis du vil vide mere om funktionen Indlæs til tabel, skal du læse referencedokumentationen Indlæs til Delta Lake-tabeller .

Hold dine borde hurtige og effektive

Fabric optimerer automatisk dine Delta Lake-borde for bedre ydeevne, men nogle gange kan du ønske ekstra kontrol:

Hvad Fabric gør automatisk:

  • Kombinerer små filer til større, mere effektive filer
  • Optimerer datalayout for hurtigere forespørgsler
  • Styrer lageret for at reducere omkostningerne

Når du måske har brug for manuel optimering:

  • Meget store datasæt med specifikke ydelseskrav
  • Behov for brugerdefineret dataorganisering
  • Avancerede analysescenarier

For detaljeret vejledning om tabeloptimering, se Delta Lake tabeloptimering og V-Order.