Lakehouse- og Delta Lake-tabeller

Microsoft Fabric Lakehouse er en dataarkitekturplatform til lagring, administration og analyse af strukturerede og ustrukturerede data på en enkelt placering. Delta Lake er valgt som det samlede tabelformat for at opnå problemfri dataadgang på tværs af alle beregningsprogrammer i Microsoft Fabric.

Hvis du gemmer data i Lakehouse ved hjælp af funktioner som Indlæs i tabeller eller metoder, der er beskrevet i Indstillinger for at hente data ind i Fabric Lakehouse, gemmes alle data i Delta-format.

Hvis du vil have en mere omfattende introduktion til tabelformatet Delta Lake, skal du følge links i afsnittet Næste trin.

Big data-, Apache Spark- og ældre tabelformater

Microsoft Fabric Runtime til Apache Spark bruger det samme fundament som Azure Synapse Analytics Runtime til Apache Spark, men indeholder vigtige forskelle for at give en mere strømlinet funktionsmåde på tværs af alle programmer i Microsoft Fabric-tjenesten. I Microsoft Fabric er vigtige ydeevnefunktioner som standard slået til. Avancerede Apache Spark-brugere kan gendanne konfigurationer til tidligere værdier for bedre at tilpasse sig bestemte scenarier.

Microsoft Fabric Lakehouse og Apache Spark-programmet understøtter alle tabeltyper, både administrerede og ikke-administrerede. Dette omfatter visninger og almindelige tabelformater, der ikke er Delta Hive. Tabeller, der er defineret ved hjælp af PARQUET, CSV, AVRO, JSON og alle Apache Hive-kompatible filformater, fungerer som forventet.

Oplevelsen af brugergrænsefladen i Lakehouse Explorer varierer afhængigt af tabeltypen. I øjeblikket gengiver Lakehouse-stifinderen kun tabelobjekter.

Konfigurationsforskelle med Azure Synapse Analytics

Følgende tabel indeholder konfigurationsforskellene mellem Azure Synapse Analytics og Microsoft Fabric Runtime for Apache Spark.

Apache Spark-konfiguration Microsoft Fabric-værdi Azure Synapse Analytics-værdi Bemærkninger
spark.sql.sources.default Delta Parket Standardtabelformat
spark.sql.parquet.vorder.enabled true I/R V-Order-skriver
spark.sql.parquet.vorder.dictionaryPageSize 2 GB I/R Grænse for størrelse på ordbogsside for V-order
spark.microsoft.delta.optimizeWrite.enabled true unset (falsk) Optimer skrivning

Automatisk registrering af tabeller

Lakehouse Explorer giver en trælignende visning af objekterne i Microsoft Fabric Lakehouse-elementet. Den har en nøglefunktion til at finde og vise tabeller, der er beskrevet i metadatalageret og i OneLake-lageret. Tabelreferencerne vises under Tables afsnittet i brugergrænsefladen i Lakehouse Explorer. Automatisk registrering gælder også for tabeller, der er defineret via OneLake-genveje.

Tabeller over genveje

Microsoft Fabric Lakehouse understøtter tabeller, der er defineret via OneLake-genveje, for at sikre størst mulig kompatibilitet og ingen dataflytning. Følgende tabel indeholder scenariets bedste praksis for hver elementtype, når du bruger den via genveje.

Genvejsdestination Sådan opretter du genvejen Anbefalet fremgangsmåde
Delta Lake-tabel Tables Afsnit Hvis der findes flere tabeller i destinationen, skal du oprette én genvej pr. tabel.
Mapper med filer Files Afsnit Brug Apache Spark til at bruge destinationen direkte ved hjælp af relative stier. Indlæs dataene i oprindelige Delta-tabeller i Lakehouse for at opnå maksimal ydeevne.
Ældre Apache Hive-tabeller Files Afsnit Brug Apache Spark til at bruge destinationen direkte ved hjælp af relative stier, eller opret en reference til metadatakataloget ved hjælp af CREATE EXTERNAL TABLE syntaks. Indlæs dataene i oprindelige Delta-tabeller i Lakehouse for at opnå maksimal ydeevne.

Indlæs i tabeller

Microsoft Fabric Lakehouse indeholder en praktisk og produktiv brugergrænseflade til at strømline indlæsning af data i Delta-tabeller. Funktionen Indlæs i tabeller gør det muligt for en visualisering at indlæse almindelige filformater i Delta for at øge analyseproduktiviteten for alle personer. Hvis du vil vide mere om funktionen Indlæs til tabeller i detaljer, skal du læse referencedokumentationen til Lakehouse Load to Tables .

Delta Lake-tabeloptimering

Det er ikke nogen mindre bedrift at holde tabeller i form til det brede omfang af analysescenarier. Microsoft Fabric Lakehouse muliggør proaktivt de vigtige parametre for at minimere almindelige problemer, der er forbundet med big data-tabeller, f.eks. komprimering og små filstørrelser, og for at maksimere ydeevnen af forespørgsler. Der er stadig mange scenarier, hvor disse parametre skal ændres. Artiklen Delta Lake-tabeloptimering og V-Order dækker nogle vigtige scenarier og indeholder en detaljeret vejledning i, hvordan du effektivt vedligeholder Delta-tabeller for at opnå maksimal ydeevne.