Lakehouse- og Delta Lake-borde
Microsoft Fabric Lakehouse er en dataarkitekturplatform til lagring, administration og analyse af strukturerede og ustrukturerede data på en enkelt placering. For at opnå problemfri dataadgang på tværs af alle beregningsprogrammer i Microsoft Fabric vælges Delta Lake som det samlede tabelformat.
Hvis du gemmer data i Lakehouse ved hjælp af funktioner som f.eks. Indlæs i tabeller eller metoder, der er beskrevet i Indstillinger for at hente data ind i Fabric Lakehouse, gemmes alle data i Delta-format. Delta bruges også som standardformattilstand for Spark-tabeller i kode første oplevelser, f.eks. Notesbøger og Spark JobDefinitioner.
Vigtigt
Microsoft Fabric er i øjeblikket i PRØVEVERSION. Disse oplysninger relaterer til et foreløbig produkt, der kan ændres væsentligt, før de udgives. Microsoft giver ingen garantier, udtrykt eller stiltiende, med hensyn til de oplysninger, der er angivet her.
Hvis du vil have en mere omfattende introduktion til tabelformatet Delta Lake, skal du følge links i afsnittet Næste trin.
Big data-, Apache Spark- og ældre tabelformater
Microsoft Fabric Runtime til Apache Spark bruger det samme fundament som Azure Synapse Analytics Runtime til Apache Spark, men indeholder vigtige forskelle for at give en mere strømlinet funktionsmåde på tværs af alle programmer i Microsoft Fabric-tjenesten. I Microsoft Fabric er de vigtigste ydeevnefunktioner som standard slået til. Avancerede Apache Spark-brugere kan gendanne konfigurationer til tidligere værdier for bedre at tilpasse sig bestemte scenarier.
Microsoft Fabric Lakehouse og Apache Spark-programmet understøtter alle tabeltyper, både administrerede og ikke-administrerede. Dette omfatter visninger og almindelige tabelformater, der ikke er Delta Hive. Tabeller, der er defineret ved hjælp af PARQUET, CSV, AVRO, JSON og alle Apache Hive-kompatible filformater, fungerer som forventet.
Brugergrænsefladen i Lakehouse Explorer varierer afhængigt af tabeltypen. I øjeblikket gengiver Stifinder i Lakehouse kun tabelobjekter.
Konfigurationsforskelle med Azure Synapse Analytics
Følgende tabel indeholder konfigurationsforskellene mellem Azure Synapse Analytics og Microsoft Fabric Runtime for Apache Spark.
Konfiguration af Apache Spark | Microsoft Fabric-værdi | Azure Synapse Analytics-værdi | Noter |
---|---|---|---|
spark.sql.sources.default | Delta | Parket | Standardtabelformat |
spark.sql.parquet.vorder.enabled | sand | I/T | V-Order-forfatter |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | I/T | Grænse for størrelse på ordbogsside for V-ordre |
spark.microsoft.delta.optimizeWrite.enabled | sand | unset (falsk) | Optimer skrivning |
Automatisk registrering af tabeller
Lakehouse Explorer giver en træagtig visning af objekterne i Microsoft Fabric Lakehouse-elementet. Den har en nøglefunktion til at finde og vise tabeller, der er beskrevet i metadatalageret og i OneLake-lageret. Tabelreferencerne vises under Tables
sektionen i brugergrænsefladen i Lakehouse Explorer. Automatisk registrering gælder også for tabeller, der er defineret over OneLake-genveje.
Tabeller over genveje
Microsoft Fabric Lakehouse understøtter tabeller, der er defineret via OneLake-genveje, for at give størst mulig kompatibilitet og ingen databevægelse. Følgende tabel indeholder de bedste fremgangsmåder for scenariet for hver elementtype, når du bruger den via genveje.
Genvejsdestination | Hvor du kan oprette genvejen | Bedste praksis |
---|---|---|
Delta Lake-tabel | Tables Afsnit |
Hvis der findes flere tabeller i destinationen, skal du oprette én genvej pr. tabel. |
Mapper med filer | Files Afsnit |
Brug Apache Spark til at bruge destinationen direkte ved hjælp af relative stier. Indlæs dataene i oprindelige Delta-tabeller i Lakehouse for at opnå maksimal ydeevne. |
Ældre Apache Hive-tabeller | Files Afsnit |
Brug Apache Spark til at bruge destinationen direkte ved hjælp af relative stier, eller opret en reference til metadatakataloget ved hjælp af CREATE EXTERNAL TABLE syntaks. Indlæs dataene i oprindelige Delta-tabeller i Lakehouse for at opnå maksimal ydeevne. |
Indlæs i tabeller
Microsoft Fabric Lakehouse leverer en praktisk og produktiv brugergrænseflade til at strømline indlæsning af data i Delta-tabeller. Funktionen Indlæs i tabeller gør det muligt for en visualisering at indlæse almindelige filformater til Delta for at øge analyseproduktiviteten for alle personer. Hvis du vil vide mere om funktionen Indlæs tabeller i detaljer, skal du læse dokumentationen til Lakehouse Load to Tables .
Optimering af tabellen Delta Lake
Det er ikke nogen mindre bedrift at holde tabeller i form til det brede omfang af analysescenarier. Microsoft Fabric Lakehouse muliggør proaktivt de vigtige parametre for at minimere almindelige problemer, der er knyttet til big data-tabeller, f.eks. komprimering og små filstørrelser, og for at maksimere ydeevnen af forespørgsler. Der er stadig mange scenarier, hvor disse parametre skal ændres. Artiklen om tabeloptimering i Delta Lake og V-Order dækker nogle vigtige scenarier og indeholder en detaljeret vejledning i, hvordan du effektivt vedligeholder Delta-tabeller for at opnå maksimal ydeevne.