Jaa


Lakehouse- ja Delta Lake -taulukot

Microsoft Fabric Lakehouse on tietojen arkkitehtuuriympäristö, jolla voidaan tallentaa, hallita ja analysoida jäsennettyjä ja jäsentämättömiä tietoja yhdessä sijainnissa. Delta Lake valitaan yhtenäiseksi taulukkomuodoksi, jotta tietoihin saadaan saumaton pääsy kaikissa Microsoft Fabricin käsittelymoottoreissa.

Kun tallennat tietoja Lakehousessa käyttämällä toimintoja, kuten Lataa taulukoihin tai menetelmiä, jotka on kuvattu kohdassa Asetukset tietojen saamiseksi Fabric Lakehouseen, kaikki tiedot tallennetaan Delta-muodossa.

Kattavampi johdanto Delta Lake -taulukkomuotoon on Seuraavissa vaiheissa -osion linkkien kautta.

Massadata, Apache Spark ja vanhat taulukkomuodot

Microsoft Fabric Runtime for Apache Spark käyttää samaa perustaa kuin Azure Synapse Analytics Runtime Apache Sparkille, mutta sen sisältämät tärkeät erot takaavat entistä virtaviivaistetun toiminnan kaikissa Microsoft Fabric -palvelun moottoreissa. Microsoft Fabricissa suorituskykyominaisuudet ovat oletusarvoisesti käytössä. Kehittyneet Apache Spark -käyttäjät voivat palauttaa määrityksiä aiempiin arvoihin vastaamaan paremmin tiettyjä skenaarioita.

Microsoft Fabric Lakehouse ja Apache Spark -moottori tukevat kaikkia taulukkotyyppejä, sekä hallittuja että hallitsemattomia; Tämä sisältää näkymät ja tavalliset muut kuin Delta Hive -taulukkomuodot. Taulukot, jotka on määritetty käyttämällä PARQUET-, CSV-, AVRO-, JSON- ja mitä tahansa Apache Hive -yhteensopivaa tiedostomuotoa, toimivat odotetulla tavalla.

Lakehouse Explorerin käyttöliittymän käyttökokemus vaihtelee taulukkotyypin mukaan. Tällä hetkellä Lakehousen tutkimuslaitos hahmontaa vain taulukko-objektit.

Määrityserot Azure Synapse Analyticsin avulla

Seuraavassa taulukossa on azure Synapse Analyticsin ja Microsoft Fabric Runtime for Apache Sparkin määrityserot.

Apache Spark -määritys Microsoft Fabric -arvo Azure Synapse Analytics -arvo Muistiinpanot
spark.sql.sources.default Delta Parketti Oletustaulukkomuoto
spark.sql.parquet.vorder.enabled true V-Order-kirjoittaja
spark.sql.parquet.vorder.dictionaryPageSize 2 Gt Sanaston sivun kokorajoitus V-järjestykselle
spark.microsoft.delta.optimizeWrite.enabled true unset (false) Optimoi kirjoitus

Taulukoiden automaattinen etsiminen

Lakehouse Explorer tarjoaa puumaisen näkymän Microsoft Fabric Lakehouse -kohteen objekteihin. Sillä on tärkeä ominaisuus löytää ja näyttää metatietosäilössä ja OneLake-tallennustilassa kuvattuja taulukoita. Taulukkoviittaukset näkyvät Tables Lakehouse Explorerin käyttöliittymän -osassa. Automaattinen etsintä koskee myös taulukoita, jotka on määritetty OneLake-pikakuvakkeiden avulla.

Taulukot pikakuvakkeiden päällä

Microsoft Fabric Lakehouse tukee OneLake-pikakuvakkeiden kautta määritettyjä taulukoita. Se tarjoaa äärimmäisen yhteensopivuuden ilman tietojen siirtämistä. Seuraavassa taulukossa on skenaarion parhaat käytännöt kullekin kohdetyypille, kun sitä käytetään pikakuvakkeiden kautta.

Pikakuvakkeen kohde Pikakuvakkeen luontipaikka Parhaat käytännöt
Delta Lake -taulukko Tables Jakso Jos kohdesijainnissa on useita taulukoita, luo yksi pikakuvake taulukkoa kohti.
Tiedostoja sisältäviä kansioita Files Jakso Käytä Apache Sparkiä, jos haluat käyttää kohdetta suoraan suhteellisia polkuja käyttämällä. Lataa tiedot Lakehousen alkuperäisiin Delta-taulukoihin, jotta suorituskyky on mahdollisimman suuri.
Vanhat Apache Hive -taulukot Files Jakso Käytä Apache Sparkiä, jos haluat käyttää kohdetta suoraan suhteellisia polkuja käyttämällä tai luoda metatietoluetteloviittauksen syntaksin avulla CREATE EXTERNAL TABLE . Lataa tiedot Lakehousen alkuperäisiin Delta-taulukoihin, jotta suorituskyky on mahdollisimman suuri.

Lataa taulukoihin

Microsoft Fabric Lakehouse tarjoaa kätevän ja tuottavan käyttöliittymän, jonka avulla voit tehostaa tietojen lataamista Delta-taulukoihin. Lataa taulukoihin -ominaisuuden avulla visualisointikokemukset voivat ladata yleisiä tiedostomuotoja Deltaan, mikä tehostaa analyyttista tuottavuutta kaikille persoonaille. Jos haluat lisätietoja Lataa taulukoihin -ominaisuudesta tarkemmin , lue Lakehouse Load to Tables - viitedokumentaatio.

Delta Lake -taulukon optimointi

Taulukoiden pitäminen kunnossa analytiikkaskenaarioiden laajaa käyttöaluetta varten ei ole vähäinen saavutus. Microsoft Fabric Lakehouse mahdollistaa ennakoivasti tärkeät parametrit, jotta voidaan minimoida massadatataulukoihin liittyvät yhteiset ongelmat, kuten tiivistys ja pienet tiedostokoot, sekä maksimoida kyselyjen suorituskyky. On kuitenkin monia tilanteita, joissa nämä parametrit tarvitsevat muutoksia. Delta Lake - taulukon optimointi ja V-Order-artikkeli kattaa joitakin keskeisiä skenaarioita ja tarjoaa perusteellisemman oppaan siihen, miten voit ylläpitää tehokkaasti Delta-taulukoita suorituskyvyn parantamiseksi.