Andmete eksportimine Dataverse Delta Lake’i vormingus

Artikkel
07/29/2024

Kasutage Azure Synapse Link for Dataverse oma Microsoft Dataverse andmete eksportimiseks Delta Lake’i vormingusse Azure Synapse Analytics . Seejärel uurige oma andmeid ja kiirendage ülevaate saamiseks kuluvat aega. See artikkel annab järgmist teavet ja näitab, kuidas teha järgmist.

Selgitab Delta järve ja parketti ning miks peaksite andmeid selles vormingus eksportima.
Eksportige oma Dataverse andmed oma Azure Synapse Analytics tööruumi Delta Lake’i vormingus Azure Synapse Link.
Jälgige oma Azure Synapse Link ja andmete teisendamist.
Vaadake oma andmeid Gen2-st Azure Data Lake Storage .
Vaadake oma andmeid Synapse Workspace’ist.

Oluline

Kui täiendate CSV-lt Delta Lake’ile olemasolevate kohandatud vaadetega, soovitame skripti värskendada, et asendada kõik jaotatud tabelid non_partitioned-ga . Tehke seda, otsides eksemplare _partitioned ja asendades need tühja stringiga.
Dataverse Konfiguratsiooni puhul on CSV-andmete appendonly režiimis eksportimiseks vaikimisi lubatud ainult lisamine. Kuid Delta järve tabelil on kohapealne värskendusstruktuur, kuna Delta järve teisendamisega kaasneb perioodiline ühendamisprotsess.
Sparki basseinide loomisega ei kaasne mingeid kulusid. Tasud tekivad alles siis, kui Sparki töö on Sparki sihtbasseinis käivitatud ja Sparki eksemplar on nõudmisel kohene. Need kulud on seotud tööruumi Spark kasutamisega Azure Synapse ja nende eest esitatakse arve igakuiselt. Spark-arvutuse läbiviimise maksumus sõltub peamiselt astmelise värskendamise ajavahemikust ja andmemahtudest. Lisateave: Azure Synapse Analytics hinnakujundus
Selle funktsiooni kasutamise üle otsustamisel on oluline neid lisakulusid arvesse võtta, kuna need pole valikulised ja selle funktsiooni kasutamise jätkamiseks tuleb need tasuda.
Välja kuulutatud kasutusaja lõpp (EOLA) Azure Synapse 3.1 jaoks Apache Spark on välja kuulutatud 26. jaanuaril 2023. Vastavalt Synapse’i elutsükli käitusaja Apache Spark poliitikale Azure Synapse kõrvaldatakse 3.1 käitusaeg Apache Spark kasutuselt ja keelatakse alates 26. jaanuarist 2024. Pärast EOL-i kuupäeva pole aegunud käitusajad uute Sparki basseinide jaoks saadaval ja olemasolevaid töövooge ei saa käivitada. Metaandmed jäävad ajutiselt tööruumi Synapse. Lisateave: Azure Synapse Versiooni 3.1 (EOLA) Apache Spark käitusaeg. Kui soovite, et teie Synapse Link koos Dataverse Delta Lake’i vormingusse eksportimisega läheks üle Spark 3.3-le, tehke oma olemasolevate profiilide jaoks kohapealne versiooniuuendus. Lisateave: Kohapealne täiendamine versioonile Apache Spark 3.3 koos Delta Lake 2.2-ga
Alates 4. jaanuarist 2024 toetatakse lingi loomisel ainult Spark Pooli versiooni 3.3.

Märkus

Olek Azure Synapse Link in Power Apps (make.powerapps.com) kajastab Delta järve teisendusolekut:

Count näitab kirjete arvu tabelis Delta Lake.
Last synchronized on Kuupäev Datetime tähistab viimast edukat konversioonide ajatemplit.
Sync status kuvatakse aktiivsena, kui andmete sünkroonimine ja Delta Lake’i teisendamine on lõpule jõudnud, mis näitab, et andmed on tarbimiseks valmis.

Mis on Delta järv?

Delta järv on avatud lähtekoodiga projekt, mis võimaldab ehitada järvemaja arhitektuuri andmejärvede peale. Delta Lake pakub ACID-i (aatomsus, järjepidevus, isoleerimine ja vastupidavus) tehinguid, skaleeritavat metaandmete käitlemist ning ühendab voogesituse ja partiiandmete töötlemise olemasolevate andmejärvede peal. Azure Synapse Analytics ühildub Linux Foundation Delta Lake’iga. Delta Lake’i praegusel versioonil Azure Synapse on Scala, PySparki ja .NET keeletugi. Lisateave: Mis on Delta järv?. Lisateavet saate ka videost Sissejuhatus Delta tabelitesse.

Apache parkett on Delta järve lähtevorming, mis võimaldab teil kasutada vormingule omaseid tõhusaid tihendus- ja kodeerimisskeeme. Parketi failivorming kasutab veerupõhist tihendamist. See on tõhus ja säästab salvestusruumi. Päringud, mis toovad konkreetseid veeruväärtusi, ei pea lugema kogu rea andmeid, parandades seega jõudlust. Seetõttu vajab serverita SQL-kaust andmete lugemiseks vähem aega ja vähem salvestustaotlusi.

Miks kasutada Delta järve?

Skaleeritavus: Delta järv on ehitatud avatud lähtekoodiga Apache litsentsi peale, mis on loodud vastama suuremahuliste andmetöötluskoormuste käitlemise valdkonnastandarditele.
Usaldusväärsus: Delta Lake pakub ACID-tehinguid, tagades andmete järjepidevuse ja usaldusväärsuse isegi tõrgete või samaaegse juurdepääsu korral.
Jõudlus: Delta Lake kasutab parketi veergude salvestusvormingut, pakkudes paremaid tihendus- ja kodeerimistehnikaid, mis võib parandada päringu jõudlust võrreldes päringu CSV-failidega.
Kulutõhus: Delta Lake’i failivorming on väga tihendatud andmesalvestustehnoloogia, mis pakub ettevõtetele märkimisväärset potentsiaalset salvestusruumi kokkuhoidu. See vorming on spetsiaalselt loodud andmetöötluse optimeerimiseks ja potentsiaalselt vähendama töödeldavate andmete koguhulka või tellitava andmetöötluse jaoks vajalikku tööaega.
Andmekaitsenõuete täitmine: Delta Lake pakub Azure Synapse Link tööriistu ja funktsioone, sealhulgas pehmet kustutamist ja kõva kustutamist, et järgida mitmesuguseid andmekaitseeeskirju, sealhulgas isikuandmete kaitse üldmäärus (GDPR).

Kuidas Delta järv töötab Azure Synapse Link for Dataverse?

Ani Azure Synapse Link for Dataverse seadistamisel saate lubada ekspordi Delta järve funktsiooni ja luua ühenduse Synapse’i tööruumi ja Sparki basseiniga. Azure Synapse Link ekspordib valitud Dataverse tabelid CSV-vormingus määratud ajavahemike järel, töödeldes neid Delta Lake’i teisendus-Sparki-töö kaudu. Pärast selle teisendusprotsessi lõppu puhastatakse CSV-andmed salvestusruumi säästmiseks. Lisaks on plaanitud iga päev käivitada rida hooldus töid, mis teostavad automaatselt tihendamis- ja tolmuimejaprotsesse andmefailide ühendamiseks ja puhastamiseks, et veelgi optimeerida salvestusruumi ja parandada päringu jõudlust.

eeltingimused

Dataverse: Teil peab olema Dataverse süsteemiadministraator turberoll. Lisaks peab tabelites, mille kaudu Azure Synapse Link soovite eksportida, olema lubatud atribuut Muutuste jälitus . Lisateave: Täpsemad suvandid
Azure Data Lake Storage Gen2: teil peab olema Azure Data Lake Storage Gen2 konto ning juurdepääsuks omaniku ja Salvestusruumi bloobiandmete toetaja rollid. Teie salvestusruumikonto peab lubama hierarhilise nimeruumi ja avaliku võrgu juurdepääsu nii algseks seadistamiseks kui ka delta sünkroonimiseks. Luba salvestusruumi konto võtmele juurdepääs on vajalik ainult algseks seadistamiseks.
Synapse’i tööruum: teil peab olema Synapse’i tööruum ja omaniku roll juurdepääsukontrollis (IAM) ning Synapse’i administraatori roll Synapse Studios. Synapse tööruum peab olema samas piirkonnas, kus teie Azure Data Lake Storage Gen2 konto. Salvestusruumi konto tuleb lisada Synapse Studios lingitud teenusena. Synapse tööruumi loomiseks minge Synapse tööruumi loomine.
Ühendatud tööruumis asuv Apache Spark bassein Azure Synapse versiooniga Apache Spark 3.3, mis kasutab seda soovitatud sädemebasseini konfiguratsiooni. Lisateavet sädemebasseini loomise kohta leiate teemast Uue Apache Spark basseini loomine.
365 Microsoft Dynamics minimaalne versiooninõue selle funktsiooni kasutamiseks on 9.2.22082. Lisateave: Varajase juurdepääsu värskendustega liitumine

Soovitatav sädemebasseini konfiguratsioon

Seda konfiguratsiooni võib pidada samm alglaadimisrihmaks keskmistel kasutusjuhtudel.

Sõlme suurus: väike (4 vCores / 32 GB)
Automaatskaala: lubatud
Sõlmede arv: 5 kuni 10
Automaatne peatamine: lubatud
Tühikäigul töötatud minutite arv: 5
Apache Spark: 3.3
Käivitajate dünaamiline eraldamine: lubatud
Vaikimisi täitjate arv: 1 kuni 9

Oluline

Kasutage Sparki basseini ainult Delta Lake’i vestluseks Synapse Linkiga Dataverse. Optimaalse töökindluse ja jõudluse tagamiseks vältige teiste Sparki tööde käitamist sama Sparki basseini abil.

Synapse tööruumiga ühenduse loomine Dataverse ja andmete eksportimine Delta Lake’i vormingus

Logige sisse Power Apps ja valige soovitud keskkond.
Valige vasakpoolsel navigeerimispaanil Azure Synapse Link. Kui üksust pole külgpaneeli paanil, valige ...Rohkem ja seejärel valige soovitud üksus.
Valige käsuribal + Uus link
Valige Loo ühendus oma Azure Synapse Analytics tööruumiga ja seejärel valige tellimuse nimi , ressursirühm ja tööruum.
Valige Use Spark pool for processing (Kasuta töötlemiseks sädemebasseini) ja seejärel valige eelloodud sädeme- ja salvestusruumikonto.
Tehke valik Edasi.
Lisage tabelid, mida soovite eksportida, ja seejärel valige Täpsemalt.
Soovi korral valige Kuva täpsemad konfiguratsioonisätted ja sisestage ajavahemik minutites, kui sageli tuleks astmelisi värskendusi jäädvustada.
Valige Salvesta.

Teie ja andmete teisendamise jälgimine Azure Synapse Link

Valige soovitud üksus Azure Synapse Link ja seejärel valige käsuribal käsk Mine Azure Synapse Analytics tööruumi .
Valige Monitori > Apache Spark rakendused. Lisateave: Synapse Studio kasutamine rakenduste Apache Spark jälgimiseks

Andmete vaatamine Synapse tööruumist

Valige soovitud üksus Azure Synapse Link ja seejärel valige käsuribal käsk Mine Azure Synapse Analytics tööruumi .
Laiendage vasakpoolsel paanil jaotist Järveandmebaasid, valige dataverse-environmentNameorganizationUniqueName** ja seejärel laiendage jaotist Tabelid. Kõik parketilauad on loetletud ja analüüsimiseks saadaval nimereegliga DataverseTableName. (Non_partitioned Tabel).

Märkus

Ärge kasutage nimereegliga tabeleid_partitioned. Kui valite vorminguks Delta parketi, kasutatakse _partition nimekonventsiooniga tabeleid koondamistabelitena ja need eemaldatakse pärast seda, kui süsteem neid kasutab.

Vaadake oma andmeid Gen2-st Azure Data Lake Storage

Valige soovitud soovitud ja Azure Synapse Link seejärel valige käsuribal käsk Mine Azure’i andmejärve .
Valige konteinerid jaotises Andmesalvestus.
Valige *dataverse-environmentName-organizationUniqueName *·. Kõik parketifailid salvestatakse deltalake kausta.

Paigas uuendamine 3.3-le Apache Spark Delta Lake 2.2-ga

eeltingimused

Teil peab olema olemasolev Azure Synapse Link for Dataverse Delta Lake’i profiil, mis töötab Synapse Sparki versiooniga 3.1.
Peate looma uue Synapse Sparki basseini Sparki versiooniga 3.3, kasutades sama või kõrgema sõlme riistvarakonfiguratsiooni samas Synapse tööruumis. Lisateavet sädemebasseini loomise kohta leiate teemast Uue Apache Spark basseini loomine. See Sparki bassein tuleks luua praegusest 3.1 basseinist sõltumatult.

Kohapealne täiendus Spark 3.3-le:

Logige sisse Power Apps ja valige oma eelistatud keskkond.
Valige vasakpoolsel navigeerimispaanil Azure Synapse Link. Kui üksust pole vasakpoolsel navigeerimispaanil, valige ... Veel ja seejärel valige soovitud üksus.
Avage Azure Synapse Link profiil ja seejärel valige Delta Lake 2.2-ga täienda versioonile Apache Spark 3.3.
Valige loendist saadaolev sädemekogum ja seejärel valige käsk Värskenda.

Märkus

Sädemebasseini versiooniuuendus toimub ainult siis, kui käivitatakse uus Delta Lake’i teisenduse Sparki töö. Pärast nupu Värskenda valimist veenduge, et teil oleks vähemalt üks andmemuudatus.

Vaata ka

Mis on Azure Synapse Link for Dataverse?

Jagamisviis:

Andmete eksportimine Dataverse Delta Lake’i vormingus

Mis on Delta järv?

Miks kasutada Delta järve?

Kuidas Delta järv töötab Azure Synapse Link for Dataverse?

eeltingimused

Soovitatav sädemebasseini konfiguratsioon

Synapse tööruumiga ühenduse loomine Dataverse ja andmete eksportimine Delta Lake’i vormingus

Teie ja andmete teisendamise jälgimine Azure Synapse Link

Andmete vaatamine Synapse tööruumist

Vaadake oma andmeid Gen2-st Azure Data Lake Storage

Paigas uuendamine 3.3-le Apache Spark Delta Lake 2.2-ga

eeltingimused

Kohapealne täiendus Spark 3.3-le:

Vaata ka

Lisaressursid