Dataverse-gegevens exporteren in Delta Lake-indeling

Artikel
07/29/2024

Gebruik Azure Synapse Link for Dataverse om uw Microsoft Dataverse gegevens te exporteren naar Azure Synapse Analytics in Delta Lake-indeling. Verken vervolgens uw gegevens en versnel de tijd tot inzicht. Dit artikel bevat de volgende informatie en laat zien hoe u de volgende taken uitvoert:

Delta Lake en Parquet worden uitgelegd en er wordt beschreven waarom u gegevens in deze indeling moet exporteren.
Exporteer uw Dataverse-gegevens naar uw Azure Synapse Analytics-werkruimte in Delta Lake-indeling met de Azure Synapse Link.
Houd uw Azure Synapse Link en gegevensconversie bij.
Bekijk uw gegevens in Azure Data Lake Storage Gen2.
Bekijk uw gegevens in Synapse-werkruimte.

Belangrijk

Als u een upgrade uitvoert van CSV naar Delta Lake met bestaande aangepaste weergaven, raden we u aan het script bij te werken om alle gepartitioneerde tabellen te vervangen door niet-gepartitioneerde. Doe dit door te zoeken naar exemplaren van _partitioned en vervang deze door een lege tekenreeks.
Voor de Dataverse-configuratie is alleen toevoegen standaard ingeschakeld om CSV-gegevens te exporteren in de modus appendonly. Maar de Delta Lake-tabel heeft een ingebouwde updatestructuur omdat de Delta Lake-conversie gepaard gaat met een periodiek samenvoegproces.
Er zijn geen kosten verbonden aan het maken van Spark-pools. Er worden pas kosten in rekening gebracht zodra een Spark-taak is uitgevoerd op de doel-Spark-pool en het Spark-exemplaar op aanvraag wordt geïnstantieerd. Deze kosten zijn gerelateerd aan het gebruik van Azure Synapse workspace Spark en worden maandelijks gefactureerd. De kosten van het gebruik van Spark-computing zijn voornamelijk afhankelijk van het tijdsinterval voor incrementele updates en de gegevensvolumes. Meer informatie: Azure Synapse Analytics-prijzen
Het is belangrijk om rekening te houden met deze extra kosten wanneer u besluit om deze functie te gebruiken, aangezien ze niet optioneel zijn en betaald moeten worden om deze functie te kunnen blijven gebruiken.
Einde levensduur aangekondigd (EOLA) voor Apache Spark-runtime voor Azure Synapse 3.1 is aangekondigd op 26 januari 2023. In overeenstemming met het Synapse-runtime voor Apache Spark-levenscyclusbeleid, wordt Azure Synapse-runtime voor Apache Spark 3.1 vanaf 26 januari 2024 buiten gebruik gesteld en uitgeschakeld. Na de EOL-datum zijn de buiten gebruik gestelde runtimes niet beschikbaar voor nieuwe Spark-pools en kunnen bestaande werkstromen niet worden uitgevoerd. Metagegevens blijven tijdelijk in de Synapse-werkruimte staan. Meer informatie: Azure Synapse-runtime voor Apache Spark 3.1 (EOLA). Om te kunnen beschikken over de upgrade naar Spark 3.3 van uw Synapse Link voor Dataverse met export naar Delta Lake-indeling, voert u een interne upgrade uit voor uw bestaande profielen. Meer informatie: In-place upgrade naar Apache Spark 3.3 met Delta Lake 2.2
Vanaf 4 januari 2024 wordt alleen Spark Pool-versie 3.3 ondersteund bij het maken van de eerste koppeling.

Notitie

De status van Azure Synapse Link in Power Apps (make.powerapps.com) weerspiegelt de conversiestatus van het Delta Lake:

Count geeft het aantal records in de Delta Lake-tabel weer.
De datum/tijd bij Last synchronized on vertegenwoordigt de timestamp voor de laatste geslaagde conversie.
Sync status wordt als actief weergegeven zodra de gegevenssynchronisatie en Delta Lake-conversie zijn voltooid, wat aangeeft dat de gegevens klaar zijn voor gebruik.

Wat is Delta Lake?

Delta Lake is een open-sourceproject waarmee een lakehouse-architectuur boven op data lakes kan worden gebouwd. Delta Lake biedt ACID-transacties (atomiciteit, consistentie, isolatie en duurzaamheid), zorgt voor schaalbare verwerking van metagegevens en harmoniseert streaming- en batchgegevensverwerking boven op bestaande data lakes. Azure Synapse Analytics is compatibel met Linux Foundation Delta Lake. De huidige versie van Delta Lake die wordt meegeleverd met Azure Synapse beschikt over taalondersteuning voor Scala, PySpark en .NET. Meer informatie: Wat is Delta Lake? U kunt ook meer te weten komen via de video Inleiding tot Delta Tables.

Apache Parquet is de basisindeling voor Delta Lake, waardoor u gebruik kunt maken van de efficiënte compressie- en coderingsschema's die eigen zijn aan de indeling. De bestandsindeling Parquet maakt gebruik van kolomgewijze compressie. Het is efficiënt en bespaart opslagruimte. Query's die specifieke kolomwaarden ophalen, hoeven niet de volledige rijgegevens te lezen, waardoor de prestaties worden verbeterd. Daarom heeft een serverloze SQL-pool minder tijd en minder opslagaanvragen nodig om de gegevens te lezen.

Waarom Delta Lake gebruiken?

Schaalbaarheid: Delta Lake is gebouwd boven op Open-source Apache-licentie, die is ontworpen om te voldoen aan industriestandaarden voor het verwerken van grootschalige gegevensverwerkingswerklasten.
Betrouwbaarheid: Delta Lake biedt ACID-transacties, waardoor gegevensconsistentie en betrouwbaarheid worden gegarandeerd, zelfs bij storingen of gelijktijdige toegang.
Prestaties: Delta Lake maakt gebruik van de kolomgewijze opslagindeling van Parquet en biedt betere compressie- en coderingstechnieken, wat kan leiden tot verbeterde queryprestaties in vergelijking met query-CSV-bestanden.
kostenefficiënt: de Delta Lake-bestandsindeling is een sterk gecomprimeerde technologie voor gegevensopslag die bedrijven aanzienlijke potentiële opslagbesparingen biedt. Deze indeling is specifiek ontworpen om de gegevensverwerking te optimaliseren en mogelijk de totale hoeveelheid verwerkte gegevens of looptijd die nodig is voor on-demand computing te verminderen.
Naleving van gegevensbescherming: Delta Lake met Azure Synapse Link biedt tools en functies, onder andere voor voorlopig verwijderen en definitief verwijderen, om te voldoen aan verschillende regelgeving voor gegevensprivacy, waaronder de AVG (algemene verordening gegevensbescherming).

Hoe Delta Lake werkt met Azure Synapse Link for Dataverse?

Bij het opzetten van een Azure Synapse Link for Dataverse, kunt u de functie voor exporteren naar Delta Lake inschakelen en verbinding maken met een Synapse-werkruimte en Spark-pool. Azure Synapse Link exporteert de geselecteerde Dataverse-tabellen in CSV-indeling met aangegeven tijdsintervallen en verwerkt ze via een Spark-taak voor Delta Lake-conversie. Na voltooiing van dit conversieproces worden CSV-gegevens opgeschoond om opslagruimte te besparen. Daarnaast is er een reeks onderhoudstaken gepland die dagelijks worden uitgevoerd, waarbij automatisch verdichtings- en opschoonprocessen worden uitgevoerd om gegevensbestanden samen te voegen en op te schonen, waardoor de opslag verder wordt geoptimaliseerd en de queryprestaties verbeteren.

Vereisten

Dataverse: Zorg ervoor dat u over de beveiligingsrol Dataverse systeembeheerder beschikt. Bovendien moet voor tabellen die u wilt exporteren via Azure Synapse Link de eigenschap Wijzigingen bijhouden zijn ingeschakeld. Meer informatie: Geavanceerde opties
Azure Data Lake Storage Gen2: u moet een Azure Data Lake Storage Gen2-account hebben en toegang hebben met de rollen Eigenaar en Inzender van Blob-opslaggegevens. Uw opslagaccount moet hiërarchische naamruimte en openbare netwerktoegang inschakelen voor zowel de initiële installatie als delta-synchronisatie. Sleuteltoegang tot opslagaccount toestaan is alleen vereist voor de initiële installatie.
Synapse workspace: u moet een Synapse workspace hebben en over de rol Eigenaar in toegangscontrole (IAM) beschikken en over de rol Synapse-beheerder binnen de Synapse Studio. De Synapse-werkruimte moet zich in dezelfde regio bevinden als uw Azure Data Lake Storage Gen2-account. Het opslagaccount moet worden toegevoegd als een gekoppelde service in de Synapse Studio. Om een Synapse-werkruimte te maken, gaat u naar Een Synapse-werkruimte maken.
Een Apache Spark pool in de verbonden Azure Synapse werkruimte met Apache Spark versie 3.3 die gebruikmaakt van deze aanbevolen Spark Pool-configuratie. Voor informatie over hoe u een Spark-pool kunt maken, gaat u naar Nieuwe Apache Spark-pool maken.
De minimale versievereiste voor Microsoft Dynamics 365 om deze functie te gebruiken is 9.2.22082. Meer informatie: Inschrijven voor vroege toegang tot updates

Aanbevolen configuratie van Spark-pool

Deze configuratie kan worden beschouwd als een bootstrap-stap voor gemiddelde gebruiksscenario's.

Knooppuntgrootte: klein (4 vCores/32 GB)
Automatisch schalen: ingeschakeld
Aantal knooppunten: 5 tot 10
Automatische onderbreking: ingeschakeld
Aantal minuten van inactiviteit: 5
Apache Spark: 3.3
Uitvoerders dynamisch toewijzen: ingeschakeld
Standaardaantal uitvoerders: 1 tot 9

Belangrijk

Gebruik de Spark-pool uitsluitend voor Delta Lake-conversatiebewerkingen met Synapse koppelen Dataverse. Voor optimale betrouwbaarheid en prestaties vermijdt u het uitvoeren van andere Spark-taken met dezelfde Spark-pool.

Dataverse verbinden met Synapse-werkruimte en gegevens exporteren in Delta Lake-indeling

Meld u aan bij Power Apps en selecteer de gewenste omgeving.
Selecteer in het linkernavigatievenster Azure Synapse Link. Als het item zich niet in het deelvenster van het zijpaneel bevindt, selecteert u …Meer en selecteert u vervolgens het gewenste item.
Selecteer + Nieuwe koppeling op de opdrachtbalk
Selecteer Verbinden met uw Azure Synapse Analytics-werkruimte en selecteer vervolgens Abonnement, Resourcegroep en Werkruimtenaam.
Selecteer Spark-pool gebruiken voor verwerking en selecteer vervolgens de vooraf gemaakte Spark-pool en opslagaccount.
Selecteer Volgende.
Voeg de tabellen toe die u wilt exporteren en selecteer vervolgens Geavanceerd.
Selecteer desgewenst Geavanceerde configuratie-instellingen weergeven en voer het tijdsinterval, in minuten, in om aan te geven hoe vaak de incrementele updates moeten worden vastgelegd
Selecteer Save.

Uw Azure Synapse Link en gegevensconversie bijhouden

Selecteer de gewenste Azure Synapse Link en selecteer vervolgens Ga naar Azure Synapse Analytics-werkruimte op de opdrachtbalk.
Selecteer Bijhouden > Apache Spark-toepassingen. Meer informatie: Synapse Studio gebruiken om uw Apache Spark-applicaties bij te houden

Uw gegevens bekijken in Synapse-werkruimte

Selecteer de gewenste Azure Synapse Link en selecteer vervolgens Ga naar Azure Synapse Analytics-werkruimte op de opdrachtbalk.
Vouw Lake-databases uit in het linkerdeelvenster, selecteer dataverse-environmentNameorganizationUniqueName en vouw vervolgens Tabellen uit. Alle Parquet-tabellen worden weergegeven en zijn beschikbaar voor analyse met de naamconventie DataverseTableName. (Niet-gepartitioneerde tabel).

Notitie

Gebruik geen tabellen met de naamgevingsconventie _partitioned. Wanneer u Delta Parquet als indeling kiest, worden tabellen met de naamgevingsconventie _partition gebruikt als faseringstabellen en verwijderd nadat ze door het systeem zijn gebruikt.

Uw gegevens bekijken in Azure Data Lake Storage Gen2

Selecteer de gewenste Azure Synapse Link en vervolgens Naar Azure Data Lake op de opdrachtbalk.
Selecteer Containers onder Gegevensopslag.
Selecteer *dataverse- *environmentName-organizationUniqueName. Alle Parquet-bestanden worden opgeslagen in de map deltalake.

In-place upgrade naar Apache Spark 3.3 met Delta Lake 2.2

Vereisten

U moet beschikken over een bestaand Azure Synapse Link for Dataverse Delta Lake-profiel dat wordt uitgevoerd met een Synapse Spark versie 3.1.
U moet een nieuwe Synapse Spark-pool maken met Spark versie 3.3, met gebruik van dezelfde of hogere hardwareconfiguratie voor knooppunten binnen dezelfde Synapse-werkruimte. Voor informatie over hoe u een Spark-pool kunt maken, gaat u naar Nieuwe Apache Spark-pool maken. Deze Spark-pool moet onafhankelijk van de huidige 3.1-pool worden gemaakt.

In-place upgrade naar Spark 3.3:

Meld u aan bij Power Apps en selecteer uw voorkeursomgeving.
Selecteer in het linkernavigatievenster Azure Synapse Link. Als het item zich niet in het linkernavigatievenster bevindt, selecteert u …Meer en selecteert u vervolgens het gewenste item.
Open het Azure Synapse Link-profiel en selecteer vervolgens Upgraden naar Apache Spark 3.3 met Delta Lake 2.2.
Selecteer de beschikbare Spark-pool in de lijst en selecteer vervolgens Bijwerken.

Notitie

De upgrade van de Spark-pool vindt alleen plaats wanneer een nieuwe Delta Lake-conversie Spark-taak wordt geactiveerd. Zorg ervoor dat u na het selecteren van Bijwerken ten minste één gegevenswijziging doorvoert.

Zie ook

Wat is Azure Synapse Link for Dataverse?

Delen via

Dataverse-gegevens exporteren in Delta Lake-indeling

Wat is Delta Lake?

Waarom Delta Lake gebruiken?

Hoe Delta Lake werkt met Azure Synapse Link for Dataverse?

Vereisten

Aanbevolen configuratie van Spark-pool

Dataverse verbinden met Synapse-werkruimte en gegevens exporteren in Delta Lake-indeling

Uw Azure Synapse Link en gegevensconversie bijhouden

Uw gegevens bekijken in Synapse-werkruimte

Uw gegevens bekijken in Azure Data Lake Storage Gen2

In-place upgrade naar Apache Spark 3.3 met Delta Lake 2.2

Vereisten

In-place upgrade naar Spark 3.3:

Zie ook

Aanvullende resources