Delen via


Verbinding maken met Delta-tabellen in Azure Data Lake Storage

Maak verbinding met gegevens in Delta-tabellen en breng deze over naar Dynamics 365 Customer Insights - Data.

Delta is een term die is geïntroduceerd bij Delta Lake, de basis voor het opslaan van gegevens en tabellen op het Databricks Lakehouse Platform. Delta Lake is een open-source opslaglaag die ACID-transacties (atomiciteit, consistentie, isolatie en duurzaamheid) aan big data-werklasten toevoegt. Zie de Delta Lake-documentatiepagina voor meer informatie.

Belangrijkste redenen om verbinding te maken met gegevens die zijn opgeslagen in Delta-indeling:

  • Importeer rechtstreeks in Delta ingedeelde gegevens om tijd en moeite te besparen.
  • Vermijd de reken- en opslagkosten die gepaard gaan met het transformeren en opslaan van een kopie van uw lakehouse-gegevens.
  • Verbeter automatisch de betrouwbaarheid van gegevensopname in Customer Insights - Data die wordt aangeboden door Delta-versiebeheer.

Vereisten

  • De Azure Data Lake Storage moet zich in dezelfde tenant en dezelfde Azure-regio bevinden als Customer Insights - Data.

  • De Customer Insights - Data-service-principal moet over machtigingen voor Inzender van opslag-blobgegevens beschikken om toegang te hebben tot het opslagaccount. Voor meer informatie, zie Machtigingen verlenen aan de service-principal voor toegang tot het opslagaccount.

  • De gebruiker die de gegevensbron instelt of bijwerkt, heeft minimaal de machtigingen Opslag-blobgegevens lezer nodig voor het Azure Data Lake Storage-account.

  • Gegevens die zijn opgeslagen in online services, kunnen op een andere locatie worden opgeslagen dan waar gegevens worden verwerkt of opgeslagen. Door het importeren van of verbinden met gegevens die zijn opgeslagen in online services, gaat u ermee akkoord dat gegevens kunnen worden overgedragen.  Ga voor meer informatie naar het Microsoft Trust Center.

  • Customer Insights - Data ondersteunt Databricks-lezer versie 2. Delta-tabellen die gebruikmaken van functies waarvoor Databricks-lezer versie 3 of hoger vereist zijn, worden niet ondersteund. Meer informatie: Hoe beheert Databricks de compatibiliteit van Delta Lake-functies?

  • De Delta-tabellen moeten zich in een map in de opslagcontainer bevinden en mogen niet in de hoofdmap van de container staan. Bijvoorbeeld:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Gegevens in uw Azure Data Lake Storage moeten in Delta-tabellen staan. Customer Insights - Data vertrouwt op de eigenschap versie in de geschiedenis van de tabel om de meest recente wijzigingen te identificeren voor incrementele verwerking.

  • Customer Insights - Data ondersteunt Databricks-lezer versie 2. Delta-tabellen die gebruikmaken van functies waarvoor Databricks-lezer versie 3 of hoger vereist zijn, worden niet ondersteund. Meer informatie: Hoe beheert Databricks de compatibiliteit van Delta Lake-functies?

Verbinding maken met Delta-gegevens vanuit Azure Data Lake Storage

  1. Ga naar Gegevens>Gegevensbronnen.

  2. Selecteer Een gegevensbron toevoegen.

  3. Selecteer Azure Data Lake Delta-tabellen.

    Dialoogvenster om verbindingsdetails voor Data Lake in te voeren.

  4. Voer een Naam gegevensbron en een optionele Beschrijving in. Er wordt naar de naam verwezen in downstreamprocessen en deze kan niet worden gewijzigd nadat de gegevensbron is gemaakt.

  5. Kies een van de volgende opties voor Uw opslag verbinden met.

    • Azure-abonnement: selecteer het Abonnement en dan de Resourcegroep en het Opslagaccount.
    • Azure-resource: Voor de Resource-id in.
  6. Optioneel, als u gegevens van een opslagaccount wilt opnemen via een Azure Private Link, selecteert u Private Link inschakelen. Zie voor meer informatie Privékoppelingen.

  7. Kies de naam van de Container die de map met uw gegevens bevat en selecteer Volgende.

  8. Navigeer naar de map die de gegevens in Delta-tabellen bevat en selecteer deze. Selecteer vervolgens Volgende. Een lijst met beschikbare tabellen wordt weergegeven.

  9. Selecteer de tabellen die u wil opnemen.

  10. Voor geselecteerde tabellen waarvoor geen primaire sleutel is gedefinieerd, wordt Vereist weergegeven onder Primaire sleutel. Voor elk van deze tabellen:

    1. Selecteer Vereist. Het deelvenster Tabel bewerken wordt weergegeven.
    2. Kies de primaire sleutel. De primaire sleutel is een kenmerk dat uniek is voor de tabel. Als een kenmerk een geldige primaire sleutel is, mag het geen dubbele waarden, ontbrekende waarden of null-waarden bevatten. Kenmerken van het gegevenstype string, integer en GUID worden ondersteund als primaire sleutels.
    3. Selecteer Sluiten om het deelvenster op te slaan en te sluiten.

    Dialoogvenster met Vereist voor primaire sleutel

  11. Als u gegevensprofilering voor een van de kolommen wilt inschakelen, selecteert u het aantal kolommen voor de tabel. De pagina Kernmerken beheren wordt weergegeven.

    Dialoogvenster om gegevensprofilering te selecteren.

    1. Selecteer Gegevensprofilering voor de hele tabel of voor specifieke kolommen. Standaard is geen tabel ingeschakeld voor gegevensprofilering.
    2. Selecteer Gereed.
  12. Selecteer Opslaan. De pagina Gegevensbronnen wordt geopend met de nieuwe gegevensbron met de status Vernieuwen.

    Tip

    Er zijn statussen voor taken en processen. De meeste processen zijn afhankelijk van andere upstreamprocessen, zoals de vernieuwing van gegevensbronnen en gegevensprofilering.

    Selecteer de status om het deelvenster Details van voortgang te openen en de voortgang van de taken te bekijken. Als u de taak wilt annuleren, selecteert u Taak annuleren onder aan het deelvenster.

    Onder elke taak kunt u Zie details selecteren voor meer voortgangsinformatie, zoals verwerkingstijd, de laatste verwerkingsdatum en eventuele toepasselijke fouten en waarschuwingen die verband houden met de taak of het proces. Selecteer Systeemstatus weergeven onder aan het deelvenster om andere processen in het systeem te zien.

Het laden van gegevens kan enige tijd vergen. Na een succesvolle vernieuwing kunnen de opgenomen gegevens worden bekeken op de pagina Tabellen.

Wijzigingen in schema beheren

Wanneer een kolom wordt toegevoegd aan of verwijderd uit het schema van een gegevensbron van Deltamappen, wordt een volledige vernieuwing van de gegevens uitgevoerd. Met een volledige vernieuwing duurt het langer om alle gegevens te verwerken dan met een incrementele vernieuwing.

Een kolom toevoegen

Wanneer een kolom wordt toegevoegd aan de gegevensbron, wordt de informatie automatisch toegevoegd aan de gegevens in Customer Insights - Data zodra er een vernieuwing plaatsvindt. Als u de harmonisatie voor de tabel al hebt geconfigureerd, moet de nieuwe kolom worden toegevoegd aan het harmonisatieproces.

  1. Selecteer via de stap Klantgegevens Tabellen en kolommen selecteren en selecteer de nieuwe kolom.

  2. Zorg er in de stap Geharmoniseerde gegevensweergave voor dat de kolom niet wordt uitgesloten van het klantprofiel. Selecteer Uitgesloten en controleer de kolom.

  3. Selecteer in de stap Updates uitvoeren op het geharmoniseerde klantprofiel de optie Klantprofielen en afhankelijkheden harmoniseren.

Een kolom wijzigen of verwijderen

Wanneer een kolom uit een gegevensbron wordt verwijderd, controleert het systeem op afhankelijkheden in andere processen. Als er een afhankelijkheid in de kolommen is, stopt het systeem de vernieuwing en geeft een fout weer die aangeeft dat de afhankelijkheden moeten worden verwijderd. Deze afhankelijkheden worden weergegeven in een melding om u te helpen deze te lokaliseren en te verwijderen.

Een schemawijziging valideren

Nadat gegevensbron is vernieuwd, gaat u naar de pagina Gegevens>Tabellen . Selecteer de tabel voor de gegevensbron en verifieer het schema.

Delta lake-tijdreizen en -gegevens worden vernieuwd

Delta lake-tijdreizen is de mogelijkheid om tabelversies te doorzoeken op basis van een tijdstempel of versienummer. Wijzigingen in Delta-mappen zijn voorzien van een versienummer en Customer Insights - Data gebruikt de Delta-mapversies om bij te houden welke gegevens moeten worden verwerkt. Bij regelmatig vernieuwen van de deltatabel worden gegevens opgehaald uit alle gegevenstabelversies sinds de laatste vernieuwing. Zolang alle versies aanwezig zijn, kan Customer Insights - Data alleen de gewijzigde elementen verwerken en snellere resultaten opleveren. Meer informatie over tijdreizen.

Als Customer Insights – Data bijvoorbeeld voor het laatst is gesynchroniseerd met versie 23 van uw Delta-mapgegevens, wordt verwacht dat versie 23 en mogelijk daaropvolgende versies beschikbaar zijn. Als de verwachte gegevensversies niet beschikbaar zijn, mislukt de gegevenssynchronisatie en is een handmatige volledige gegevensvernieuwing vereist. Gegevenssynchronisatie kan mislukken als uw Delta-mapgegevens zijn verwijderd en vervolgens opnieuw zijn gemaakt. Of als Customer Insights - Data gedurende langere tijd geen verbinding kon maken met uw Delta-mappen terwijl de versies vooruit gingen.

Om te voorkomen dat de gegevens volledig moeten worden vernieuwd, raden we u aan een redelijke backlog in de geschiedenis aan te houden, bijvoorbeeld 15 dagen.

Handmatig een volledige gegevensvernieuwing uitvoeren op een Delta-tabelmap

Bij een volledige vernieuwing worden alle gegevens uit een tabel in Delta-indeling opgehaald en opnieuw geladen vanuit de Delta-tabelversie nul (0). Wijzigingen in het Delta-mapschema activeren een automatische volledige vernieuwing. Ga als volgt te werk om een volledige handmatige vernieuwing te activeren:

  1. Ga naar Gegevens>Gegevensbronnen.

  2. Selecteer de gegevensbron Azure Data Lake Delta-tabellen.

  3. Selecteer de tabel die u wilt vernieuwen. Het deelvenster Tabel bewerken wordt weergegeven.

    Bewerk het tabelvenster om eenmalig volledig vernieuwen te selecteren.

  4. Selecteer Eenmalig volledig vernieuwen uitvoeren.

  5. Selecteer Opslaan om de vernieuwing uit te voeren. De pagina Gegevensbronnen wordt geopend met de gegevensbron met de status Vernieuwen, maar alleen de geselecteerde tabel wordt vernieuwd.

  6. Herhaal het proces voor andere tabellen, indien van toepassing.

Storing bij gegevenssynchronisatie

Gegevenssynchronisatie kan mislukken als uw Delta-mapgegevens zijn verwijderd en vervolgens opnieuw zijn gemaakt. Of als Customer Insights - Data gedurende langere tijd geen verbinding kon maken met uw Delta-mappen terwijl de versies vooruit gingen. Om de impact te minimaliseren wanneer een periodieke fout in de gegevenspijplijn een volledige vernieuwing noodzakelijk maakt, raden we u aan een redelijke backlog in de geschiedenis aan te houden, bijvoorbeeld 15 dagen.

Volgende stappen