Dela via


Ansluta till Delta-tabeller i Azure Data Lake Storage

Anslut till data i Delta-tabeller och för in dem i Dynamics 365 Customer Insights - Data.

Delta är en term som introduceras med Delta Lake, grunden för att lagra data och tabeller i Databricks Lakehouse-plattformen. Delta Lake är ett lagringslager med öppen källkod som för ACID-transaktioner (atomicitet, konsistens, isolering och hållbarhet) till big data-arbetsbelastningar. Mer information finns på sidan Delta Lake-dokumentation.

Viktiga orsaker till att ansluta till data som är lagrade i Delta-format:

  • Importera Delta-formaterade data direkt för att spara tid och arbete.
  • Eliminera beräknings- och lagringskostnaderna för att omvandla och lagra en kopia av dina lakehouse-data.
  • Automatiskt förbättra tillförlitligheten för datainmatning till Customer Insights - Data som tillhandahålls av Delta-versionshantering.

Förutsättningar

  • Azure Data Lake Storage måste finnas i samma klientorganisation och Azure-region som Customer Insights - Data.

  • Customer Insights - Data huvudkonto för tjänsten måste ha behörighet till Storage Blob-datadeltagare för åtkomst lagringskonto. Mer information finns i Bevilja behörigheter till tjänstens huvudnamn för åtkomst till lagringskontot.

  • Användaren som konfigurerar eller uppdaterar datakällanslutningen behöver minst behörigheten Storage Blob dataläsare på Azure Data Lake Storage-kontot.

  • Data som lagras i onlinetjänster kan lagras på en annan plats än där data behandlas eller lagras. Genom att importera eller ansluta till data som lagras på en onlinetjänst, t.ex. godkänner du att data kan överföras.  Läs mer i Microsoft Trust Center.

  • Customer Insights - Data har stöd för Databricks läsare version 2. Delta-tabeller med funktioner som kräver Databricks läsare version 3 eller senare stöds inte. Mer information: Hur hanterar Databricks Delta Lake-funktionens kompatibilitet?

  • Delta-tabellerna måste finnas i en mapp i lagringsbehållaren och kan inte finnas i behållarens rotkatalog. Till exempel:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Data i din Azure Data Lake Storage måste vara i Delta-tabeller. Customer Insights - Data förlitar sig på versionsegenskapen i tabellens historik för att identifiera de senaste ändringarna för inkrementell bearbetning.

  • Customer Insights - Data har stöd för Databricks läsare version 2. Delta-tabeller med funktioner som kräver Databricks läsare version 3 eller senare stöds inte. Mer information: Hur hanterar Databricks Delta Lake-funktionens kompatibilitet?

Anslut till Delta-data från Azure Data Lake Storage

  1. Gå till Data>Datakällor.

  2. Välj Lägg till en datakälla.

  3. Välj Azure Data Lake Delta-tabeller.

    Dialogruta där du kan ange anslutningsinformation för Delta Lake.

  4. Ange ett Datakällans namn och en valfri Beskrivning. Namnet refereras till i nedströmsprocesser och det är inte möjligt att ändra det efter att ha skapat datakällan.

  5. Välj ett av följande alternativ för Anslut lagringsutrymmet med.

    • Azure-prenumeration: Välj prenumeration och sedan resursgruppen och lagringskontot.
    • Azure-resurs: Ange Resurs-ID.
  6. Om du vill hämta data från ett lagringskonto via en Azure Private Link väljer du Aktivera Private Link. Mer information finns i den här Private Link.

  7. Välj namnet på den Behållare som innehåller mappen med dina data och välj Nästa.

  8. Navigera till mappen som innehåller data i Delta-tabeller och välj den. Välj sedan Nästa. En lista över tillgängliga tabeller visas.

  9. Välj vilka tabeller du vill inkludera.

  10. För valda tabeller där en primärnyckel inte har definierats visas Obligatoriska under Primärnyckel. För var och en av dessa tabeller:

    1. Välj Obligatorisk. Panelen Redigera tabell visas.
    2. Välj primärnyckel. Den primära nyckeln är ett attribut som är unikt för tabellen. För att ett attribut ska vara en giltig primär nyckel bör det inte innehålla dubblettvärden, saknade värden och null-värden. Sträng-, heltals- och GUID-datatypattribut stöds som primärnycklar.
    3. Välj Stäng när du vill spara och stänga panelen.

    Dialogruta som visar Obligatoriskt för primärnyckel

  11. Om du vill aktivera dataprofilering i någon av kolumnerna väljer du antalet Kolumner för tabellen. Sidan Hantera attribut visas.

    Dialogruta för att välja dataprofilering.

    1. Välj Dataprofilering för hela tabellen eller för specifika kolumner. Som standard är ingen tabell aktiverad för dataprofilering.
    2. Välj Klart.
  12. Välj Spara. Sidan Datakällor öppnas där den nya datakälla visas i status uppdateras.

    Dricks

    Det finns statusar för uppgifter och processer. De flesta processer är beroende av andra processförlopp, t.ex. datakällor och uppdateringar av dataprofiler.

    Välj status för att öppna rutan Förloppsinformation och se framstegen för uppgifter. Om du vill avbryta jobbet väljer du Avbryt jobbet längst ned i fönstret.

    Under varje uppgift kan du välja Visa information om du vill ha mer förloppsinformation, till exempel bearbetningstid, senaste bearbetningsdatum och eventuella tillämpliga fel och varningar för uppgiften eller processen. Välj Visa systemstatus längst ned i panelen om du vill se andra processer i systemet.

Det kan ta lång tid att läsa in data. Efter en lyckad uppdatering kan hämtade data granskas från sidan tabeller.

Hantera schemaändringar

När en kolumn läggs till eller tas bort från schema av datakälla Delta-mappar körs en fullständig uppdatering av informationen i systemet. Fullständiga uppdateringar tar längre tid att bearbeta all data än inkrementella uppdateringar.

Lägg till en kolumn

När en kolumn läggs till i datakällan, läggs informationen automatiskt till i data i Customer Insights - Data när en uppdatering görs. Om du redan har konfigurerat sammanslagning för tabellen måste den nya kolumnen läggas till i sammanslagningsprocessen.

  1. Från steget Kunddata, välj Välj tabeller och kolumner och välj den nya kolumnen.

  2. I steget Enhetlig datavy, se till att kolumnen inte exkluderas från kundprofilen. Välj Utesluten och läste kolumnen.

  3. I steget Köra uppdateringar av den enhetliga profilen väljer du Förena kundprofiler och beroenden.

Ändra eller ta bort en kolumn

När en kolumn tas bort från datakälla kontrollerar systemet efter beroenden i andra processer. Om det finns ett beroende av kolumnerna stoppar systemet uppdateringen och visar ett fel som anger att beroendena måste tas bort. De här beroendena visas i ett meddelande så att du kan söka efter och ta bort dem.

Validera en schemaändring

Efter att datakällan har uppdaterats går du till sidan Data>Tabeller. Välj tabellen för datakällan och validera schemat.

Tidsresor och datauppdateringar för Delta-sjön

Tidsresor för Delta-sjön är möjligheten att söka igenom tabellversioner baserat på en tidsstämpel eller versionsnummer. Ändringar av Delta-mappar är versionshanterade och Customer Insights - Data använder Delta-mappversionerna för att hålla reda på vilka data som ska behandlas. I en vanlig Delta-tabelluppdatering hämtas data från alla datatabellversioner sedan den senaste uppdateringen. Så länge alla versioner finns kan Customer Insights - Data bearbeta enbart de ändrade elementen och leverera snabbare resultat. Läs mer om tidsresor.

Om till exempel Customer Insights - Data senast synkroniserades med version 23 av dina Delta-mappdata, förväntar sig lösningen att hitta version 23 och eventuellt efterföljande versioner. Om de förväntade dataversionerna inte är tillgängliga misslyckas datasynkroniseringen och en manuell fullständig datauppdatering måste utföras. Datasynkroniseringen kan misslyckas om dina Delta-mappdata tagits bort och sedan återskapats. Eller om Customer Insights - Data inte kunde ansluta till dina Delta-mappar under en längre period medan fler versioner skapades.

Om du vill undvika behovet av en fullständig datauppdatering rekommenderar vi att du upprätthåller en rimlig historikeftersläpning, till exempel 15 dagar.

Kör manuellt en fullständig datauppdatering på en Delta-tabellmapp

En fullständig uppdatering tar alla data från en tabell i Delta-format och läser in dem igen från Delta-tabellens version noll (0). Ändringar av Delta-mappschemat utlöser en automatisk fullständig uppdatering. Utför följande steg om du vill utlösa en fullständig uppdatering manuellt.

  1. Gå till Data>Datakällor.

  2. Välj datakällan Azure Data Lake Delta-tabellerna.

  3. Välj den tabell som du vill uppdatera. Rutan Redigera tabell visas.

    Redigera tabellrutan för att välja en fullständig uppdatering en gång.

  4. Välj Kör engångs fullständig uppdatering.

  5. Välj Spara för att köra uppdateringen. Sidan Datakällor öppnas där den nya datakälla visas i status uppdateras, men bara den valda tabellen uppdateras.

  6. Upprepa processen för andra tabeller om tillämpligt.

Datasynkronisering misslyckas

Datasynkroniseringen kan misslyckas om dina Delta-mappdata tagits bort och sedan återskapats. Eller om Customer Insights - Data inte kunde ansluta till dina Delta-mappar under en längre period medan fler versioner skapades. För att minimera påverkan där ett intermittent datapipelinefel skapar behov av en fullständig uppdatering, rekommenderar vi att du upprätthåller en rimlig historikeftersläpning, till exempel 15 dagar.

Gå vidare