Sdílet prostřednictvím


Připojení k rozdílovým tabulkám v Azure Data Lake Storage

Připojte se k datům v tabulkách Delta a přeneste je do Dynamics 365 Customer Insights - Data.

Delta je termín zavedený s Delta Lake a jedná se o základ pro ukládání dat a tabulek v Databricks Lakehouse Platform. Delta Lake je vrstva úložiště s otevřeným zdrojovým kódem, která přenáší transakce ACID (atomicita, konzistence, izolace a trvanlivost) do úloh s velkým objemem dat. Další informace najdete na stránce s dokumentací k Delta Lake.

Hlavní důvody pro připojení k datům uloženým ve formátu Delta:

  • Přímý import dat ve formátu Delta šetří čas a námahu.
  • Eliminujte výpočetní a úložné náklady spojené s transformací a ukládáním kopie vašich dat lakehouse.
  • Automaticky zlepšete spolehlivost příjmu dat na Customer Insights - Data poskytované správou verzí Delta.

Předpoklady

  • Azure Data Lake Storage musí být ve stejném tenantovi a oblasti Azure jako Customer Insights - Data.

  • Instanční objekt Customer Insights - Data musí mít oprávnění Přispěvatel dat objektů blob úložiště, aby měl přístup k účtu úložiště. Více informací viz Udělení oprávnění instančnímu objektu služby pro přístup k účtu úložiště.

  • Uživatel, který nastavuje nebo aktualizuje zdroj dat, potřebuje k účtu Azure Data Lake Storage alespoň oprávnění Čtenář dat objektů blob úložiště.

  • Data uložená ve službách online mohou být uložena v jiném umístění, než kde jsou zpracovávána nebo uložena. Importem nebo připojením k datům uloženým v online službách souhlasíte s tím, že data lze přenášet. Další informace naleznete v Centru zabezpečení Microsoft.

  • Tabulky Delta musí být ve složce v kontejneru úložiště a nemohou být v kořenovém adresáři kontejneru. Příklad:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Data ve vašem úložišti Azure Data Lake Storage musí být v tabulkách Delta. Customer Insights - Data čte vlastnost verze v historii tabulky k identifikaci nejnovějších změn pro přírůstkové zpracování.

Připojení k datům Delta z Azure Data Lake Storage

  1. Přejděte na Data>Zdroje dat.

  2. Vyberte Přidat zdroj dat.

  3. Vyberte Rozdílové tabulky Azure Data Lake.

    Dialogové okno pro zadání podrobností o připojení pro Delta Lake.

  4. Zadejte Název zdroje dat a volitelně Popis. Název je odkazován v následných procesech a nelze ho po vytvoření zdroje dat změnit.

  5. Vyberte jednu z následujících možností pro Připojte své úložiště pomocí.

    • Předplatné Azure: Vyberte Předplatné a pak Skupina zdrojů a Účet úložiště.
    • Prostředek Azure: Zadejte ID prostředku.
  6. Volitelně, pokud chcete přijmout data z účtu úložiště prostřednictvím Azure Private Link, vyberte Povolit private Link. Další informace popisuje článek Privátní propojení.

  7. Vyberte název Kontejneru, který obsahuje složku vašich dat, a vyberte Další.

  8. Přejděte do složky obsahující data v tabulkách Delta a vyberte ji. Pak vyberte Další. Zobrazí se seznam dostupných tabulek.

  9. Vyberte tabulky, které chcete zahrnout.

  10. Pro vybrané tabulky, kde nebyl definován primární klíč, se v části Primární klíč zobrazuje Požadované. Pro každou z těchto tabulek:

    1. Vyberte Požadované. Zobrazí se panel Upravit tabulku.
    2. Zvolte Primární klíč. Primární klíč je atribut jedinečný pro tabulku. Aby byl atribut platným primárním klíčem, nesmí obsahovat duplicitní hodnoty, chybějící hodnoty nebo hodnoty null. Jako primární klíče jsou podporovány atributy typu String, Integer a GUID.
    3. Výběrem Zavřít uložte a zavřete panel.

    Dialogové okno zobrazující Vyžadováno pro primární klíč

  11. Chcete-li povolit profilování dat pro některý ze sloupců, pro tabulku vyberte počet Sloupců. Zobrazí se stránka Spravovat atributy.

    Dialogové okno pro výběr profilování dat.

    1. Pro celou tabulku nebo konkrétní sloupce vyberte Profilování dat. Ve výchozím nastavení není pro profilování dat povolena žádná tabulka.
    2. Vyberte Hotovo.
  12. Zvolte Uložit. Otevře se stránka Zdroje dat s novým zdrojem dat se stavem Aktualizace.

    Tip

    Úkoly a procesy mají své stavy. Většina procesů závisí na jiných upstreamových procesech, jako jsou aktualizace zdrojů dat a profilování dat.

    Výběrem stavu otevřete podokno Podrobnosti o průběhu a zobrazíte průběh úloh. Chcete-li úlohu zrušit, vyberte Zrušit úlohu ve spodní části panelu.

    U každé úlohy můžete výběrem možnosti Zobrazit podrobnosti zobrazit další informace o průběhu, jako je čas zpracování, datum posledního zpracování a případné chyby a varování související s úlohou nebo procesem. Vyberte Zobrazit stav systému ve spodní části panelu k zobrazení dalších procesů v systému.

Načítání dat může nějakou dobu trvat. Po úspěšné aktualizaci lze přijatá data zkontrolovat na stránce Tabulky.

Správa změn schématu

Když je sloupec přidán nebo odstraněn ze schématu zdroje dat složek Delta, systém spustí úplnou aktualizaci dat. Při úplné aktualizaci obvykle trvá zpracování všech dat déle než u přírůstkové aktualizace.

Přidání sloupce

Když je do zdroje dat přidán sloupec, informace se automaticky připojí k datům v Customer Insights - Data, jakmile dojde k obnovení. Pokud jste již pro tabulku nakonfigurovali sjednocení, nový sloupec musí být přidán do procesu sjednocení.

  1. V kroku Zákaznická data vyberte možnost Vyberte tabulky a sloupce a vyberte nový sloupec.

  2. V kroku Zobrazení sjednocených dat se ujistěte, že sloupec není vyloučen z profilu zákazníka. Vyberte Vyloučeno a znovu přidejte sloupec.

  3. V kroku RunSpusťte aktualizace sjednoceného profilu zákazníka vyberte Sjednotit profily zákazníků a závislosti.

Změna nebo odebrání sloupce

Když je sloupec odstraněn ze zdroje dat, systém zkontroluje závislosti v jiných procesech. Pokud na sloupcích existuje závislost, systém zastaví obnovování a zobrazí chybové hlášení, že je třeba závislosti odstranit. Tyto závislosti se zobrazí v oznámení, které vám pomůže je najít a odstranit.

Ověření změny schématu

Po obnovení zdroj dat přejděte na stránku Data>Tabulky. Vyberte tabulku pro zdroj dat a ověřte schéma.

Cestování časem po jezeře Delta a aktualizace dat

Cestování v čase v jezeře Delta je možnost dotazovat se na verze tabulek na základě časového razítka nebo čísla verze. Změny ve složkách Delta jsou verzovány a Customer Insights - Data používá verze složek Delta ke sledování toho, jaká data zpracovat. Při běžné obnově delta tabulky jsou data čerpána ze všech verzí datové tabulky od poslední obnovy. Dokud jsou k dispozici všechny verze, Customer Insights - Data může zpracovat pouze změněné prvky a poskytovat rychlejší výsledky. Další informace o cestování časem.

Pokud byl například nástroj Customer Insights - Data naposledy synchronizován s verzí 23 dat složky Delta, očekává, že bude k dispozici verze 23 a případně další verze. Pokud očekávané verze dat nejsou k dispozici, synchronizace dat se nezdaří a vyžaduje ruční úplné obnovení dat. Synchronizace dat může selhat, pokud byla data vaší složky Delta odstraněna a poté znovu vytvořena. Nebo pokud se Customer Insights - Data nemohla po delší dobu připojit ke složkám Delta, zatímco verze postupovaly.

Abyste se vyhnuli potřebě úplné aktualizace dat, doporučujeme udržovat přiměřenou nevyřízenou historii, například 15 dní.

Ručně spusťte úplnou aktualizaci dat ve složce tabulky Delta

Úplná aktualizace převezme všechna data z tabulky ve formátu Delta a znovu je načte z tabulky Delta verze nula (0). Změny ve schématu složky Delta spouštějí automatické úplné obnovení. Chcete-li ručně spustit úplnou aktualizaci, proveďte následující kroky.

  1. Přejděte na Data>Zdroje dat.

  2. Vyberte zdroj dat Rozdílové tabulky Azure Data Lake.

  3. Vyberte tabulku, kterou chcete aktualizovat. Zobrazí se podokno Úprava tabulky.

    Podokno Úprava tabulky pro výběr jednorázové úplné aktualizace.

  4. Vyberte Spustit jednorázovou úplnou aktualizaci.

  5. Výběrem možnosti Uložit spusťte aktualizaci. Otevře se stránka Zdroje dat se zdrojem dat ve stavu Aktualizuje se, ale probíhá aktualizace pouze vybrané tabulky.

  6. Opakujte postup pro další tabulky, pokud je to třeba.

Chyba synchronizace dat

Synchronizace dat může selhat, pokud byla data vaší složky Delta odstraněna a poté znovu vytvořena. Nebo pokud se Customer Insights - Data nemohla po delší dobu připojit ke složkám Delta, zatímco verze postupovaly. Chcete-li minimalizovat dopad, kdy občasné selhání datového kanálu způsobí potřebu úplného obnovení, doporučujeme udržovat přiměřenou nevyřízenou historii, například 15 dní.

Další kroky