Sdílet prostřednictvím


Zachycení změněná data z Azure Data Lake Storage Gen2 na Azure SQL Database pomocí prostředku pro zachytávání dat změn

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto článku použijete uživatelské rozhraní služby Azure Data Factory k vytvoření prostředku CDC (Change Data Capture). Prostředek převezme změněná data ze zdroje Azure Data Lake Storage Gen2 a přidá je do Služby Azure SQL Database v reálném čase.

V tomto článku získáte informace o těchto tématech:

  • Vytvořte prostředek CDC.
  • Monitorujte aktivitu CDC.

Vzor konfigurace můžete upravit a rozšířit v tomto článku.

Požadavky

Než začnete s postupy v tomto článku, ujistěte se, že máte tyto zdroje informací:

  • Předplatné Azure. Pokud nemáte předplatné Azure, vytvořte si bezplatný účet Azure.
  • Databáze SQL. Azure SQL Database použijete jako zdrojové úložiště dat. Pokud databázi SQL nemáte, vytvořte ji na webu Azure Portal.
  • Účet úložiště. Delta Lake uložené v Azure Data Lake Storage Gen2 použijete jako cílové úložiště dat. Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu úložiště pro postup jeho vytvoření.

Vytvoření artefaktu CDC

  1. Přejděte do podokna Autor ve vaší datové továrně. Pod kanály se zobrazí nový artefakt nejvyšší úrovně s názvem Change Data Capture (Preview).

    Snímek obrazovky s novým artefaktem nejvyšší úrovně pro zachytávání dat změn v podokně Prostředky továrny

  2. Najeďte myší na Change Data Capture (Preview), dokud se nezobrazí tři tečky. Pak vyberte akce Change Data Capture (Preview).

    Snímek obrazovky s tlačítkem pro akce zachytávání změn dat, které se zobrazují nad novým artefaktem nejvyšší úrovně

  3. Vyberte Nový CDC (Preview). Tento krok otevře informační panel pro zahájení procesu s asistencí.

    Snímek obrazovky se seznamem akcí zachytávání dat změn

  4. Zobrazí se výzva k pojmenování prostředku CDC. Ve výchozím nastavení je název "adfcdc" s číslem, které se zvýší o 1. Tento výchozí název můžete nahradit zvoleným názvem.

    Snímek obrazovky s textovým polem pro aktualizaci názvu prostředku

  5. V rozevíracím seznamu vyberte zdroj dat. V tomto článku vyberte Oddělovač textu.

    Snímek obrazovky s informačním rámečkem s asistencí procesu s možnostmi zdroje v rozevíracím seznamu

  6. Zobrazí se výzva k výběru propojené služby. Vytvořte novou propojenou službu nebo vyberte existující službu.

    Snímek obrazovky s polem pro výběr nebo vytvoření propojené služby

  7. Pomocí oblasti Nastavení zdroje můžete volitelně nastavit pokročilé konfigurace zdroje, včetně oddělovačů sloupců a řádků.

    Snímek obrazovky s rozšířeným nastavením zdroje pro nastavení oddělovačů

    Pokud tato nastavení zdroje ručně neupravíte, nastaví se na výchozí hodnoty.

  8. Pomocí tlačítka Procházet vyberte zdrojová datová složka.

    Snímek obrazovky s ikonou složky pro vyhledání cesty ke složce

  9. Po výběru cesty ke složce vyberte Pokračovat a nastavte cíl dat.

    Snímek obrazovky s tlačítkem Pokračovat v procesu s asistencí pro výběr cílů dat

    Pomocí tlačítka plus (+) můžete přidat více zdrojových složek. Ostatní zdroje musí také používat stejnou propojenou službu, kterou jste už vybrali.

  10. Pomocí rozevíracího seznamu vyberte hodnotu cílového typu . V tomto článku vyberte Azure SQL Database.

    Snímek obrazovky s rozevírací nabídkou všech cílových typů dat

  11. Zobrazí se výzva k výběru propojené služby. Vytvořte novou propojenou službu nebo vyberte existující službu.

    Snímek obrazovky s polem pro výběr nebo vytvoření propojené služby s vaším cílem dat

  12. U cílových tabulek můžete vytvořit novou cílovou tabulku nebo vybrat existující tabulku:

    • Pokud chcete vytvořit cílovou tabulku, vyberte kartu Nové entity a pak vyberte Upravit nové tabulky.

      Snímek obrazovky s kartou pro vytvoření nových tabulek pro cíl

    • Pokud chcete vybrat existující tabulku, vyberte kartu Existující entity a potom pomocí zaškrtávacího políčka vyberte tabulku. K zobrazení dat tabulky použijte tlačítko Náhled.

      Snímek obrazovky s kartou pro výběr tabulek pro váš cíl

    Pokud existující tabulky v cíli mají odpovídající názvy, jsou ve výchozím nastavení vybrány v části Existující entity. Pokud ne, vytvoří se nové tabulky s odpovídajícími názvy v části Nové entity. Kromě toho můžete nové tabulky upravovat pomocí tlačítka Upravit nové tabulky .

  13. Zaškrtávací políčka můžete použít k výběru více cílových tabulek z databáze SQL. Po dokončení výběru cílových tabulek vyberte Pokračovat.

    Snímek obrazovky s tlačítkem Pokračovat v procesu s asistencí pokračujte dalším krokem.

  14. Zobrazí se nová karta pro zachytávání dat změn. Tato karta je studio CDC, kde můžete nakonfigurovat nový prostředek.

    Snímek obrazovky se sadou Change Data Capture Studio

    Nové mapování se automaticky vytvoří za vás. Výběry zdrojové tabulky a cílové tabulky pro mapování můžete aktualizovat pomocí rozevíracích seznamů.

    Snímek obrazovky s mapováním zdroje na cíl v nástroji Change Data Capture Studio

  15. Po výběru tabulek se jejich sloupce ve výchozím nastavení mapují zapnutým přepínačem Automatické mapování . Automatické mapování automaticky mapuje sloupce podle názvu v jímce, při vývoji zdrojového schématu převezme nové změny sloupců a tyto informace se přetáčí do podporovaných typů jímky.

    Pokud chcete použít automatické mapování a nechcete měnit mapování sloupců, přejděte přímo ke kroku 18.

    Snímek obrazovky s přepínačem pro zapnuté automatické mapování

    Pokud chcete povolit mapování sloupců, vyberte mapování a vypněte přepínač Automatické mapování . Pak výběrem tlačítka Mapování sloupců zobrazte mapování.

    Snímek obrazovky s výběrem mapování, přepínačem pro automatické mapování vypnuté a tlačítkem pro mapování sloupců

    Automatické mapování můžete kdykoli přepnout zpět na automatické mapování zapnutím přepínače Automatické mapování .

  16. Umožňuje zobrazit mapování sloupců. Pomocí rozevíracích seznamů můžete upravit mapování sloupců pro metodu Mapování, zdrojový sloupec a cílový sloupec.

    Snímek obrazovky se stránkou pro úpravy mapování sloupců

    Z této stránky můžete:

    • Přidejte další mapování sloupců pomocí tlačítka Nové mapování . Pomocí rozevíracích seznamů můžete vybrat metodu mapování, zdrojový sloupec a cílový sloupec.
    • Pokud chcete sledovat operaci odstranění podporovaných typů jímky, vyberte sloupec Klíče.
    • Výběrem tlačítka Aktualizovat v části Náhled dat můžete vizualizovat, jak data vypadají v cíli.

    Snímek obrazovky s tlačítkem pro přidání mapování sloupců, rozevíracího seznamu pro metody mapování, sloupce Klíče a tlačítka Aktualizovat

  17. Po dokončení mapování se výběrem tlačítka se šipkou vraťte na hlavní plátno CDC.

    Snímek obrazovky s tlačítkem pro návrat na stránku mapování tabulky

  18. Do jednoho artefaktu CDC můžete přidat další mapování zdroje k cíli. Pomocí tlačítka Upravit můžete přidat další zdroje dat a cíle. Pak vyberte Nové mapování a pomocí rozevíracích seznamů nastavte nový zdroj a cíl. Automatické mapování můžete zapnout nebo vypnout pro každé z těchto mapování nezávisle.

    Snímek obrazovky s tlačítkem pro přidání nových zdrojů a tlačítka pro nastavení nového mapování zdroje na cíl

  19. Po dokončení mapování nastavte latenci CDC pomocí tlačítka Nastavit latenci .

    Snímek obrazovky s tlačítkem Nastavit latenci v horní části plátna

  20. Vyberte latenci cdC a pak vyberte Použít , aby se změny udělaly.

    Ve výchozím nastavení je latence nastavená na 15 minut. Příklad v tomto článku používá pro latenci možnost v reálném čase . Latence v reálném čase průběžně přebírá změny ve zdrojových datech v intervalech kratších než 1 minutu.

    V případě jiných latencí (například pokud vyberete 15 minut), bude zachytávání dat změn zpracovávat zdrojová data a vyzvednout všechna změněná data od posledního zpracování času.

    Snímek obrazovky s možnostmi nastavení latence

    Poznámka:

    Pokud je podpora rozšířená na integraci streamovaných dat (Azure Event Hubs a zdroje dat Kafka), nastaví se ve výchozím nastavení latence na hodnotu V reálném čase .

  21. Po dokončení konfigurace CDC vyberte Publikovat vše a publikujte provedené změny.

    Snímek obrazovky s tlačítkem publikovat v horní části plátna

    Poznámka:

    Pokud změny nepublikujete, nebudete moct spustit prostředek CDC. Tlačítko Start v dalším kroku nebude k dispozici.

  22. Vyberte Start a začněte spouštět zachytávání dat změn.

    Snímek obrazovky s tlačítkem Start v horní části plátna

Monitorování zachytávání dat změn

  1. Otevřete podokno Monitorování pomocí některé z těchto metod:

    • Na webu Azure Portal vyberte Monitorovat .

      Snímek obrazovky s tlačítkem Monitorování na webu Azure Portal

    • V návrháři CDC vyberte ikonu monitorování.

      Snímek obrazovky s ikonou monitorování v horní části plátna CDC

  2. Výběrem možnosti Change Data Capture (Preview) zobrazíte prostředky CDC.

    Snímek obrazovky s tlačítkem Change Data Capture

    V podokně Change Data Capture se zobrazují informace o zdroji, cíli, stavu a naposledy zpracovaných informacích pro zachytávání dat změn.

    Snímek obrazovky s přehledem stránky monitorování záznamu dat změn

  3. Pokud chcete zobrazit další podrobnosti, vyberte název CDC. Můžete vidět, kolik změn (vložení, aktualizace nebo odstranění) bylo přečteno a zapsáno spolu s dalšími diagnostickými informacemi.

    Snímek obrazovky s podrobným monitorováním vybraného záznamu dat změn

    Pokud v zachytávání dat změn nastavíte více mapování, každé mapování se zobrazí jako jiná barva. Výběrem panelu zobrazíte konkrétní podrobnosti pro každé mapování nebo použijte diagnostické informace v dolní části podokna.

    Snímek obrazovky s podrobnými informacemi o monitorování záznamu dat změn s několika mapováními typu zdroj-cíl

    Snímek obrazovky s podrobným rozpisem jednotlivých mapování v artefaktu zachytávání dat změn