Zachycení změněná data z Azure Data Lake Storage Gen2 na Azure SQL Database pomocí prostředku pro zachytávání dat změn
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
V tomto článku použijete uživatelské rozhraní služby Azure Data Factory k vytvoření prostředku CDC (Change Data Capture). Prostředek převezme změněná data ze zdroje Azure Data Lake Storage Gen2 a přidá je do Služby Azure SQL Database v reálném čase.
V tomto článku získáte informace o těchto tématech:
- Vytvořte prostředek CDC.
- Monitorujte aktivitu CDC.
Vzor konfigurace můžete upravit a rozšířit v tomto článku.
Požadavky
Než začnete s postupy v tomto článku, ujistěte se, že máte tyto zdroje informací:
- Předplatné Azure. Pokud nemáte předplatné Azure, vytvořte si bezplatný účet Azure.
- Databáze SQL. Azure SQL Database použijete jako zdrojové úložiště dat. Pokud databázi SQL nemáte, vytvořte ji na webu Azure Portal.
- Účet úložiště. Delta Lake uložené v Azure Data Lake Storage Gen2 použijete jako cílové úložiště dat. Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu úložiště pro postup jeho vytvoření.
Vytvoření artefaktu CDC
Přejděte do podokna Autor ve vaší datové továrně. Pod kanály se zobrazí nový artefakt nejvyšší úrovně s názvem Change Data Capture (Preview).
Najeďte myší na Change Data Capture (Preview), dokud se nezobrazí tři tečky. Pak vyberte akce Change Data Capture (Preview).
Vyberte Nový CDC (Preview). Tento krok otevře informační panel pro zahájení procesu s asistencí.
Zobrazí se výzva k pojmenování prostředku CDC. Ve výchozím nastavení je název "adfcdc" s číslem, které se zvýší o 1. Tento výchozí název můžete nahradit zvoleným názvem.
V rozevíracím seznamu vyberte zdroj dat. V tomto článku vyberte Oddělovač textu.
Zobrazí se výzva k výběru propojené služby. Vytvořte novou propojenou službu nebo vyberte existující službu.
Pomocí oblasti Nastavení zdroje můžete volitelně nastavit pokročilé konfigurace zdroje, včetně oddělovačů sloupců a řádků.
Pokud tato nastavení zdroje ručně neupravíte, nastaví se na výchozí hodnoty.
Pomocí tlačítka Procházet vyberte zdrojová datová složka.
Po výběru cesty ke složce vyberte Pokračovat a nastavte cíl dat.
Pomocí tlačítka plus (+) můžete přidat více zdrojových složek. Ostatní zdroje musí také používat stejnou propojenou službu, kterou jste už vybrali.
Pomocí rozevíracího seznamu vyberte hodnotu cílového typu . V tomto článku vyberte Azure SQL Database.
Zobrazí se výzva k výběru propojené služby. Vytvořte novou propojenou službu nebo vyberte existující službu.
U cílových tabulek můžete vytvořit novou cílovou tabulku nebo vybrat existující tabulku:
Pokud chcete vytvořit cílovou tabulku, vyberte kartu Nové entity a pak vyberte Upravit nové tabulky.
Pokud chcete vybrat existující tabulku, vyberte kartu Existující entity a potom pomocí zaškrtávacího políčka vyberte tabulku. K zobrazení dat tabulky použijte tlačítko Náhled.
Pokud existující tabulky v cíli mají odpovídající názvy, jsou ve výchozím nastavení vybrány v části Existující entity. Pokud ne, vytvoří se nové tabulky s odpovídajícími názvy v části Nové entity. Kromě toho můžete nové tabulky upravovat pomocí tlačítka Upravit nové tabulky .
Zaškrtávací políčka můžete použít k výběru více cílových tabulek z databáze SQL. Po dokončení výběru cílových tabulek vyberte Pokračovat.
Zobrazí se nová karta pro zachytávání dat změn. Tato karta je studio CDC, kde můžete nakonfigurovat nový prostředek.
Nové mapování se automaticky vytvoří za vás. Výběry zdrojové tabulky a cílové tabulky pro mapování můžete aktualizovat pomocí rozevíracích seznamů.
Po výběru tabulek se jejich sloupce ve výchozím nastavení mapují zapnutým přepínačem Automatické mapování . Automatické mapování automaticky mapuje sloupce podle názvu v jímce, při vývoji zdrojového schématu převezme nové změny sloupců a tyto informace se přetáčí do podporovaných typů jímky.
Pokud chcete použít automatické mapování a nechcete měnit mapování sloupců, přejděte přímo ke kroku 18.
Pokud chcete povolit mapování sloupců, vyberte mapování a vypněte přepínač Automatické mapování . Pak výběrem tlačítka Mapování sloupců zobrazte mapování.
Automatické mapování můžete kdykoli přepnout zpět na automatické mapování zapnutím přepínače Automatické mapování .
Umožňuje zobrazit mapování sloupců. Pomocí rozevíracích seznamů můžete upravit mapování sloupců pro metodu Mapování, zdrojový sloupec a cílový sloupec.
Z této stránky můžete:
- Přidejte další mapování sloupců pomocí tlačítka Nové mapování . Pomocí rozevíracích seznamů můžete vybrat metodu mapování, zdrojový sloupec a cílový sloupec.
- Pokud chcete sledovat operaci odstranění podporovaných typů jímky, vyberte sloupec Klíče.
- Výběrem tlačítka Aktualizovat v části Náhled dat můžete vizualizovat, jak data vypadají v cíli.
Po dokončení mapování se výběrem tlačítka se šipkou vraťte na hlavní plátno CDC.
Do jednoho artefaktu CDC můžete přidat další mapování zdroje k cíli. Pomocí tlačítka Upravit můžete přidat další zdroje dat a cíle. Pak vyberte Nové mapování a pomocí rozevíracích seznamů nastavte nový zdroj a cíl. Automatické mapování můžete zapnout nebo vypnout pro každé z těchto mapování nezávisle.
Po dokončení mapování nastavte latenci CDC pomocí tlačítka Nastavit latenci .
Vyberte latenci cdC a pak vyberte Použít , aby se změny udělaly.
Ve výchozím nastavení je latence nastavená na 15 minut. Příklad v tomto článku používá pro latenci možnost v reálném čase . Latence v reálném čase průběžně přebírá změny ve zdrojových datech v intervalech kratších než 1 minutu.
V případě jiných latencí (například pokud vyberete 15 minut), bude zachytávání dat změn zpracovávat zdrojová data a vyzvednout všechna změněná data od posledního zpracování času.
Poznámka:
Pokud je podpora rozšířená na integraci streamovaných dat (Azure Event Hubs a zdroje dat Kafka), nastaví se ve výchozím nastavení latence na hodnotu V reálném čase .
Po dokončení konfigurace CDC vyberte Publikovat vše a publikujte provedené změny.
Poznámka:
Pokud změny nepublikujete, nebudete moct spustit prostředek CDC. Tlačítko Start v dalším kroku nebude k dispozici.
Vyberte Start a začněte spouštět zachytávání dat změn.
Monitorování zachytávání dat změn
Otevřete podokno Monitorování pomocí některé z těchto metod:
Výběrem možnosti Change Data Capture (Preview) zobrazíte prostředky CDC.
V podokně Change Data Capture se zobrazují informace o zdroji, cíli, stavu a naposledy zpracovaných informacích pro zachytávání dat změn.
Pokud chcete zobrazit další podrobnosti, vyberte název CDC. Můžete vidět, kolik změn (vložení, aktualizace nebo odstranění) bylo přečteno a zapsáno spolu s dalšími diagnostickými informacemi.
Pokud v zachytávání dat změn nastavíte více mapování, každé mapování se zobrazí jako jiná barva. Výběrem panelu zobrazíte konkrétní podrobnosti pro každé mapování nebo použijte diagnostické informace v dolní části podokna.