Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
VZTAHUJE SE NA:
Azure Data Factory
Azure Synapse Analytics
Návod
Data Factory v Microsoft Fabric je nová generace Azure Data Factory s jednodušší architekturou, integrovanou AI a novými funkcemi. Pokud s integrací dat začínáte, začněte Fabric Data Factory. Stávající úlohy ADF lze upgradovat na Fabric pro přístup k novým funkcím v oblastech datové vědy, analýz v reálném čase a vytváření sestav.
Tento článek popisuje zachytávání dat změn (CDC) v Azure Data Factory.
Další informace najdete v přehledu Azure Data Factory nebo přehled Azure Synapse.
Přehled
Když provádíte integraci dat a ETL procesy v cloudu, mohou vaše úlohy fungovat lépe a efektivněji, pokud čtete pouze ta zdrojová data, která se změnila od posledního spuštění datového toku, místo aby při každém spuštění vždy dotazovaly celou datovou sadu. ADF poskytuje několik různých způsobů, jak snadno získat rozdílová data pouze z posledního spuštění.
Prostředek pro zpracování změn dat (Change Data Capture)
Nejjednodušším a nejrychlejším způsobem, jak začít pracovat v datové továrně pomocí CDC, je prostřednictvím prostředku Change Data Capture na úrovni továrny. V hlavním návrháři kanálu vyberte Nový v části Prostředky továrny a vytvořte nový záznam změn dat. Prostředek továrny CDC poskytuje intuitivní nastavení, ve kterém můžete vybrat své zdroje a cíle, použít volitelné transformace a poté zvolit "spustit" pro zahájení zachycení dat. S prostředkem CDC nemusíte navrhovat kanály ani aktivity toku dat. Také vám budou účtována pouze čtyři jádra pro zpracování datových toků pro obecné účely, když jsou vaše data zpracovávána. Můžete nastavit upřednostňovanou latenci, kterou ADF používá k probuzení a vyhledání změněných dat. Tato počáteční kontrola je jediný případ, kdy vám je vystavena faktura. Zdrojem CDC nejvyšší úrovně je také metoda ADF pro průběžné spouštění vašich procesů. Datové toky v ADF jsou pouze dávkové, ale prostředek CDC může běžet nepřetržitě.
Nativní zachytávání dat změn v mapování toku dat
Tok dat mapování ADF dokáže automaticky rozpoznat a extrahovat změněná data, včetně vložených, aktualizovaných a odstraněných řádků ze zdrojových databází. K identifikaci změn nejsou potřeba žádné sloupce časového razítka ani ID, protože v databázích používá nativní technologii zachytávání dat změn. Když propojíte zdrojovou transformaci a transformaci pro ukládání na datovou sadu databáze v mapování datového toku, uvidíte, že se změny ve zdrojové databázi automaticky použijí na cílovou databázi, což vám umožní snadno synchronizovat data mezi dvěma tabulkami. Můžete také přidat jakékoli transformace pro zpracování rozdílových dat mezi jednotlivé kroky obchodní logiky. Při definování cíle dat jímky můžete v jímce nastavit operace vložení, aktualizace, upsertu a odstranění bez nutnosti transformace alter row, protože ADF dokáže automaticky rozpoznat tvůrce řádků.
Podporované konektory
- SAP CDC
- Azure SQL Database
- SQL Server
- Azure SQL Managed Instance
- Azure Cosmos DB (SQL API)
- Azure Cosmos DB analytické úložiště
- Bledule
Automatická přírůstková extrakce v mapování toku dat
Nově aktualizované řádky nebo aktualizované soubory je možné automaticky rozpoznat a extrahovat mapováním toku dat ADF ze zdrojových úložišť. Pokud chcete získat inkrementální data z databází, je třeba použít přírůstkový sloupec k identifikaci změn. Pokud chcete načíst nové soubory nebo aktualizované soubory jen z úložiště, mapování toku dat ADF funguje prostřednictvím času poslední změny souborů.
Podporované konektory
- Azure Blob Storage
- ADLS Gen2
- ADLS Gen1
- Azure SQL Database
- SQL Server
- Azure SQL Managed Instance
- Azure Database for MySQL
- Azure Database for PostgreSQL
- Common Data Model
Extrakce rozdílových dat spravovaných zákazníkem v kanálu
Vždy můžete vytvořit vlastní kanál pro extrakci rozdílových dat pro všechna úložiště dat podporovaná ADF. To zahrnuje použití aktivity vyhledávání pro získání hodnoty "watermark" uložené v externí ovládací tabulce. Pak můžete použít aktivitu kopírování nebo mapování toku dat, abyste dotazovali rozdílová data podle sloupce časového razítka nebo ID, a nakonec aktivitu SP pro zápis nové hodnoty "watermark" zpět do vaší externí ovládací tabulky pro další spuštění. Pokud chcete načítat nové soubory pouze z úložiště, můžete buď pokaždé odstranit soubory, jakmile byly úspěšně přesunuty do cílového umístění, nebo použít časově rozdělené složky, názvy souborů nebo čas poslední změny k identifikaci nových souborů.
Osvědčené postupy
Změna zachytávání dat z databází
- Nativní zachytávání dat změn se vždy doporučuje jako nejjednodušší způsob, jak získat data změn. Přináší také mnohem menší zátěž zdrojové databázi, když ADF extrahuje data změn pro další zpracování.
- Pokud vaše úložiště databází nejsou součástí seznamu konektorů ADF s podporou nativního zachytávání dat změn, doporučujeme zkontrolovat možnost automatické přírůstkové extrakce, ve které je potřeba zachytávat změny pouze vstupním přírůstkovým sloupcem. ADF se postará o zbytek, včetně vytvoření dynamického dotazu pro načítání změn a řízení kontrolního bodu pro každé spuštění aktivity.
- Extrakce rozdílových dat spravovaná zákazníkem v pipeline pokrývá všechny databáze podporované ADF a poskytuje vám flexibilitu pro kontrolu všeho sami.
Změna zachytávání souborů ze souborových úložišť
- Když chcete načíst data z Azure Blob Storage, Azure Data Lake Storage Gen2 nebo Azure Data Lake Storage Gen1, mapovací tok dat vám umožňuje získat nové nebo aktualizované soubory jednoduchým výběrem. Je to nejjednodušší a doporučený způsob, jak dosáhnout rozdílového zatížení z těchto úložišť založených na souborech při mapování toku dat.
- Můžete získat další osvědčené postupy.
kontrolní bod
Když povolíte nativní zachytávání dat změn nebo možnosti automatické přírůstkové extrakce v mapovacím toku dat ADF, pomůže ADF spravovat kontrolní bod, aby se zajistilo, že každá aktivita automaticky čte pouze zdrojová data, která se od posledního spuštění kanálu změnila. Ve výchozím nastavení je kontrolní bod propojený s názvem kanálu a aktivity. Pokud změníte název kanálu nebo název aktivity, kontrolní bod se resetuje, což vede k tomu, že v dalším běhu začnete od začátku nebo se změny provedou od nynějška. Pokud chcete změnit název kanálu nebo název aktivity, ale přesto zachovat kontrolní bod, abyste získali změněná data z posledního spuštění automaticky, použijte k tomu vlastní klíč kontrolního bodu v aktivitě toku dat. Pravidlo pojmenování vlastního klíče kontrolního bodu je stejné jako propojené služby, datové sady, kanály a toky dat.
Při ladění pipeline funguje tato funkce stejně. Kontrolní bod se resetuje, když během ladění obnovíte prohlížeč. Jakmile budete s výsledkem potrubí z běhu ladění spokojeni, můžete potrubí publikovat a aktivovat. Ve chvíli, kdy poprvé spustíte publikované potrubí, se automaticky restartuje od začátku, nebo se od této chvíle mohou provádět změny.
V části monitorování máte vždy možnost znovu spustit potrubí. Když to uděláte, změněná data se vždy zaznamenávají z předchozího kontrolního bodu vybraného kanálu.
Návody
V následujících kurzech můžete spustit zachytávání dat změn v Azure Data Factory a Azure Synapse Analytics.
- Kurz pro SAP CDC v ADF
- Přírůstkové kopírování dat: návod, jak kopírovat data ze zdrojového úložiště do cílového úložiště
Šablony
Níže jsou uvedené šablony, které používají zachytávání dat změn v Azure Data Factory a Azure Synapse Analytics.