Orchestrace integrace dat s kanály Azure Synapse

Dokončeno

Azure Synapse Pipelines je cloudová služba ETL a integrace dat, která umožňuje vytvářet pracovní postupy řízené daty pro orchestraci přesunu dat a transformaci dat ve velkém měřítku. Pomocí kanálů Azure Synapse můžete vytvářet a plánovat pracovní postupy řízené daty (označované jako kanály), které ingestují data z různorodých úložišť dat. Můžete vytvářet složité procesy ETL nebo ELT, které vizuálně transformují data pomocí toků dat nebo pomocí výpočetních služeb, jako jsou Azure HDInsight, Azure Databricks a Azure Synapse Analytics.

Většina funkcí kanálů Azure Synapse pochází z funkcí služby Azure Data Factory a běžně se označují jako kanály. Kanály Azure Synapse umožňují integrovat datové kanály mezi fondy SQL, fondy Sparku a bezserverovými službami SQL a poskytovat tak jeden stop shop pro všechny vaše analytické potřeby.

Stejně jako Azure Data Factory se kanály Azure Synapse skládají ze čtyř základních komponent. Tyto součásti společně poskytují platformu, na které můžete vytvářet pracovní postupy řízené daty s kroky pro přesun a transformaci dat.

Služba Data Factory podporuje širokou škálu zdrojů dat, ke kterým se můžete připojit prostřednictvím vytváření objektu označovaného jako propojená služba, která umožňuje ingestovat data ze zdroje dat v připravenosti k přípravě dat na transformaci a/nebo analýzu. Propojené služby navíc můžou na vyžádání aktivovat výpočetní služby. Můžete mít například požadavek na spuštění clusteru HDInsight na vyžádání za účelem pouhého zpracování dat prostřednictvím dotazu Hive. Propojené služby umožňují definovat zdroje dat nebo výpočetní prostředek, který je nutný k ingestování a přípravě dat.

S definovanou propojenou službou se služba Azure Data Factory seznámí s datovými sadami, které by měla používat při vytváření objektu Datasets . Datové sady představují datové struktury v úložišti dat, na které odkazuje objekt propojené služby. Datové sady lze také použít objektem ADF označovaným jako Aktivita.

Aktivity obvykle obsahují logiku transformace nebo příkazy analýzy práce služby Azure Data Factory. Aktivity zahrnují aktivitu kopírování, která se dá použít k příjmu dat z různých zdrojů dat. Může také zahrnovat mapování Tok dat k provádění transformací dat bez kódu. Může také zahrnovat spuštění uložené procedury, dotazu Hive nebo skriptu Pig pro transformaci dat. Data můžete odeslat do modelu Učení počítače a provést analýzu. Není neobvyklé, že bude probíhat více aktivit, které mohou zahrnovat transformaci dat pomocí uložené procedury SQL a pak provádět analýzy pomocí Databricks. V tomto případě může být více aktivit logicky seskupeno společně s objektem, který se označuje jako kanál, a je možné je naplánovat ke spuštění nebo může být definován trigger , který určuje, kdy je potřeba spustit spuštění kanálu. Pro různé typy událostí existují různé typy aktivačních událostí.

Azure Synapse Pipeline components

Tok řízení je orchestrace aktivit kanálu, která zahrnuje řetězení aktivit v posloupnosti, větvení, definování parametrů na úrovni kanálu a předávání argumentů při vyvolání kanálu na vyžádání nebo z triggeru. Zahrnuje také předávání vlastních stavů a kontejnery smyček a iterátory for-each.

Parametry jsou páry klíč-hodnota konfigurace jen pro čtení.  Parametry jsou definované v kanálu. Argumenty definovaných parametrů se předávají během provádění z kontextu spuštění vytvořeného aktivační událostí nebo ručně spuštěným kanálem. Aktivity v rámci kanálu využívají hodnoty parametrů.

Azure Synapse Pipelines má prostředí Integration Runtime , které umožňuje přemostit mezi aktivitami a propojenými objekty služeb. Odkazuje na ni propojená služba a poskytuje výpočetní prostředí, ve kterém se aktivita spouští nebo odesílá. Tímto způsobem lze aktivitu provést v nejbližší možné oblasti. Existují tři typy prostředí Integration Runtime (IR), které jsou výpočetní infrastrukturou používanou kanály Azure Data Factory a Synapse k poskytování možností integrace dat, včetně Azure a místního hostování. Azure Data Factory podporuje stejné prostředí Integration Runtime a kromě toho také podporuje prostředí Azure-SSIS Integration Runtime.

Po dokončení celé práce pak můžete pomocí služby Data Factory publikovat konečnou datovou sadu do jiné propojené služby, kterou pak můžou využívat technologie, jako je Power BI nebo machine Učení.