Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
VZTAHUJE SE NA:
Azure Data Factory
Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datovou vědu, analýzy v reálném čase, business intelligence a reporting. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Ve světě velkých objemů dat jsou nezpracovaná, neuspořádaná data často uložená v relačních, nerelačních a jiných systémech úložiště. Nezpracovaná data sama o sobě ale nemají potřebný kontext ani význam, aby mohla analytikům, datovým vědcům nebo osobám rozhodujícím v rámci podniků poskytnout smysluplný přehled.
Velké objemy dat vyžadují službu, která dokáže orchestrovat a zprovoznit procesy pro upřesnění těchto obrovských úložišť nezpracovaných dat do použitelných obchodních přehledů. Azure Data Factory je spravovaná cloudová služba vytvořená pro tyto komplexní projekty hybridní extrakce, transformace a načítání (ETL), extrakce, načítání a transformace (ELT) a integrace dat.
Funkce služby Azure Data Factory
Komprese dat: Během aktivity kopírování dat je možné data komprimovat a zapsat je do cílového zdroje dat. Tato funkce pomáhá optimalizovat využití šířky pásma při kopírování dat.
Rozsáhlá podpora připojení pro různé zdroje dat: Azure Data Factory poskytuje širokou podporu připojení pro připojení k různým zdrojům dat. To je užitečné, když chcete načíst nebo zapisovat data z různých zdrojů dat.
Vlastní triggery událostí: Azure Data Factory umožňuje automatizovat zpracování dat pomocí vlastních triggerů událostí. Tato funkce umožňuje automaticky provést určitou akci, když dojde k určité události.
Náhled a ověření dat: Během aktivity kopírování dat jsou k dispozici nástroje pro náhled a ověřování dat. Tato funkce vám pomůže zajistit, aby se data správně zkopírovala a správně zapisovala do cílového zdroje dat.
Přizpůsobitelné toky dat: Azure Data Factory umožňuje vytvářet přizpůsobitelné toky dat. Tato funkce umožňuje přidat vlastní akce nebo kroky pro zpracování dat.
Integrované zabezpečení: Azure Data Factory nabízí integrované funkce zabezpečení, jako je integrace Entra ID a řízení přístupu na základě role pro řízení přístupu k tokům dat. Tato funkce zvyšuje zabezpečení při zpracování dat a chrání vaše data.
Scénáře použití
Představte si například herní společnost, která shromažďuje petabajty herních protokolů vytvářených hrami v cloudu. Společnost chce tyto protokoly analyzovat, aby získala informace o preferencích zákazníků, demografických ukazatelích a chování uživatelů. Zároveň chce identifikovat příležitosti křížového a následného prodeje, vyvíjet nové, zajímavé funkce, podpořit obchodní růst a zlepšovat zkušenosti zákazníků.
Aby společnost mohla tyto protokoly analyzovat, potřebuje použít referenční data, jako jsou informace o zákaznících, hrách a marketingových kampaních, které jsou uložené v místním úložišti dat. Společnost chce využít tato data z místního úložiště dat a zkombinovat je s dalšími daty protokolů, která má uložená v cloudovém úložišti dat.
Pro extrakci přehledů se plánuje zpracovat propojená data pomocí clusteru Spark v cloudu (Azure HDInsight) a vložit transformovaná data do cloudového datového skladu, jako je Azure Synapse Analytics, aby nad nimi mohla být snadno vytvořena sestava. Chce tento pracovní postup automatizovat a monitorovat a spravovat ho podle denního plánu. Chtějí ho také spustit, když soubory dorazí do kontejneru úložiště typu blob.
Právě v takových scénářích práce s daty nachází uplatnění platforma Azure Data Factory. Jedná se o cloudovou službu ETL a integraci dat, která umožňuje vytvářet pracovní postupy řízené daty pro orchestraci přesunu dat a transformaci dat ve velkém měřítku. Pomocí služby Azure Data Factory můžete vytvářet a plánovat pracovní postupy řízené daty (označované jako kanály), které dokáží ingestovat data z různorodých úložišť dat. Můžete vytvářet složité procesy ETL, které vizuálně transformují data pomocí toků dat nebo pomocí výpočetních služeb, jako jsou Azure HDInsight Hadoop, Azure Databricks a Azure SQL Database.
Kromě toho můžete transformovaná data publikovat do úložišť dat, jako je Azure Synapse Analytics pro aplikace business intelligence (BI), které budou využívat. V neposlední řadě služba Azure Data Factory umožňuje uspořádání nezpracovaných dat do smysluplných úložišť dat a datových jezer, která pomáhají při obchodních rozhodováních.
Jak to funguje?
Data Factory obsahuje řadu vzájemně propojených systémů, které poskytují kompletní platformu pro datové techniky.
Tento vizuální průvodce poskytuje podrobný přehled kompletní architektury služby Data Factory:
Pokud chcete zobrazit další podrobnosti, vyberte předchozí obrázek, který chcete přiblížit, nebo přejděte na obrázek s vysokým rozlišením. Tady se dozvíte o vývoji tohoto vizuálního průvodce a skici projektu dokumentace.
Připojte se a sbírejte
Podniky mají data různých typů, která jsou uložená v různorodých místních zdrojích nebo v cloudu, a data strukturovaná, nestrukturovaná i částečně strukturovaná, která přicházejí v různých intervalech a různou rychlostí.
Prvním krokem při sestavování systému vytváření informací je připojení ke všem požadovaným zdrojům dat a zpracování, jako jsou například služby typu software jako služba (SaaS), databáze, sdílené složky a webové služby FTP. Dalším krokem je přesun dat podle potřeby do centralizovaného umístění pro následné zpracování.
Bez služby Data Factory musí podniky sestavovat vlastní komponenty pro přesun dat nebo vyvíjet vlastní služby pro integraci a zpracování těchto zdrojů dat. Integrace a údržba takových systémů je nákladná a složitá. Kromě toho často postrádají monitorování a upozorňování na podnikové úrovni a ovládací prvky, které může nabídnout plně spravovaná služba.
Se službou Data Factory můžete pomocí aktivity kopírování v datovém kanálu přesouvat data z místních i cloudových úložišť dat do centralizovaného úložiště v cloudu pro účely další analýzy. Můžete například shromažďovat data v Azure Data Lake Storage a později je transformovat pomocí výpočetní služby Azure Data Lake Analytics. Data můžete shromažďovat i ve službě Azure Blob Storage a později je transformovat pomocí clusteru Azure HDInsight Hadoop.
Transformace a rozšíření
Jakmile se data nacházejí v centralizovaném úložišti dat v cloudu, zpracujte nebo transformujte shromážděná data pomocí toků dat mapování ADF. Toky dat umožňují datovým inženýrům vytvářet a udržovat grafy transformace dat, které se spouštějí ve Sparku, aniž by museli rozumět clusterům Spark nebo programování Sparku.
Pokud dáváte přednost transformacím kódu ručně, ADF podporuje externí aktivity pro provádění transformací ve výpočetních službách, jako jsou HDInsight Hadoop, Spark, Data Lake Analytics a Machine Learning.
CI/CD a publikování
Data Factory nabízí plnou podporu CI/CD datových kanálů pomocí Azure DevOps a GitHubu. To vám umožní postupně vyvíjet a dodávat procesy ETL před publikováním hotového produktu. Po upřesnění nezpracovaných dat do spotřební formy připravené pro podnikové použití načtěte data do služby Azure Data Warehouse, Azure SQL Database, Azure Cosmos DB nebo do jakéhokoli analytického modulu, ke kterému mohou vaši podnikoví uživatelé přistupovat ze svých nástrojů business intelligence.
Monitor
Jakmile úspěšně sestavíte a nasadíte kanál integrace dat, který ze zpracovaných dat získává obchodní hodnotu, můžete monitorovat naplánované aktivity a kanály a jejich míru úspěšnosti a chyb. Azure Data Factory má integrovanou podporu monitorování kanálů prostřednictvím služby Azure Monitor, rozhraní API, PowerShellu, protokolů služby Azure Monitor a panelů stavu na webu Azure Portal.
Koncepty nejvyšší úrovně
Předplatné Azure může obsahovat jednu nebo více instancí služby Azure Data Factory (neboli datových továren). Azure Data Factory se skládá z následujících klíčových komponent:
- Pipelines
- Aktivity
- Datové sady
- Propojené služby
- Přenosy dat
- Integrační runtime
Tyto součásti společně poskytují platformu, na které můžete vytvářet pracovní postupy řízené daty s kroky pro přesun a transformaci dat.
Kanál
Datová továrna může mít jeden nebo více pipelines. Pipelina je logické seskupení aktivit, které provádí jednotku práce. Aktivity v potrubí společně vykonávají úkol. Například kanál může obsahovat skupinu aktivit, které načítají data z Azure blobu a poté spustí dotaz Hive na HDInsight clusteru pro rozdělení dat.
Výhodou tohoto přístupu je, že vám potrubí umožňuje spravovat aktivity jako sadu, a ne každou zvlášť. Aktivity v kanálu je možné zřetězit, aby probíhaly postupně, nebo můžou probíhat souběžně a nezávisle na sobě.
Mapování toků dat
Vytvářejte a spravujte grafy logiky transformace dat, které můžete použít k transformaci libovolných velikostí dat. Z kanálů ADF můžete vytvořit opakovaně použitelnou knihovnu rutin transformace dat a spouštět tyto procesy škálovaným způsobem. Data Factory spustí vaši logiku na clusteru Spark, který se v případě potřeby spouští a vypíná. Clustery nebudete muset spravovat ani udržovat.
Aktivita
Aktivity představují krok zpracování v rámci zpracovatelského řetězce. Například můžete použít aktivitu kopírování ke kopírování dat z jednoho úložiště dat do jiného. Podobně můžete použít aktivitu Hivu, která spustí dotaz Hivu na clusteru Azure HDInsight, aby transformoval a analyzoval vaše data. Data Factory podporuje tři typy aktivit: aktivity přesunu dat, aktivity transformace dat a aktivity řízení.
Datové sady
Datové sady představují datové struktury v rámci úložišť dat, které jednoduše odkazují na data, která chcete ve svých aktivitách použít jako vstupy nebo výstupy.
Propojené služby
Propojené služby jsou velmi podobné připojovacím řetězcům, které definují informace o připojení, které služba Data Factory potřebuje pro připojení k externím prostředkům. Můžete si to představit tak, že propojená služba definuje připojení ke zdroji dat a datová sada představuje strukturu těchto dat. Například propojená služba Azure Storage určuje připojovací řetězec pro připojení k účtu služby Azure Storage. Datová sada objektu blob Azure navíc určuje kontejner objektů blob a složku obsahující data.
Propojené služby slouží ve službě Data Factory ke dvěma účelům:
Představuje úložiště dat, které zahrnuje, ale není omezené na databázi SQL Serveru, databázi Oracle, sdílenou složku nebo účet úložiště objektů blob Azure. Seznam podporovaných úložišť dat najdete v článku o aktivitě kopírování.
Představují výpočetní prostředek, který může hostovat provádění aktivity. Například aktivita HDInsightHive se spouští na clusteru HDInsight Hadoop. Seznam aktivit transformace a podporovaných výpočetních prostředí najdete v článku o transformaci dat.
Integration Runtime
Aktivita ve službě Data Factory určuje akci, která se má provést. Propojená služba určuje cílové úložiště dat nebo výpočetní službu. Prostředí Integration Runtime poskytuje most mezi aktivitou a propojenými službami. Odkazuje na ni propojená služba nebo aktivita a poskytuje výpočetní prostředí, ve kterém se aktivita spouští nebo odesílá. Tímto způsobem se dá aktivita co nejefektivněji provést v oblasti, která je nejblíž cílovému úložišti dat nebo výpočetní službě, a zároveň vyhovět potřebám zabezpečení a dodržování předpisů.
Spouštěče
Triggery představují jednotku zpracování, která určuje, kdy je potřeba spustit spuštění kanálu. Pro různé typy událostí existují různé typy aktivačních událostí.
Běhy pipeliny
Spuštění kanálu je instance spuštění kanálu. Běhy kanálu se obvykle vytvářejí předáním parametrům argumentů, které jsou definovány v kanálech. Argumenty je možné předat ručně nebo v rámci definice aktivační události.
Parametry
Parametry jsou páry klíčů a hodnot určené pouze ke čtení. Parametry jsou definovány v potrubí. Argumenty definovaných parametrů se předávají během provádění z kontextu spuštění vytvořeného spouštěčem nebo pipelinem, který byl spuštěn ručně. Aktivity v rámci kanálu spotřebovávají hodnoty parametrů.
Datová sada je parametr silného typu a opakovaně použitelná/odkazovatelná entita. Aktivita může odkazovat na datové sady a může využívat vlastnosti definované v definici datové sady.
Propojená služba je také parametr silného typu, který obsahuje informace o připojení k úložišti dat nebo výpočetnímu prostředí. Je to také opakovaně použitelná/odkazovatelná entita.
Řízení toku
Tok řízení představuje orchestraci aktivit kanálu, která zahrnuje zřetězení aktivit v sekvenci, větvení, definování parametrů na úrovni kanálu a předávání argumentů při volání kanálu na vyžádání nebo z aktivační události. Zahrnuje také předávání stavů na míru a kontejnery pro cykly, tedy iterátory typu For-each.
Proměnné
Proměnné se dají použít uvnitř kanálů k ukládání dočasných hodnot a dají se použít také ve spojení s parametry, které umožňují předávání hodnot mezi kanály, toky dat a dalšími aktivitami.
Související obsah
Tady jsou důležité další dokumenty, které je potřeba prozkoumat: