Číst v angličtině

Sdílet prostřednictvím


Plánování migrace ze služby Azure Data Factory

Microsoft Fabric je produkt SaaS pro analýzu dat od Microsoftu, který spojuje všechny analytické produkty Microsoftu na trhu do jednoho uživatelského prostředí. Fabric Data Factory poskytuje orchestraci pracovních postupů, přesun dat, replikaci dat a transformaci dat ve velkém měřítku s podobnými funkcemi, které se nacházejí ve službě Azure Data Factory (ADF). Pokud máte stávající investice do ADF, které byste chtěli modernizovat do služby Fabric Data Factory, je tento dokument užitečný k pochopení aspektů migrace, strategií a přístupů.

Migrace ze služeb Azure PaaS ETL/DI, jako jsou ADF &, kanály a toky dat v Synapse, může přinést několik důležitých výhod:

  • Nové integrované funkce kanálu, včetně aktivit e-mailu a Teams, umožňují snadné směrování zpráv během provádění kanálu.
  • Integrované funkce kontinuální integrace a doručování (CI/CD) (kanály nasazení) nevyžadují externí integraci s úložišti Git.
  • Integrace pracovního prostoru s datovým jezerem OneLake umožňuje snadnou a sjednocenou správu analýz.
  • Aktualizace sémantických datových modelů je ve službě Fabric snadná díky plně integrované činnosti v rámci datového kanálu.

Microsoft Fabric je integrovaná platforma pro podniková data spravovaná samoobslužnou i IT technologií. Díky exponenciálnímu růstu objemu dat a složitosti zákazníci Fabric vyžadují podniková řešení, která se škálují, jsou zabezpečená, snadno se spravují a jsou přístupná všem uživatelům v největších organizacích.

V posledních letech Microsoft investoval značné úsilí o poskytování škálovatelných cloudových možností do Premium. Za tímto účelem služba Data Factory ve Fabricu okamžitě posiluje rozsáhlý ekosystém vývojářů a řešení integrace dat, které byly budovány po desetiletí, aby využily plnou sadu funkcí a možností, které výrazně překračují srovnatelné funkce dostupné v předchozích generacích.

Zákazníci se přirozeně ptají, jestli existuje příležitost konsolidovat hostováním řešení integrace dat v rámci fabric. Mezi běžné otázky patří:

  • Fungují všechny funkce, na které se spoléháme, v kanálech Fabric?
  • Jaké funkce jsou dostupné jenom v kanálech Fabric?
  • Jak migrujeme existující kanály do kanálů Fabric?
  • Jaký je plán Microsoftu pro příjem podnikových dat?

Rozdíly mezi platformami

Při migraci celé instance ADF je potřeba zohlednit mnoho důležitých rozdílů mezi ADF a Data Factory ve Fabricu, což se stává důležitým při přechodu na Fabric. Prozkoumáme několik důležitých rozdílů v této části.

Podrobné pochopení funkčního mapování rozdílů mezi Azure Data Factory a Fabric Data Factory najdete v části Porovnání Data Factory ve Fabric a Azure Data Factory.

Prostředí integrací runtime

Ve službě ADF jsou runtimy integrace (RI) konfigurační objekty, které představují výpočetní kapacitu, kterou ADF využívá k dokončení zpracování dat. Mezi tyto vlastnosti konfigurace patří oblast Azure pro cloudové výpočty a velikosti výpočetní kapacity toku dat Spark. Mezi další typy IR patří vlastní hostované IR (SHIR) pro připojení k místním datům, SSIS IR pro spouštění balíčků služby SQL Server Integration Services a cloudové IR s podporou Vnetu.

snímek obrazovky zobrazující záložku Integrace běhových prostředí ve službě Azure Data Factory

Microsoft Fabric je produkt SaaS (software jako služba), zatímco ADF je produkt paaS (platforma jako služba). Z hlediska prostředí Integration Runtime tento rozdíl znamená, že nemusíte konfigurovat nic pro použití kanálů nebo toků dat ve Fabric, protože výchozím nastavením je použití cloudových výpočetních prostředků v oblasti, kde se nacházejí kapacity Fabric. V prostředí Fabric neexistují IRs služby SSIS a pro připojení k místním datům používáte komponentu specifickou pro Fabric, která se označuje jako Brána pro místní data (OPDG). A pro připojení založené na virtuální síti k zabezpečeným sítím použijete bránu Data Gateway pro virtuální sítě ve Fabric.

Při migraci z ADF na Fabric nemusíte migrovat veřejné síťové Azure (cloudové) IRs. Musíte znovu vytvořit SHIRs jako OPDG a Azure IRs se zapnutou funkcí virtuální sítě jako Brány dat virtuální sítě.

snímek obrazovky s možností Spravovat připojení a brány na stránce Správa Fabric

Potrubí

Kanály jsou základní součástí ADF, která se používá pro primární pracovní postup a orchestraci procesů ADF pro přesun dat, transformaci dat a orchestraci procesů. Potrubí ve službě Fabric Data Factory jsou téměř identická s ADF, ale s dalšími komponentami, které dobře odpovídají modelu SaaS založenému na Power BI. Tato podobnost zahrnuje nativní aktivity pro aktualizace e-mailů, Teams a sémantických modelů.

Definice JSON kanálů ve službě Fabric Data Factory se mírně liší od ADF kvůli rozdílům v aplikačním modelu mezi těmito dvěma produkty. Vzhledem k tomuto rozdílu není možné kopírovat a vkládat kanál JSON, importovat nebo exportovat kanály nebo odkazovat na úložiště Git ADF.

Při opětovném sestavení kanálů ADF jako kanálů Fabric použijete v podstatě stejné modely pracovních postupů a dovednosti, které jste použili v ADF. Hlavní úvaha se týká propojených služeb a datových sad, což jsou koncepty v ADF, které ve Fabric neexistují.

Propojené služby

Propojené služby v ADF definují vlastnosti připojení potřebné k připojení k úložišti dat pro přesun dat, transformaci dat a aktivity zpracování dat. Ve Fabric je potřeba tyto definice znovu vytvořit jako připojení, která jsou vlastnosti pro vaše aktivity, jako jsou Kopírování a Toku dat.

Datové sady

Datové sady definují tvar, umístění a obsah dat v ADF, ale neexistují jako entity v systému Fabric. Chcete-li definovat vlastnosti dat, jako jsou datové typy, sloupce, složky, tabulky atd. v kanálech Fabric Data Factory, definujete tyto vlastnosti v aktivitách pipeline a uvnitř objektu Connection, který je dříve uveden v části Propojená služba.

Datové toky

Ve službě Data Factory for Fabric termín toky dat odkazuje na aktivity transformace dat bez kódu, zatímco v ADF se stejná funkce označuje jako toky dat. Toky dat Služby Fabric Data Factory mají uživatelské rozhraní založené na Power Query, které se používá v aktivitě ADF Power Query. Výpočetní prostředí používané ke spouštění toků dat v Fabric je nativní vykonávací modul, který může škálovat pro rozsáhlé transformace dat pomocí nového výpočetního modulu Datového skladu Fabric.

V ADF jsou toky dat postavené na infrastruktuře Synapse Spark a jsou definovány pomocí uživatelského rozhraní pro sestavování, které používá podkladový jazyk specifický pro doménu (DSL) známý jako skript toku dat. Tento jazyk definic se výrazně liší od toků dat založených na Power Query v systému Fabric, které používají jazyk definice známý jako M k definování jejich chování. Vzhledem k těmto rozdílům v uživatelských rozhraních, jazycích a vykonávacích mechanismech nejsou toky dat Fabric a toky dat ADF kompatibilní. Při upgradu řešení na Fabric je potřeba znovu vytvořit toky dat ADF jako toky dat Fabric .

Spouštěče

Signály aktivují ADF ke spuštění kanálu na základě času stanoveného pomocí hodin, časových úseků posuvného okna, událostmi založenými na souborech nebo specifických událostí. Tyto funkce jsou podobné ve Fabric, i když se základní implementace liší.

V systému Fabric, triggery existují pouze jako koncept pipeline. Větší rámec, který spouštěče používají ve Fabricu, je znám jako Data Activator, což je subsystém událostí a upozornění v rámci funkcí pro inteligenci v reálném čase ve Fabricu.

snímek obrazovky se stránkou Triggery ve službě Azure Data Factory

Aktivátor dat Fabric má výstrah, které lze použít k vytvoření spouští pro události souboru a vlastní události. Zatímco aktivační události plánu jsou samostatnou entitou v Fabric známé jako plány . Tyto harmonogramy jsou na úrovni platformy v prostředí Fabric a nejsou specifické pro potrubí. Nejsou v Fabric označovány jako triggery .

Pokud chcete migrovat triggery z Azure Data Factory do Fabric, zkuste přepracovat plánované spouštěče jednoduše jako plány, které jsou vlastnostmi vašich toků Fabric. A pro všechny ostatní typy aktivačních událostí použijte tlačítko Aktivační události uvnitř kanálu Fabric nebo použijte Data Activator přímo ve Fabricu.

snímek obrazovky znázorňující tlačítko Přidat trigrování v editoru pipeline v Data Factory ve Fabricu

Ladění

Ladění datových toků je ve Fabric jednodušší než v ADF. Je to proto, že kanály služby Fabric Data Factory nemají samostatný koncept režimu ladění, který najdete v kanálech ADF a tocích dat. Místo toho, když vytváříte kanál, jste vždy v interaktivním režimu. Pokud chcete potrubí otestovat a ladit, stačí vybrat tlačítko přehrát na panelu nástrojů editoru potrubí, až budete připraveni ve vývojovém cyklu. Potrubí ve Fabricu nezahrnují ladění, dokud není aplikován krokový vzor ladění interaktivně. Místo toho v systému Fabric použijete stav aktivity a nastavíte jako aktivní pouze aktivity, které chcete testovat, zatímco všechny ostatní aktivity nastavíte jako neaktivní, abyste dosáhli stejných vzorů testování a ladění. Podívejte se na následující video, které vás provede, jak dosáhnout tohoto prostředí pro ladění ve Fabric.

Zachytávání změn v datech

Funkce Change Data Capture (CDC) v ADF je funkce preview, která usnadňuje rychlé přesouvání dat přírůstkovým způsobem pomocí funkcí CDC na straně zdroje vašich úložišť dat. Pokud chcete migrovat artefakty CDC do služby Fabric Data Factory, znovu vytvoříte tyto artefakty jako položky úloh kopírování ve vašem pracovním prostoru Fabric. Tato funkce poskytuje podobné možnosti přírůstkového přesunu dat pomocí snadno použitelného uživatelského rozhraní bez nutnosti kanálu, stejně jako v ADF CDC. Další informace najdete v kopírovací úloze ve Fabricu ve službě Data Factory.

Ačkoli Azure Synapse Link není k dispozici v ADF, uživatelé kanálů Synapse často využívají tuto službu k replikaci dat z databází SQL do svého datového jezera v rámci přístupu na klíč. V prostředí Fabric znovu vytvoříte artefakty Azure Synapse Link jako zrcadlové položky ve vašem pracovním prostoru. Další informace najdete v zrcadlení databáze Fabric .

SSIS (SQL Server Integration Services)

SSIS je místní nástroj pro integraci dat a ETL, který microsoft dodává s SQL Serverem. V ADF můžete balíčky SSIS přesunout do cloudu metodou "lift and shift" pomocí prostředí ADF SSIS IR. V Fabricu nemáme koncept IRs, takže tato funkce dnes není možná. Pracujeme ale na povolení spouštění balíčků SSIS nativně z Fabricu, což doufáme, že se brzy integruje do produktu. Do té doby nejlepší způsob, jak spouštět balíčky SSIS v cloudu pomocí služby Fabric Data Factory, je spustit prostředí SSIS IR ve vaší továrně ADF a pak vyvolat kanál ADF pro volání balíčků SSIS. Kanál ADF můžete vzdáleně spustit z kanálů Fabric pomocí aktivity s názvem "Vyvolaný kanál," jak je popsáno v následující části.

Vyvolání aktivity kanálu

Běžnou aktivitou používanou v kanálech ADF je aktivita spuštění kanálu, která umožňuje volat jiný kanál ve vaší továrně. V prostředí Fabric jsme tuto aktivitu vylepšili jako aktivitu kanálu Vyvolání pipeline. Projděte si dokumentaci aktivit vyvolání kanálu.

Tato aktivita je užitečná pro scénáře migrace, ve kterých máte mnoho kanálů ADF, které používají funkce specifické pro ADF, jako je mapování toků dat nebo SSIS. Tyto datové toky můžete udržovat as-is v ADF nebo dokonce v datových tocích Synapse a potom tento datový tok přímo zavolat z nového datového toku Služby Fabric Data Factory pomocí aktivity Spustit datový tok a odkazovat na datový tok vzdálené továrny.

Ukázkové scénáře migrace

Následující scénáře jsou běžné scénáře migrace, se kterými se můžete setkat při migraci z ADF do služby Fabric Data Factory.

Scénář č. 1: Kanály a toky dat ADF

Primární případy použití pro migrace do továrny jsou založené na modernizaci prostředí ETL z modelu PaaS továrny ADF na nový model SaaS infrastruktury. Primární položky továrny, které se mají migrovat, jsou pipeliny a toky dat. Existuje několik základních prvků továrny, které potřebujete naplánovat pro migraci kromě těchto dvou hlavních položek: propojené služby, Integration Runtime, datové sady a triggery.

  • Propojené služby je potřeba v systému Fabric znovu vytvořit jako připojení ve vašich aktivitách pracovního toku.
  • Datové sady ve službě Factory neexistují. Vlastnosti datových sad jsou reprezentovány jako vlastnosti uvnitř aktivit v rámci toku dat, jako je kopírování nebo vyhledávání, zatímco spojení obsahují další vlastnosti datové sady.
  • Prostředí Integration Runtime ve Fabricu neexistují. Vaše vlastně hostované IR však lze znovu vytvořit pomocí místních bran dat (OPDG) ve Fabric a IR virtuální sítě Azure jako spravovaných bran virtuální sítě ve Fabric.
  • Tyto aktivity kanálu ADF nejsou součástí služby Fabric Data Factory:
    • Data Lake Analytics (U-SQL) – tato funkce je zastaralá služba Azure.
    • Aktivita ověřování – Ověřovací aktivita v ADF je pomocná aktivita, kterou můžete v kanálech Fabric snadno znovu sestavit pomocí aktivity Získat metadata, smyčky kanálu a aktivity If.
    • Power Query – V prostředcích infrastruktury se všechny toky dat sestavují pomocí uživatelského rozhraní Power Query, takže stačí zkopírovat a vložit kód M z aktivit ADF Power Query a sestavit je jako toky dat v Prostředcích infrastruktury.
  • Pokud používáte některou z funkcí kanálu ADF, které se ve službě Fabric Data Factory nenašly, použijte aktivitu vyvolání kanálu v Prostředcích infrastruktury k volání existujících kanálů v ADF.
  • Následující aktivity kanálu ADF se kombinují do jednoúčelové aktivity:
    • Aktivity Azure Databricks (poznámkový blok, Jar, Python)
    • Azure HDInsight (Hive, Pig, MapReduce, Spark, Streamování)

Následující obrázek ukazuje stránku konfigurace datové sady ADF s jeho cestou k souboru a nastavením komprese:

Snímek obrazovky se stránkou konfigurace datové sady ADF

Následující obrázek znázorňuje konfiguraci aktivity kopírování pro službu Data Factory v systému Fabric, kde jsou v aktivitě přímo komprese a cesta k souboru.

snímek obrazovky znázorňující konfiguraci komprese aktivity kopírování ve Fabricu

Scénář č. 2: ADF s CDC, SSIS a Airflow

CDC & Airflow v ADF jsou funkce ve verzi preview, zatímco SSIS v ADF je obecně dostupná funkce po mnoho let. Každá z těchto funkcí obsluhuje různé potřeby integrace dat, ale při migraci z ADF do Fabric je třeba věnovat zvláštní pozornost. Change Data Capture (CDC) je koncept ADF nejvyšší úrovně, ale ve Fabric vidíte tuto funkci jako úlohu kopírování.

Airflow je funkce Apache Airflow spravovaná v cloudu ADF a je také dostupná ve službě Fabric Data Factory. Měli byste být schopni použít stejné zdrojové úložiště Airflow nebo vzít vaše DAGy a zkopírovat/vložit kód do nabídky Fabric Airflow s minimálními až žádnými změnami.

Scénář č. 3: Migrace služby Data Factory podporované Gitem do Fabricu

Je běžné, i když to není nutné, že vaše továrny ADF nebo Synapse a pracovní prostory jsou připojené k vašemu vlastnímu externímu poskytovateli Gitu v ADO nebo GitHubu. V tomto scénáři musíte migrovat položky továrny a pracovního prostoru do pracovního prostoru Fabric a pak nastavit integraci Gitu v pracovním prostoru Fabric.

Prostředí Fabric poskytuje dva hlavní způsoby, jak umožnit CI/CD na úrovni pracovního prostoru: integraci Gitu, kdy si v ADO přinesete vlastní úložiště Git a připojíte se k němu z Fabric, a integrované kanály nasazení, kde můžete povýšit kód do vyšších prostředí, aniž byste museli přinést vlastní Git.

V obou případech váš stávající Git repo z ADF nefunguje s Fabric. Místo toho musíte nasměrovat na nové úložiště nebo spustit nový nasazovací kanál ve Fabric a znovu sestavit své artefakty kanálu ve Fabric.

Připojení existujících instancí ADF přímo k pracovnímu prostoru Fabric

Dříve jsme mluvili o použití aktivity Vyvolání Pipeline Fabric Data Factory jako mechanismu pro udržování stávajících investic do ADF pipeline a jejich volání přímo z Fabricu. V rámci platformy Fabric můžete tento koncept rozvinout ještě dál a připojit celou továrnu ve vašem pracovním prostoru Fabric jako nativní položku.

Další informace o narůstajících scénářích použití najdete v tématu Scénáře spolupráce a doručování obsahu.

Připojení služby Azure Data Factory v pracovním prostoru Fabric přináší mnoho výhod, které je potřeba vzít v úvahu. Pokud s Fabric začínáte a chcete, aby vaše továrny zůstaly vedle sebe v jednotném zobrazení, můžete je integrovat do Fabric, abyste mohli spravovat obojí uvnitř Fabric. Kompletní uživatelské rozhraní ADF je teď pro vás dostupné ve vaší připojené továrně, kde můžete plně monitorovat, spravovat a upravovat položky vaší továrny ADF přímo z pracovního prostoru Fabric. Tato funkce výrazně usnadňuje zahájení migrace těchto položek do systému Fabric jako nativních artefaktů Fabric. Tato funkce je primárně určená pro snadné použití a usnadňuje zobrazení továren ADF v pracovním prostoru Fabric. Skutečné spuštění kanálů, aktivit, prostředí Integration Runtime atd. probíhá ve vašich prostředcích Azure.

Úvahy o migraci z ADF do služby Data Factory na platformě Fabric