Události
Staňte se certifikovaným Datoví technici fabric
14. 1. 23 - 31. 3. 23
Zkontrolujte, jestli máte nárok na nabídku slev na zkoušku, a zaregistrujte se na bezplatné živé relace a připravte se na zkoušku DP-700.
Další informaceTento prohlížeč se už nepodporuje.
Upgradujte na Microsoft Edge, abyste mohli využívat nejnovější funkce, aktualizace zabezpečení a technickou podporu.
Microsoft Fabric je produkt SaaS pro analýzu dat od Microsoftu, který spojuje všechny analytické produkty Microsoftu na trhu do jednoho uživatelského prostředí. Fabric Data Factory poskytuje orchestraci pracovních postupů, přesun dat, replikaci dat a transformaci dat ve velkém měřítku s podobnými funkcemi, které se nacházejí ve službě Azure Data Factory (ADF). Pokud máte stávající investice do ADF, které byste chtěli modernizovat do služby Fabric Data Factory, je tento dokument užitečný k pochopení aspektů migrace, strategií a přístupů.
Migrace ze služeb Azure PaaS ETL/DI, jako jsou ADF &, kanály a toky dat v Synapse, může přinést několik důležitých výhod:
Microsoft Fabric je integrovaná platforma pro podniková data spravovaná samoobslužnou i IT technologií. Díky exponenciálnímu růstu objemu dat a složitosti zákazníci Fabric vyžadují podniková řešení, která se škálují, jsou zabezpečená, snadno se spravují a jsou přístupná všem uživatelům v největších organizacích.
V posledních letech Microsoft investoval značné úsilí o poskytování škálovatelných cloudových možností do Premium. Za tímto účelem služba Data Factory ve Fabricu okamžitě posiluje rozsáhlý ekosystém vývojářů a řešení integrace dat, které byly budovány po desetiletí, aby využily plnou sadu funkcí a možností, které výrazně překračují srovnatelné funkce dostupné v předchozích generacích.
Zákazníci se přirozeně ptají, jestli existuje příležitost konsolidovat hostováním řešení integrace dat v rámci fabric. Mezi běžné otázky patří:
Při migraci celé instance ADF je potřeba zohlednit mnoho důležitých rozdílů mezi ADF a Data Factory ve Fabricu, což se stává důležitým při přechodu na Fabric. Prozkoumáme několik důležitých rozdílů v této části.
Podrobné pochopení funkčního mapování rozdílů mezi Azure Data Factory a Fabric Data Factory najdete v části Porovnání Data Factory ve Fabric a Azure Data Factory.
Ve službě ADF jsou runtimy integrace (RI) konfigurační objekty, které představují výpočetní kapacitu, kterou ADF využívá k dokončení zpracování dat. Mezi tyto vlastnosti konfigurace patří oblast Azure pro cloudové výpočty a velikosti výpočetní kapacity toku dat Spark. Mezi další typy IR patří vlastní hostované IR (SHIR) pro připojení k místním datům, SSIS IR pro spouštění balíčků služby SQL Server Integration Services a cloudové IR s podporou Vnetu.
Microsoft Fabric je produkt SaaS (software jako služba), zatímco ADF je produkt paaS (platforma jako služba). Z hlediska prostředí Integration Runtime tento rozdíl znamená, že nemusíte konfigurovat nic pro použití kanálů nebo toků dat ve Fabric, protože výchozím nastavením je použití cloudových výpočetních prostředků v oblasti, kde se nacházejí kapacity Fabric. V prostředí Fabric neexistují IRs služby SSIS a pro připojení k místním datům používáte komponentu specifickou pro Fabric, která se označuje jako Brána pro místní data (OPDG). A pro připojení založené na virtuální síti k zabezpečeným sítím použijete bránu Data Gateway pro virtuální sítě ve Fabric.
Při migraci z ADF na Fabric nemusíte migrovat veřejné síťové Azure (cloudové) IRs. Musíte znovu vytvořit SHIRs jako OPDG a Azure IRs se zapnutou funkcí virtuální sítě jako Brány dat virtuální sítě.
Kanály jsou základní součástí ADF, která se používá pro primární pracovní postup a orchestraci procesů ADF pro přesun dat, transformaci dat a orchestraci procesů. Potrubí ve službě Fabric Data Factory jsou téměř identická s ADF, ale s dalšími komponentami, které dobře odpovídají modelu SaaS založenému na Power BI. Tato podobnost zahrnuje nativní aktivity pro aktualizace e-mailů, Teams a sémantických modelů.
Definice JSON kanálů ve službě Fabric Data Factory se mírně liší od ADF kvůli rozdílům v aplikačním modelu mezi těmito dvěma produkty. Vzhledem k tomuto rozdílu není možné kopírovat a vkládat kanál JSON, importovat nebo exportovat kanály nebo odkazovat na úložiště Git ADF.
Při opětovném sestavení kanálů ADF jako kanálů Fabric použijete v podstatě stejné modely pracovních postupů a dovednosti, které jste použili v ADF. Hlavní úvaha se týká propojených služeb a datových sad, což jsou koncepty v ADF, které ve Fabric neexistují.
Propojené služby v ADF definují vlastnosti připojení potřebné k připojení k úložišti dat pro přesun dat, transformaci dat a aktivity zpracování dat. Ve Fabric je potřeba tyto definice znovu vytvořit jako připojení, která jsou vlastnosti pro vaše aktivity, jako jsou Kopírování a Toku dat.
Datové sady definují tvar, umístění a obsah dat v ADF, ale neexistují jako entity v systému Fabric. Chcete-li definovat vlastnosti dat, jako jsou datové typy, sloupce, složky, tabulky atd. v kanálech Fabric Data Factory, definujete tyto vlastnosti v aktivitách pipeline a uvnitř objektu Connection, který je dříve uveden v části Propojená služba.
Ve službě Data Factory for Fabric termín toky dat odkazuje na aktivity transformace dat bez kódu, zatímco v ADF se stejná funkce označuje jako toky dat. Toky dat Služby Fabric Data Factory mají uživatelské rozhraní založené na Power Query, které se používá v aktivitě ADF Power Query. Výpočetní prostředí používané ke spouštění toků dat v Fabric je nativní vykonávací modul, který může škálovat pro rozsáhlé transformace dat pomocí nového výpočetního modulu Datového skladu Fabric.
V ADF jsou toky dat postavené na infrastruktuře Synapse Spark a jsou definovány pomocí uživatelského rozhraní pro sestavování, které používá podkladový jazyk specifický pro doménu (DSL) známý jako skript toku dat. Tento jazyk definic se výrazně liší od toků dat založených na Power Query v systému Fabric, které používají jazyk definice známý jako M k definování jejich chování. Vzhledem k těmto rozdílům v uživatelských rozhraních, jazycích a vykonávacích mechanismech nejsou toky dat Fabric a toky dat ADF kompatibilní. Při upgradu řešení na Fabric je potřeba znovu vytvořit toky dat ADF jako toky dat Fabric .
Signály aktivují ADF ke spuštění kanálu na základě času stanoveného pomocí hodin, časových úseků posuvného okna, událostmi založenými na souborech nebo specifických událostí. Tyto funkce jsou podobné ve Fabric, i když se základní implementace liší.
V systému Fabric, triggery existují pouze jako koncept pipeline. Větší rámec, který spouštěče používají ve Fabricu, je znám jako Data Activator, což je subsystém událostí a upozornění v rámci funkcí pro inteligenci v reálném čase ve Fabricu.
Aktivátor dat Fabric má výstrah, které lze použít k vytvoření spouští pro události souboru a vlastní události. Zatímco aktivační události plánu jsou samostatnou entitou v Fabric známé jako plány . Tyto harmonogramy jsou na úrovni platformy v prostředí Fabric a nejsou specifické pro potrubí. Nejsou v Fabric označovány jako triggery .
Pokud chcete migrovat triggery z Azure Data Factory do Fabric, zkuste přepracovat plánované spouštěče jednoduše jako plány, které jsou vlastnostmi vašich toků Fabric. A pro všechny ostatní typy aktivačních událostí použijte tlačítko Aktivační události uvnitř kanálu Fabric nebo použijte Data Activator přímo ve Fabricu.
Ladění datových toků je ve Fabric jednodušší než v ADF. Je to proto, že kanály služby Fabric Data Factory nemají samostatný koncept režimu ladění, který najdete v kanálech ADF a tocích dat. Místo toho, když vytváříte kanál, jste vždy v interaktivním režimu. Pokud chcete potrubí otestovat a ladit, stačí vybrat tlačítko přehrát na panelu nástrojů editoru potrubí, až budete připraveni ve vývojovém cyklu. Potrubí ve Fabricu nezahrnují ladění, dokud není aplikován krokový vzor ladění interaktivně. Místo toho v systému Fabric použijete stav aktivity a nastavíte jako aktivní pouze aktivity, které chcete testovat, zatímco všechny ostatní aktivity nastavíte jako neaktivní, abyste dosáhli stejných vzorů testování a ladění. Podívejte se na následující video, které vás provede, jak dosáhnout tohoto prostředí pro ladění ve Fabric.
Funkce Change Data Capture (CDC) v ADF je funkce preview, která usnadňuje rychlé přesouvání dat přírůstkovým způsobem pomocí funkcí CDC na straně zdroje vašich úložišť dat. Pokud chcete migrovat artefakty CDC do služby Fabric Data Factory, znovu vytvoříte tyto artefakty jako položky úloh kopírování ve vašem pracovním prostoru Fabric. Tato funkce poskytuje podobné možnosti přírůstkového přesunu dat pomocí snadno použitelného uživatelského rozhraní bez nutnosti kanálu, stejně jako v ADF CDC. Další informace najdete v kopírovací úloze ve Fabricu ve službě Data Factory.
Ačkoli Azure Synapse Link není k dispozici v ADF, uživatelé kanálů Synapse často využívají tuto službu k replikaci dat z databází SQL do svého datového jezera v rámci přístupu na klíč. V prostředí Fabric znovu vytvoříte artefakty Azure Synapse Link jako zrcadlové položky ve vašem pracovním prostoru. Další informace najdete v zrcadlení databáze Fabric .
SSIS je místní nástroj pro integraci dat a ETL, který microsoft dodává s SQL Serverem. V ADF můžete balíčky SSIS přesunout do cloudu metodou "lift and shift" pomocí prostředí ADF SSIS IR. V Fabricu nemáme koncept IRs, takže tato funkce dnes není možná. Pracujeme ale na povolení spouštění balíčků SSIS nativně z Fabricu, což doufáme, že se brzy integruje do produktu. Do té doby nejlepší způsob, jak spouštět balíčky SSIS v cloudu pomocí služby Fabric Data Factory, je spustit prostředí SSIS IR ve vaší továrně ADF a pak vyvolat kanál ADF pro volání balíčků SSIS. Kanál ADF můžete vzdáleně spustit z kanálů Fabric pomocí aktivity s názvem "Vyvolaný kanál," jak je popsáno v následující části.
Běžnou aktivitou používanou v kanálech ADF je aktivita spuštění kanálu, která umožňuje volat jiný kanál ve vaší továrně. V prostředí Fabric jsme tuto aktivitu vylepšili jako aktivitu kanálu Vyvolání pipeline. Projděte si dokumentaci aktivit vyvolání kanálu.
Tato aktivita je užitečná pro scénáře migrace, ve kterých máte mnoho kanálů ADF, které používají funkce specifické pro ADF, jako je mapování toků dat nebo SSIS. Tyto datové toky můžete udržovat as-is v ADF nebo dokonce v datových tocích Synapse a potom tento datový tok přímo zavolat z nového datového toku Služby Fabric Data Factory pomocí aktivity Spustit datový tok a odkazovat na datový tok vzdálené továrny.
Následující scénáře jsou běžné scénáře migrace, se kterými se můžete setkat při migraci z ADF do služby Fabric Data Factory.
Primární případy použití pro migrace do továrny jsou založené na modernizaci prostředí ETL z modelu PaaS továrny ADF na nový model SaaS infrastruktury. Primární položky továrny, které se mají migrovat, jsou pipeliny a toky dat. Existuje několik základních prvků továrny, které potřebujete naplánovat pro migraci kromě těchto dvou hlavních položek: propojené služby, Integration Runtime, datové sady a triggery.
Následující obrázek ukazuje stránku konfigurace datové sady ADF s jeho cestou k souboru a nastavením komprese:
Následující obrázek znázorňuje konfiguraci aktivity kopírování pro službu Data Factory v systému Fabric, kde jsou v aktivitě přímo komprese a cesta k souboru.
CDC & Airflow v ADF jsou funkce ve verzi preview, zatímco SSIS v ADF je obecně dostupná funkce po mnoho let. Každá z těchto funkcí obsluhuje různé potřeby integrace dat, ale při migraci z ADF do Fabric je třeba věnovat zvláštní pozornost. Change Data Capture (CDC) je koncept ADF nejvyšší úrovně, ale ve Fabric vidíte tuto funkci jako úlohu kopírování.
Airflow je funkce Apache Airflow spravovaná v cloudu ADF a je také dostupná ve službě Fabric Data Factory. Měli byste být schopni použít stejné zdrojové úložiště Airflow nebo vzít vaše DAGy a zkopírovat/vložit kód do nabídky Fabric Airflow s minimálními až žádnými změnami.
Je běžné, i když to není nutné, že vaše továrny ADF nebo Synapse a pracovní prostory jsou připojené k vašemu vlastnímu externímu poskytovateli Gitu v ADO nebo GitHubu. V tomto scénáři musíte migrovat položky továrny a pracovního prostoru do pracovního prostoru Fabric a pak nastavit integraci Gitu v pracovním prostoru Fabric.
Prostředí Fabric poskytuje dva hlavní způsoby, jak umožnit CI/CD na úrovni pracovního prostoru: integraci Gitu, kdy si v ADO přinesete vlastní úložiště Git a připojíte se k němu z Fabric, a integrované kanály nasazení, kde můžete povýšit kód do vyšších prostředí, aniž byste museli přinést vlastní Git.
V obou případech váš stávající Git repo z ADF nefunguje s Fabric. Místo toho musíte nasměrovat na nové úložiště nebo spustit nový nasazovací kanál ve Fabric a znovu sestavit své artefakty kanálu ve Fabric.
Dříve jsme mluvili o použití aktivity Vyvolání Pipeline Fabric Data Factory jako mechanismu pro udržování stávajících investic do ADF pipeline a jejich volání přímo z Fabricu. V rámci platformy Fabric můžete tento koncept rozvinout ještě dál a připojit celou továrnu ve vašem pracovním prostoru Fabric jako nativní položku.
Další informace o narůstajících scénářích použití najdete v tématu Scénáře spolupráce a doručování obsahu.
Připojení služby Azure Data Factory v pracovním prostoru Fabric přináší mnoho výhod, které je potřeba vzít v úvahu. Pokud s Fabric začínáte a chcete, aby vaše továrny zůstaly vedle sebe v jednotném zobrazení, můžete je integrovat do Fabric, abyste mohli spravovat obojí uvnitř Fabric. Kompletní uživatelské rozhraní ADF je teď pro vás dostupné ve vaší připojené továrně, kde můžete plně monitorovat, spravovat a upravovat položky vaší továrny ADF přímo z pracovního prostoru Fabric. Tato funkce výrazně usnadňuje zahájení migrace těchto položek do systému Fabric jako nativních artefaktů Fabric. Tato funkce je primárně určená pro snadné použití a usnadňuje zobrazení továren ADF v pracovním prostoru Fabric. Skutečné spuštění kanálů, aktivit, prostředí Integration Runtime atd. probíhá ve vašich prostředcích Azure.
Úvahy o migraci z ADF do služby Data Factory na platformě Fabric
Události
Staňte se certifikovaným Datoví technici fabric
14. 1. 23 - 31. 3. 23
Zkontrolujte, jestli máte nárok na nabídku slev na zkoušku, a zaregistrujte se na bezplatné živé relace a připravte se na zkoušku DP-700.
Další informaceŠkolení
Modul
Použití kanálů služby Data Factory v Microsoft Fabric - Training
Použití kanálů služby Data Factory v Microsoft Fabric
Certifikace
Microsoft Certified: Fabric Data Engineer Associate - Certifications
As a fabric data engineer, you should have subject matter expertise with data loading patterns, data architectures, and orchestration processes.