Zdieľať cez


Plánovanie migrácie zo služby Azure Data Factory

Microsoft Fabric je produktom SaaS na analýzu údajov od spoločnosti Microsoft, ktorý spája všetky produkty spoločnosti Microsoft na trh s poprednými analytickými produktmi spoločnosti Microsoft do prostredia jedného používateľa. Fabric Data Factory poskytuje zoradenie pracovných postupov, premiestnenie údajov, replikáciu údajov a transformáciu údajov v rozsahu s podobnými možnosťami, ktoré sa nachádzajú v Azure Data Factory (ADF). Ak máte existujúce investície do služby ADF, ktoré by ste chceli modernizovať v službe Fabric Data Factory, tento dokument je užitočný na pochopenie informácií o migrácii, stratégiách a prístupoch.

Migrácia z kanálov Azure PaaS ETL/DI služby ADF & kanálov Synapse a tokov údajov môže poskytnúť niekoľko dôležitých výhod:

  • Nové funkcie integrovaného kanála vrátane e-mailov a aktivít služby Teams umožňujú jednoduché smerovanie správ počas spúšťania kanála.
  • Vstavané funkcie priebežnej integrácie a doručovania (CI/CD) (kanály nasadenia) nevyžadujú externú integráciu s odkladacími priestormi systému Git.
  • Integrácia pracovného priestoru s dátovým jazerom OneLake umožňuje jednoduchú správu analýz s jednou tablou.
  • Obnovenie sémantických dátových modelov je v službe Fabric jednoduché pomocou plne integrovanej aktivity kanála.

Microsoft Fabric je integrovaná platforma pre podnikové údaje, ktoré sa spravujú samoobslužne aj IT. S exponenciálnym rastom objemu údajov a zložitosťou zákazníci služby Fabric požadujú podnikové riešenia, ktoré škálujú, sú bezpečné, ľahko sa spravujú a sú prístupné pre všetkých používateľov v najväčších organizáciách.

V posledných rokoch spoločnosť Microsoft investovala významné úsilie na poskytovanie škálovateľných cloudových možností do služby Premium. Na tento účel služba Data Factory v službe Fabric okamžite poskytne veľký ekosystém vývojárov na integráciu údajov a riešenia integrácie údajov, ktoré boli vytvorené v priebehu desaťročí, aby mohli používať celý súbor funkcií a možností, ktoré presahujú porovnateľné funkcie dostupné v predchádzajúcich generáciách.

Samozrejme, že zákazníci sa pýtajú, či existuje možnosť zlúčiť ich riešenia integrácie údajov v rámci služby Fabric. Medzi bežné otázky patria:

  • Záleží od všetkých funkcií v kanáloch služby Fabric?
  • Aké možnosti sú k dispozícii len v kanáloch služby Fabric?
  • Ako migrujeme existujúce kanály do kanálov tkaniny?
  • Aký je plán spoločnosti Microsoft pre príjem podnikových údajov?

Rozdiely medzi platformami

Pri migrácii celej inštancie ADF je potrebné zvážiť mnoho dôležitých rozdielov medzi ADF a službou Data Factory v službe Fabric, čo sa stáva dôležitým pri migrácii do služby Fabric. V tejto časti sa zaoberáme niekoľkými dôležitými rozdielmi.

Podrobnejšie informácie o funkčnom mapovaní rozdielov medzi funkciami Azure Data Factory a Fabric Data Factory nájdete v téme Porovnanie služby Data Factory v službe Fabric a služby Azure Data Factory.

Integračné moduly runtime

V ADF sú integračné moduly runtime (IRs) konfiguračnými objektmi predstavujúcimi výpočet, ktorý používa ADF na dokončenie spracovania údajov. Tieto vlastnosti konfigurácie zahŕňajú oblasť Azure pre cloudové výpočty a veľkosti výpočtov v službe Spark. Iné typy IR zahŕňajú žiadosti IRs (SHIRs) týkajúce sa lokálneho pripojenia údajov, žiadosti SSIS IR na spúšťanie balíkov SLUŽBY SQL Server Integration Services a cloudové IRs povolené Vnet.

Snímka obrazovky zobrazujúca kartu Moduly runtime integrácie v službe Azure Data Factory.

Microsoft Fabric je produkt typu softvér vo forme služby (SaaS), zatiaľ čo ADF je produkt typu platforma vo forme služby (PaaS). Toto rozlišovanie znamená, že z hľadiska modulu runtime integrácie nemusíte nakonfigurovať nič, aby ste mohli používať kanály alebo toky údajov v službe Fabric, pretože predvoleným nastavením je použitie cloudového výpočtu v oblasti, kde sa nachádzajú vaše kapacity služby Fabric. Žiadosti o prijatie zmien SSIS v službe Fabric neexistujú a v prípade lokálneho pripájania k údajom používate komponent špecifický pre službu Fabric, ktorý je známy ako lokálna brána údajov (OPDG). Pri pripojení k zabezpečeným sieťam prostredníctvom virtuálnej siete sa v službe Fabric používa brána údajov virtuálnej siete.

Pri migrácii z ADF do služby Fabric nemusíte migrovať IRs verejnej siete služby Azure (cloud). Budete musieť znovu vytvoriť svoje SHIRs ako OPDGs a virtuálnej siete povolené Azure IRs ako brány údajov virtuálnej siete.

Snímka obrazovky zobrazujúca možnosť Spravovať pripojenia a brány na stránke Správcu služby Fabric.

Potrubia

Kanály sú základnou zložkou ADF, ktorá sa používa pre primárny pracovný postup a orchestráciu procesov ADF na premiestnenie údajov, transformáciu údajov a orchestráciu procesu. Kanály v službe Fabric Data Factory sú takmer identické s ADF, ale s ďalšími komponentmi, ktoré sa zmestia do modelu SaaS založeného na kontajneri služby Power BI. Táto podobnosť zahŕňa natívne aktivity pre e-maily, služby Teams a obnovenia sémantického modelu.

Definícia JSON kanálov v službe Fabric Data Factory sa mierne líši od ADF z dôvodu rozdielov v modeli aplikácie medzi danými dvoma produktmi. Z dôvodu tohto rozdielu nie je možné kopírovať a prilepiť kanál JSON, importovať/exportovať kanály ani odkazovať na odkladací priestor Git služby ADF.

Pri prestavovaní kanálov ADF ako kanálov služby Fabric používate v podstate rovnaké modely pracovných postupov a zručnosti, ktoré ste použili v ADF. Primárne hľadisko súvisí so službami Linked Services a množinami údajov, ktoré sú konceptmi v službe ADF, ktoré v službe Fabric neexistujú.

Linked Services

V službe ADF služby Linked Services definujú vlastnosti pripojenia potrebné na pripojenie k vašim ukladaniu údajov na účely premiestňovania údajov, transformácie údajov a činností spracovania údajov. V službe Fabric musíte tieto definície znovu vytvoriť ako vlastnosti pripojení pre vaše aktivity, ako napríklad Kopírovať a Toky údajov.

Množiny údajov

Množiny údajov definujú tvar, umiestnenie a obsah vašich údajov v službe ADF, ale neexistujú ako entity v službe Fabric. Ak chcete definovať vlastnosti údajov, ako sú napríklad typy údajov, stĺpce, priečinky, tabuľky atď. v kanáloch služby Fabric Data Factory, definujte tieto vlastnosti v rámci aktivít kanála a v rámci objektu Pripojenia, na ktorý ste predtým odkazovali v časti Prepojená služba.

Toky údajov

V službe Data Factory for Fabric termín toky údajov odkazuje na aktivity transformácie údajov bez kódu, zatiaľ čo v ADF sa rovnaká funkcia označuje ako toky údajov. Toky údajov služby Fabric Data Factory majú používateľské rozhranie vytvorené na základe doplnku Power Query, ktoré sa používa pri aktivite doplnku Power Query služby ADF. Výpočet použitý na vykonanie tokov údajov v službe Fabric je natívny nástroj na spúšťanie, ktorý sa môže škálovať na rozsiahle transformácie údajov pomocou nového výpočtového nástroja skladu údajov služby Fabric.

V ADF, dáta toky sú postavené na Synapse Spark infraštruktúry a definované pomocou používateľského rozhrania výstavby, ktorý používa podkladovej domény-špecifického jazyka (DSL) známy ako skript toku údajov,. Tento jazyk definície sa výrazne líši od tokov údajov založených na doplnku Power Query v službe Fabric, ktoré používajú jazyk definície známy ako M na definovanie ich správania. Z dôvodu týchto rozdielov v používateľských rozhraniach, jazykoch a nástrojoch spúšťania nie je služba Fabric tokov údajov a ADF toky údajov kompatibilné a pri inovácii tokov údajov služby ADF , keďže služba Fabric toky údajov pri inovácii riešení na fabric.

Spúšťa

Spúšťače signalizujú technológiu ADF, ktorá spúšťa kanál na základe časového rozvrhu nástenných hodín, výsekov času bubnového okna, udalostí založených na súboroch alebo vlastných udalostí. Tieto funkcie sú v službe Fabric podobné, aj keď sa základná implementácia líši.

V službe Fabric spúšťače, existujú len ako koncept kanála. Väčší rámec, ktorý kanál spustí použitie v službe Fabric, je známy ako Data Activator, čo je subsystém udalosti a upozorňujúci subsystém funkcií inteligencie v reálnom čase v službe Fabric.

Snímka obrazovky zobrazujúca stránku Spúšťače v službe Azure Data Factory.

Fabric Data Activator má upozornenia, ktoré možno použiť na vytvorenie udalosti súboru a spúšťačov vlastných udalostí. Zatiaľ čo spúšťače plánu sú samostatnou entitou v službe Fabric známou ako plány . Tieto plány sú v službe Fabric na úrovni platformy a nie sú špecifické pre kanály. Takisto sa nepoužívajú ako spúšťače v službe Fabric.

Ak chcete migrovať spúšťače zo služby ADF do služby Fabric, zamyslite sa nad obnovou spúšťačov plánu jednoducho ako plány, ktoré sú vlastnosťami vašich kanálov tkaniny. V prípade všetkých ostatných typov spúšťačov použite tlačidlo Spúšťače v kanáli služby Fabric alebo natívne použite funkciu Data Activator v službe Fabric.

Snímka obrazovky znázorňujúca tlačidlo Pridať spúšťač v editore kanála služby Data Factory v službe Fabric.

Ladenie

Ladenie kanálov v službe Fabric je jednoduchšie ako v službe ADF. Táto jednoduchosť je spôsobená tým, že kanály služby Fabric Data Factory nemajú samostatný koncept režimu ladenia , ktorý nájdete v kanáloch ADF a tokoch údajov. Namiesto toho sa pri vytváraní kanála vždy nachádzate v interaktívnom režime. Ak chcete otestovať a ladiť kanály, stačí vybrať tlačidlo prehrať na paneli s nástrojmi Editora kanála, keď budete pripravení vo svojom cykle vývoja. Kanály v službe Fabric nezahŕňajú ladenie , kým krokový vzor interaktívneho ladenia. Namiesto toho v službe Fabric využívate stav aktivity a nastavujete iba aktivity, ktoré chcete otestovať ako aktívne, a zároveň nastavíte všetky ostatné aktivity na neaktívne, aby ste dosiahli rovnaké vzory testovania a ladenia. Pozrite si nasledujúce video, ktoré vás prevedie spôsobom, ako v službe Fabric dosiahnuť toto ladenie.

Zmena zaznamenávania údajov

Zmena Data Capture (CDC) v ADF je funkcia ukážky, ktorá umožňuje jednoduché pohybu údajov rýchlo v prírastkovým spôsobom použitím zdroja-strane CDC funkcie ukladaných údajov. Ak chcete migrovať svoje artefakty CDC do služby Fabric Data Factory, znova vytvorte tieto artefakty, úlohu kopírovať položky v pracovnom priestore služby Fabric. Táto funkcia poskytuje podobné možnosti premiestnenia prírastkových údajov s jednoducho použiteľným používateľskom rozhraním bez potreby kanála, rovnako ako v CDC v jazyku ADF. Ďalšie informácie nájdete v téme Kopírovanie pracovnej pre data factory v službe Fabric.

Hoci nie je k dispozícii v ADF, synapse kanál používatelia často používajú Azure Synapse Link replikovať údaje z databáz SQL do svojho dátového jazera v na kľúč prístup. V službe Fabric znova vytvoríte artefakty služby Azure Synapse Link ako položky zrkadlenia v pracovnom priestore. Ďalšie informácie nájdete v téme o databáze služby Fabric , ktorá odráža.

SQL Server Integration Services (SSIS)

SSIS je lokálna integrácia údajov a nástroj ETL, ktorý sa spoločnosť Microsoft dodáva s SQL Serverom. V službe ADF môžete balíky SSIS presunúť do cloudu pomocou ir ssis ADF. V službe Fabric nemáme koncept IRs, takže táto funkcia dnes nie je možná. Pracujeme však na tom, aby sme umožnili natívne vykonanie balíkov SSIS z fabricu, ktoré chceme čoskoro priviesť na produkt. Zatiaľ je najlepším spôsobom spúšťania balíkov SSIS v cloude pomocou služby Fabric Data Factory spustenie IR ssis v továrne ADF a následné vyvolanie kanála ADF na volanie balíkov SSIS. Kanál ADF môžete zo svojich kanálov služby Fabric vzdialene zavolať pomocou aktivity vyvolaného kanála, ktorá je popísaná v nasledujúcej časti.

Vyvolanie aktivity kanála

Bežnou aktivitou, ktorá sa používa v kanáloch ADF, je Vykonať aktivitu kanála ktorá vám umožňuje zavolať ďalší kanál vo svojej fabrike. V službe Fabric sme túto aktivitu rozšírili ako aktivitu kanála Vyvolať. Pozrite si dokumentáciu Vyvolať aktivitu kanála.

Táto aktivita je užitočná pre scenáre migrácie, v ktorých máte veľa kanálov ADF, ktoré používajú funkcie špecifické pre ADF, ako je napríklad Mapovanie tokov údajov alebo SSIS. Tieto kanály môžete udržiavať as-is v kanáloch ADF alebo dokonca v kanáloch Synapse. Potom vyvolajte tento kanál z nového kanála služby Fabric Data Factory pomocou aktivity kanála Vyvolať a ukážte na vzdialený kanál z továrne.

Vzorové scenáre migrácie

Nasledujúce scenáre predstavujú bežné scenáre migrácie, ktoré sa môžu vyskytnúť pri migrácii zo služby ADF do služby Fabric Data Factory.

Scenár č. 1: Kanály ADF a toky údajov

Hlavné prípady použitia pri migrácii tovární sú založené na modernizácii prostredia ETL z modelu výrobcu ADF PaaS na nový model Fabric SaaS. Medzi hlavné výrobné položky na migráciu patria kanály a toky údajov. Existuje niekoľko základných továrenských prvkov, ktoré je potrebné naplánovať migráciu mimo týchto dvoch položiek najvyššej úrovne: prepojené služby, moduly runtime integrácie, množiny údajov a spúšťače.

  • Prepojené služby je potrebné znova vytvoriť v službe Fabric ako pripojenia v aktivitách kanála.
  • Množiny údajov v factory neexistujú. Vlastnosti vašich množín údajov sú znázornené ako vlastnosti v rámci aktivít kanála, ako je napríklad Kopírovanie alebo Vyhľadávanie, zatiaľ čo pripojenia obsahujú iné vlastnosti množiny údajov.
  • V službe Fabric neexistujú moduly runtime integrácie. Vaše žiadosti o prijatie zmien hosťované vlastným hostiteľom je však možné znova vytvoriť pomocou lokálnych brán údajov (OPDG) v službe Fabric a IRs virtuálnej siete služby Azure ako spravovaných brán virtuálnej siete v službe Fabric.
  • Tieto aktivity kanála ADF nie sú zahrnuté v službe Fabric Data Factory:
    • Data Lake Analytics (U-SQL) – táto funkcia je zastaranou službou Azure.
    • Aktivita overenia – aktivita overenia v ADF je pomocná aktivita, ktorú môžete znovu vytvoriť v kanáloch služby Fabric pomocou aktivity Získať metaúdaje, slučky kanála a aktivity If.
    • Power Query – v službe Fabric sa všetky toky údajov vytvárajú pomocou používateľského rozhrania Power Query, takže stačí skopírovať a prilepiť kód jazyka M zo svojich aktivít služby Power Query v službe ADF a vytvoriť ich ako toky údajov v službe Fabric.
  • Ak používate niektorú z funkcií kanála ADF, ktoré sa v službe Fabric Data Factory nenachádzajú, použite aktivitu kanála Vyvolať v službe Fabric na volanie existujúcich kanálov v službe ADF.
  • Tieto aktivity kanála ADF sa skombinujú do jednoúčelovej aktivity:
    • Aktivity azure Databricks (notebook, Jar, Python)
    • Azure HDInsight (Hive, Pig, MapReduce, Spark, Streaming)

Nasledujúci obrázok zobrazuje stránku konfigurácie množiny údajov ADF s cestou k súboru a nastaveniami kompresie:

Snímka obrazovky zobrazujúca stránku konfigurácie množiny údajov ADF.

Nasledujúci obrázok znázorňuje konfiguráciu aktivity Kopírovať pre Službu Data Factory v službe Fabric, kde je v rámci aktivity vnorené kompresné a cesta k súboru:

Snímka obrazovky zobrazujúca konfiguráciu kompresnej konfigurácie aktivity kopírovania údajov v štruktúre.

Scenár č. 2: ADF s CDC, SSIS a prúdom vzduchu

CDC & airflow v ADF sú ukážky funkcií, zatiaľ čo SSIS v ADF je všeobecne dostupná funkcia po mnoho rokov. Každá z týchto funkcií slúži na rôzne potreby integrácie údajov, ale pri migrácii z ADF do služby Fabric si vyžaduje osobitnú pozornosť. Zmena data capture (CDC) je top-level ADF koncept, ale v službe Fabric, vidíte túto možnosť ako Copy prácu.

Airflow je cloudová funkcia apache airflow a je k dispozícii aj v Fabric Data Factory. Mali by ste mať možnosť použiť rovnaký odkladací priestor zdroja toku vzduchu alebo vziať si zdroje ÚDAJOV DAGs a skopírovať/prilepiť kód do ponuky toku vzduchu služby Fabric s malým množstvom na žiadnu zmenu.

Scenár č. 3: Migrácia služby Data Factory s podporou Git do služby Fabric

Je bežné, aj keď sa to nevyžaduje, že vaše továrne a pracovné priestory ADF alebo Synapse sú pripojené k vášmu vlastnému externému poskytovateľovi systému Git v službách ADO alebo GitHub. V tomto scenári musíte migrovať položky továrne a pracovného priestoru do pracovného priestoru služby Fabric a potom nastaviť integráciu systému Git v pracovnom priestore služby Fabric.

Služba Fabric poskytuje dva základné spôsoby, ako povoliť CI/CD, a to ako na úrovni pracovného priestoru: integráciu Git, kde si prenesiete vlastný odkladací priestor Git v službe ADO a pripojíte sa k nemu z kanálov nasadenia služby Fabric a vstavaných kanálov nasadenia, kde môžete propagovať kód do vyšších prostredí bez toho, aby ste museli prinášať vlastný systém Git.

V oboch prípadoch váš existujúci odkladací priestor Git z ADF nefunguje so službou Fabric. Namiesto toho musíte poukázať na nový odkladací priestor alebo začať nový kanál nasadenia v službe Fabric a obnoviť artefakty kanála v službe Fabric.

Priame pripojenie existujúcich inštancií ADF do pracovného priestoru služby Fabric

Predtým sme hovorili o použití aktivity kanála Fabric Data Factory Vyvolať kanál ako mechanizmus na udržanie existujúcich investícií do kanála ADF a ich vyvolanie zo služby Fabric. V rámci služby Fabric môžete tento podobný koncept použiť ešte o krok ďalej a pripojiť celú továreň do pracovného priestoru služby Fabric ako natívnu položku služby Fabric.

Ďalšie informácie o montážnych scenároch používania nájdete v scenároch spolupráce a doručovania obsahu.

Montáž služby Azure Data Factory v pracovnom priestore služby Fabric prináša mnoho výhod, ktoré je potrebné zvážiť. Ak ste novým používateľom služby Fabric a chcete, aby boli vaše továrne umiestnené vedľa seba v rovnakej table-of-glass, môžete ich pripojiť do fabricu, aby ste mohli spravovať obe vnútri fabricu. Úplné používateľské rozhranie ADF je teraz k dispozícii v pripojenej fabrike, kde môžete monitorovať, spravovať a upravovať výrobné položky služby ADF úplne z pracovného priestoru služby Fabric. Táto funkcia umožňuje oveľa jednoduchšie začať s migráciou týchto položiek do služby Fabric ako natívnych artefaktov služby Fabric. Táto funkcia slúži predovšetkým na jednoduché použitie a uľahčuje zobrazenie tovární ADF v pracovnom priestore služby Fabric. Skutočné vykonanie kanálov, aktivít, modulov runtime integrácie atď. sa však stále vyskytuje v rámci vašich zdrojov Azure.

Otázky týkajúce sa migrácie zo služby ADF do služby Data Factory v službách Fabric