Megosztás a következőn keresztül:


Az Azure Data Factoryből való migrálás megtervezése

A Microsoft Fabric a Microsoft adatelemzési SaaS-terméke, amely egyetlen felhasználói felületen egyesíti a Microsoft piacvezető elemzési termékeit. A Fabric Data Factory az Azure Data Factoryben (ADF) található hasonló képességekkel nagy léptékű munkafolyamat-vezénylést, adatáthelyezést, adatreplikációt és adatátalakítást biztosít. Ha meglévő ADF-befektetései vannak, amelyeket modernizálni szeretne a Fabric Data Factoryben, ez a dokumentum hasznos lehet a migrálási szempontok, stratégiák és megközelítések megértéséhez.

Az Azure PaaS ETL/DI-szolgáltatásokból való migrálás az ADF & Synapse-folyamatok és adatfolyamok számos fontos előnyt biztosíthatnak:

  • Az új integrált folyamatfunkciók, beleértve az e-maileket és a Teams-tevékenységeket, lehetővé teszik az üzenetek egyszerű átirányítását a folyamat végrehajtása során.
  • A beépített folyamatos integrációs és kézbesítési (CI/CD) funkciók (üzembehelyezési folyamatok) nem igényelnek külső integrációt a Git-adattárakkal.
  • A OneLake data lake munkaterület-integrációja lehetővé teszi az egyablakos egyszerű elemzések kezelését.
  • A szemantikai adatmodellek frissítése egyszerűen elvégezhető a Fabricben egy teljesen integrált folyamattevékenységgel.

A Microsoft Fabric egy integrált platform az önkiszolgáló és az informatikai felügyeletű vállalati adatokhoz is. Az adatmennyiségek exponenciális növekedésével és összetettségével a Fabric-ügyfelek nagyvállalati megoldásokat igényelnek, amelyek méretezhetők, biztonságosak, könnyen kezelhetők és elérhetők a legnagyobb szervezetek összes felhasználója számára.

Az elmúlt években a Microsoft jelentős erőfeszítéseket tett annak érdekében, hogy skálázható felhőbeli képességeket biztosítson a Premium számára. Ennek érdekében a Data Factory in Fabric azonnal lehetővé teszi az adatintegrációs fejlesztők és adatintegrációs megoldások széles körű ökoszisztémáját, amelyek évtizedeken át épültek, hogy a funkciók és képességek teljes készletét alkalmazzák, amelyek messze túlmutatnak az előző generációkban elérhető hasonló funkciókon.

Az ügyfelek természetesen azt kérdezik, hogy van-e lehetőség konszolidálni az adatintegrációs megoldásaikat a Fabricben. Gyakori kérdések a következők:

  • Működik az összes funkció, amelyre a Fabric folyamatokban támaszkodunk?
  • Milyen képességek érhetők el csak a Fabric-csővezetékekben?
  • Hogyan migrálhatjuk a meglévő csővezetékeket Fabric-csővezetékekbe?
  • Mi a Microsoft vállalati adatbetöltésre vonatkozó ütemterve?

Platformeltérés

Ha egy teljes ADF-példányt migrál, számos fontos különbséget kell figyelembe venni az ADF és a Data Factory között a Fabricben, ami a Fabricbe való migrálás során válik fontossá. Ebben a szakaszban számos fontos különbséget ismertetünk.

Az Azure Data Factory és a Fabric Data Factory közötti funkciók közötti különbségek funkcionális leképezésének részletesebb megismeréséhez tekintse meg A Data Factory összehasonlítása a Fabricben és az Azure Data Factorycímű cikkben.

Integrációs futtatókörnyezetek

Az ADF-ben az integrációs futtatókörnyezetek (IRS-ek) olyan konfigurációs objektumok, amelyek az ADF által az adatfeldolgozás elvégzéséhez használt számítást jelölik. Ezek a konfigurációs tulajdonságok közé tartozik az Azure-régió a felhőalapú számítási és adatfolyam-Spark-számítási méretekhez. Más integrációs modultípusok közé tartoznak a helyszíni adatkapcsolatok saját üzemeltetésű IRS-jei (SHIR-jei), az SQL Server Integration Services-csomagok futtatására szolgáló SSIS IRs-ek és a Vnet-kompatibilis felhőalapú IRS-ek.

Képernyőkép az Integrációs futtatókörnyezetek lapról az Azure Data Factoryben.

A Microsoft Fabric egy szolgáltatott szoftver (SaaS) termék, míg az ADF egy szolgáltatásként nyújtott platform (PaaS) termék. Ez a különbség az integrációs futtatókörnyezetek szempontjából azt jelenti, hogy nem kell semmit konfigurálnia a Fabricben futó folyamatok vagy adatfolyamok használatához, mivel az alapértelmezett érték a felhőalapú számítás használata abban a régióban, ahol a Fabric-kapacitások találhatók. Az SSIS-IR-ek nem léteznek a Fabricben, és a helyszíni adatkapcsolatok esetében a helyszíni Adatátjáró (OPDG) néven ismert hálóspecifikus összetevőt használja. Virtuális hálózatalapú kapcsolatok biztosított hálózatokhoz történő kialakításához az Azure Fabric Virtual Network Data Gateway-t használja.

Az ADF-ről a Fabricre való migráláskor nem kell migrálnia a nyilvános hálózati Azure-beli (felhőbeli) IRS-eket. Újra létre kell hoznia a SHIR-eket OPDG-kként, és a virtuális hálózat által engedélyezett Azure IRS-eket virtuális hálózati adatátjárókként.

Képernyőkép a Kapcsolatok és átjárók kezelése lehetőségről a Hálógazdák lapon.

Csővezetékek

A csővezetékek az ADF alapvető összetevői, amelyeket az ADF-folyamatok elsődleges munkafolyamatához és orkesztrációjához használnak az adatáthelyezéshez, az adatátalakításhoz és a folyamatok orkesztrációjához. A Fabric Data Factory folyamatai szinte azonosak az ADF-sel, de olyan további összetevőkkel, amelyek megfelelnek a Power BI-alapú SaaS-modellnek. Ez a hasonlóság magában foglalja az e-mailek, a Teams és a Szemantikai modell frissítéseinek natív tevékenységeit.

A Fabric Data Factory folyamatainak JSON-definíciója kissé eltér az ADF-től, mivel a két termék közötti alkalmazásmodell különbségei vannak. A különbség miatt a folyamat JSON-jának másolása/beillesztése, az importálási/exportálási folyamatok, illetve az ADF Git-adattárra való rámutatás nem lehetséges.

Az ADF-folyamatok Fabric-folyamatokként való újraépítése során lényegében ugyanazokat a munkafolyamat-modelleket és készségeket használja, mint az ADF-ben. Az elsődleges szempont a Társított szolgáltatások és adatkészletek, amelyek olyan fogalmak az ADF-ben, amelyek nem léteznek a Fabricben.

Társított szolgáltatások

Az ADF-ben a társított szolgáltatások határozzák meg az adattárakhoz való csatlakozáshoz szükséges kapcsolati tulajdonságokat az adatáthelyezési, adatátalakítási és adatfeldolgozási tevékenységekhez. A Fabricben újra létre kell hoznia ezeket a definíciókat kapcsolatokként, amelyek a tevékenységek, például a másolás és adatfolyamok tulajdonságai.

Adatkészletek

Az adatkészletek definiálják az adatok alakját, helyét és tartalmát az ADF-ben, de nem léteznek entitásként a Fabricben. Ha olyan adattulajdonságokat szeretne definiálni, mint például az adattípusok, oszlopok, mappák, táblák stb. a Fabric Data Factory-folyamatokban, ezeket a jellemzőket a folyamattevékenységeken belül és a Kapcsolat objektumon belül kell meghatároznia, amely korábban a Társított szolgáltatás szakaszban hivatkozott.

Adatfolyamok

A Data Factory for Fabricben a "dataflows" kifejezés a kód nélküli adatátalakítási tevékenységekre utal, míg az ADF-ben ugyanez a funkció "data flows" néven ismert. A Fabric Data Factory-adatfolyamok egy Power Queryre épülő felhasználói felülettel rendelkeznek, amelyet az ADF Power Query-tevékenység használ. A Fabricben az adatfolyamok végrehajtásához használt számítás egy natív végrehajtási motor, amely az új Fabric Data Warehouse számítási motorral nagy léptékű adatátalakításhoz skálázható fel.

Az ADF-ben az adatfolyamok a Synapse Spark-infrastruktúrára épülnek, és egy olyan építési felhasználói felülettel vannak definiálva, amely egy mögöttes tartományspecifikus nyelvet (DSL) használ, más néven adatfolyam-szkriptet. Ez a definíciónyelv jelentősen eltér a Power Query-alapú adatfolyamoktól a Fabricben, amelyek M néven ismert definíciós nyelvet használnak a viselkedésük meghatározásához. A felhasználói felületek, a nyelvek és a végrehajtási motorok közötti különbségek miatt a Fabric adatfolyamok és az ADF adatfolyamai nem kompatibilisek, és újra létre kell hoznia az ADF-adatfolyamokat, Fabric adatfolyamként a megoldások Fabricre való frissítésekor.

Eseményindítók

Az eseményindítók jelzést adnak az ADF-nek egy folyamatvonal végrehajtásához a falióra időütemezése, a guruló ablakszeletek, a fájlalapú események vagy az egyéni események alapján. Ezek a funkciók hasonlóak a Fabricben, bár az alapul szolgáló implementáció eltérő.

A Fabricben eseményindítók csak folyamatkoncepcióként léteznek. A Fabricben a folyamat által aktivált nagyobb keretrendszert Data Activatornéven ismerjük, amely a Fabric valós idejűintelligencia-funkcióinak esemény- és riasztási alrendszere.

Képernyőkép az Azure Data Factory Eseményindítók lapjáról.

A Fabric Data Activator riasztásokkal rendelkezik, amelyek fájlesemények és egyedi eseményindítók létrehozásához használhatók. Míg az ütemezési eseményindítók egy különálló entitás a Fabricban, úgy ismertek, mint ütemezések. Ezek az ütemezések platformszinten vannak a Fabricben, és nem a folyamatokra vonatkoznak. Fabricben ezeket sem nevezik triggerekként.

ADF-ből Fabricbe történő migrálás esetén fontolja meg, hogy az ütemezési eseményindítókat úgy alakítja át, hogy azok a Fabric-folyamatok ütemezésének részeként működjenek. Az összes többi eseményindító-típus esetében használja a Fabric-folyamat Eseményindítók gombját, vagy használja natív módon a Data Activatort a Fabricben.

Képernyőkép az Eseményindító hozzáadása gombról a Data Factory in Fabric folyamatszerkesztőjében.

Hibakeresés

A folyamatláncok hibakeresése egyszerűbb a Fabricben, mint az ADF-ben. Ennek az egyszerűségnek az az oka, hogy a Fabric Data Factory-folyamatok nem rendelkeznek különálló hibakeresési mód koncepcióval, amelyet az ADF-folyamatokban és adatfolyamokban talál. Ehelyett, amikor a pipeline-t hozza létre, mindig interaktív módban van. A folyamatok teszteléséhez és hibakereséséhez csak akkor kell kiválasztania a lejátszás gombot a Folyamatszerkesztő eszköztárából, ha készen áll a fejlesztési ciklusra. A Fabric folyamatai nem tartalmazzák a hibakeresést, amíg el nem érkezik az interaktív hibakeresési lépésmintázatokig (példa-ig). Ehelyett a Fabricben a tevékenység állapotát használja, és csak azokat a tevékenységeket állítja be aktívként, amelyeket aktívként szeretne tesztelni, miközben az összes többi tevékenységet inaktívra állítja, hogy ugyanazokat a tesztelési és hibakeresési mintákat érje el. Tekintse meg az alábbi videót, amely bemutatja, hogyan érheti el ezt a hibakeresési élményt a Fabricben.

Adatrögzítés módosítása

Az ADF-ben a Change Data Capture (CDC) egy előzetes verziójú funkció, amely megkönnyíti az adatok gyors, növekményes áthelyezését az adattárak forrásoldali CDC-funkcióinak alkalmazásával. A CDC-összetevők Fabric Data Factorybe való migrálásához ezeket az összetevőket újra létre kell hoznia másolási feladatként elemeket a Fabric-munkaterületen. Ez a funkció hasonló képességeket biztosít a növekményes adatáthelyezéshez egy könnyen használható felhasználói felületen anélkül, hogy folyamatra lenne szükség, akárcsak az ADF CDC-ben. További információért lásd a Másolási feladat hivatkozást a Fabricban lévő Data Factory esetében.

Bár az ADF-ben nem érhető el, a Synapse-folyamat felhasználói gyakran használják az Azure Synapse Linket az SQL-adatbázisok adatainak a data lake-be való replikálásához kulcsrakész megközelítésben. Az Azure Synapse Link-összetevőket tükrözési elemekként újra létrehozza a munkaterületén a Fabricben. További információt a Fabric adatbázis-tükrözésicímű témakörben talál.

SQL Server Integration Services (SSIS)

Az SSIS egy helyszíni adatintegrációs és ETL-eszköz, amelyet a Microsoft az SQL Serverrel szállít. Az ADF-ben az SSIS-csomagokat az ADF SSIS IR használatával emelheti át a felhőbe. A Fabricben nem rendelkezünk az IRs fogalmával, így ez a funkció ma nem lehetséges. Dolgozunk azonban azon, hogy natív módon engedélyezzük az SSIS-csomagok végrehajtását a Fabricből, amelyet reméljük, hogy hamarosan elérhetővé teszünk a termékhez. Addig is az SSIS-csomagok a Felhőben a Fabric Data Factoryvel való végrehajtásának legjobb módja az, ha elindít egy SSIS integrációs modult az ADF-gyárban, majd meghív egy ADF-folyamatot az SSIS-csomagok meghívásához. Az ADF-folyamatokat távolról is meghívhatja a Fabric-folyamatokból a következő szakaszban ismertetett meghívásos folyamattevékenység használatával.

Folyamatlánc tevékenység meghívása

Az ADF-folyamatokban gyakran használt tevékenység a Folyamattevékenység végrehajtása, amely lehetővé teszi egy másik folyamat meghívását a gyárban. A Fabricben ezt a tevékenységet továbbfejlesztettük, mint a Meghívási folyamat tevékenysége. Tekintse meg a Folyamattevékenység meghívása dokumentációját.

Ez a tevékenység olyan migrálási forgatókönyvekben hasznos, amelyekben sok ADF-folyamat használja az ADF-specifikus funkciókat, például az adatfolyamok leképezését vagy az SSIS-t. Ezeket a folyamatokat as-is az ADF-ben vagy akár a Synapse-folyamatokban is karbantarthatja, majd meghívhatja a folyamatot az új Fabric Data Factory-folyamatból a Folyamat meghívása tevékenység használatával, és a távoli gyárfolyamatra mutatva.

Migrálási példaforgatókönyvek

Az alábbi forgatókönyvek gyakori migrálási forgatókönyvek, amelyekkel az ADF-ből a Fabric Data Factorybe való migrálás során találkozhat.

1. forgatókönyv: ADF-folyamatok és adatfolyamok

A gyári migrálások elsődleges használati esetei az ETL-környezet modernizálásán alapulnak az ADF gyári PaaS-modellről az új Fabric SaaS-modellre. Migrálni kívánt elsődleges gyártási elemek a csővezetékek és az adatfolyamok. A két legfelső szintű elemen kívül számos alapvető gyári elemnek kell megterveznie a migrálást: társított szolgáltatások, integrációs futtatókörnyezetek, adathalmazok és triggerek.

  • A társított szolgáltatásokat újra létre kell hozni a Fabricban a pipeline tevékenységek kapcsolataiként.
  • Az adatkészletek nem léteznek a Factoryben. Az adathalmazok tulajdonságai olyan tulajdonságokként jelennek meg a folyamattevékenységekben, mint a Másolás vagy a Keresés, míg a kapcsolatok más adathalmaz-tulajdonságokat tartalmaznak.
  • Az integrációs futtatókörnyezetek nem léteznek a Fabricben. A saját üzemeltetésű IR-ek azonban újraalkothatók az On-premises Data Gateways (OPDG) használatával a Fabricben, valamint az Azure-beli virtuális hálózati IR-ek felügyelt virtuális hálózati átjárókként való használatával a Fabricben.
  • Ezek az ADF-folyamattevékenységek nem szerepelnek a Fabric Data Factoryben:
    • Data Lake Analytics (U-SQL) – Ez a szolgáltatás elavult Azure-szolgáltatás.
    • Érvényesítési tevékenység – Az ADF érvényesítési tevékenysége egy segédtevékenység, amelyet egyszerűen újraépíthet a Fabric-folyamatokban metaadatok lekérése, folyamathurok és Ha tevékenység használatával.
    • Power Query – Az In Fabricben az összes adatfolyam a Power Query felhasználói felületén épül fel, így egyszerűen másolhatja és beillesztheti az M-kódot az ADF Power Query-tevékenységeiből, és adatfolyamként hozhatja létre őket a Fabricben.
  • Ha a Fabric Data Factoryben nem található ADF-folyamatok bármelyikét használja, a Fabric folyamatmeghívási tevékenységével hívja meg a meglévő folyamatokat az ADF-ben.
  • A következő ADF-folyamattevékenységek egyetlen célú tevékenységgé vannak kombinálva:
    • Azure Databricks-tevékenységek (Notebook, Jar, Python)
    • Azure HDInsight (Hive, Pig, MapReduce, Spark, Streaming)

Az alábbi képen az ADF-adatkészlet konfigurációs lapja látható a fájl elérési útjával és a tömörítési beállításokkal:

Képernyőkép az ADF-adathalmaz konfigurációs oldalával.

Az alábbi képen a Fabricben lévő Data Factory másolási tevékenységének konfigurációja látható, ahol a tömörítés és a fájl elérési útja a tevékenységben közvetlenül meg van adva.

Képernyőkép a Data Factory in Fabric Copy tevékenységtömörítési konfigurációjáról.

2. forgatókönyv: ADF CDC,SSIS és Airflow használatával

A CDC & Airflow az ADF-ben előzetes verziójú funkciók, míg az ADF-ben az SSIS hosszú évek óta általánosan elérhető szolgáltatás. Ezek a funkciók különböző adatintegrációs igényeket szolgálnak ki, de különös figyelmet igényelnek az ADF-ből a Fabricbe való migráláskor. A Change Data Capture (CDC) egy legfelső szintű ADF-fogalom, de a Fabricben ez a képesség Másolási feladat.

Az Airflow az ADF felhőben felügyelt Apache Airflow szolgáltatása, és a Fabric Data Factoryben is elérhető. Használhatja ugyanazt az Airflow-forrásadattárat, vagy használhatja a DAG-ket, és átmásolhatja/beillesztheti a kódot a Fabric Airflow ajánlatba, és nem szükséges módosítást végeznie.

3. forgatókönyv: Git-kompatibilis Data Factory migrálása a Fabricbe

Gyakori, bár nem kötelező, hogy az ADF- vagy Synapse-gyárak és -munkaterületek a saját külső Git-szolgáltatójához csatlakoznak az ADO-ban vagy a GitHubon. Ebben a forgatókönyvben át kell telepítenie a gyári és munkaterületi elemeket egy Fabric-munkaterületre, majd be kell állítania a Git-integrációt a Fabric-munkaterületen.

A Fabric két elsődleges módszert kínál a CI/CD engedélyezésére, mindkettő a munkaterület szintjén: a Git-integráció, ahol saját Git-adattárat hoz létre az ADO-ban, és a Fabricből és a beépített üzembehelyezési folyamatokból csatlakozik hozzá, ahol előléptetheti a kódot a magasabb környezetekbe anélkül, hogy saját Gitet kellene létrehoznia.

Mindkét esetben az ADF-ből származó meglévő Git-adattár nem működik a Fabrictel. Ehelyett egy új adattárra kell mutatnia, vagy el kell indítania egy új üzembehelyezési folyamatot a Fabricben, és újra kell építenie a folyamat összetevőit a Fabricben.

Meglévő ADF-példányok csatlakoztatása közvetlenül egy Fabric-munkaterülethez

Korábban arról beszéltünk, hogy a Fabric Data Factory Invoke Pipeline tevékenységet használjuk mechanizmusként a meglévő ADF adatfolyamok befektetéseinek fenntartására és azok közvetlen meghívására a Fabricből. A Fabricen belül ezt a hasonló koncepciót egy lépéssel tovább viheti, és a teljes gyárat a Fabric-munkaterület részeként, natív Fabric elemként integrálhatja.

A használati forgatókönyvek bemutatásához kapcsolódó további információkért lásd a tartalmi együttműködés és kézbesítés forgatókönyveit .

Az Azure Data Factory a Fabric-munkaterületen való csatlakoztatása számos előnyt kínál. Ha még nem ismerkedett a Fabric szolgáltatással, és szeretné, hogy a gyárak egymás mellett, ugyanabban az üvegpanelen belül maradjanak, csatlakoztathatja őket a Fabricbe, hogy a Fabricen belül is felügyelhesse őket. A teljes ADF felhasználói felület mostantól elérhető a csatlakoztatott gyárból, ahol teljes mértékben figyelheti, kezelheti és szerkesztheti az ADF-gyár elemeit a Fabric-munkaterületen. Ez a funkció sokkal egyszerűbbé teszi az elemek migrálását a Fabricbe natív hálóösszetevőkként. Ez a funkció elsősorban a könnyű használat érdekében használható, és megkönnyíti az ADF-gyárak megtekintését a Fabric-munkaterületen. A folyamatok, tevékenységek, integrációs futtatókörnyezetek stb. tényleges végrehajtása azonban továbbra is az Azure-erőforrásokon belül történik.

Migrálási szempontok az ADF-ből a Data Factorybe a Fabricban