A Microsoft Fabric döntési útmutatója: másolási tevékenység, adatfolyam vagy Spark

Ezzel a referencia-útmutatóval és a példaforgatókönyvekkel eldöntheti, hogy szüksége van-e másolási tevékenységre, adatfolyamra vagy Sparkra a Microsoft Fabric számítási feladataihoz.

Copy tevékenység, adatfolyam és Spark-tulajdonságok

Folyamatmásolási tevékenység 2. generációs adatfolyam Spark
Használati eset Data lake és adattárház migrálása,
adatbetöltés,
egyszerűsített átalakítás
Adatbetöltés,
adatátalakítás,
adatkonvergálás,
adatprofilozás
Adatbetöltés,
adatátalakítás,
adatfeldolgozás,
adatprofilozás
Elsődleges fejlesztői személy Adatmérnök,
adat integrátor
Adatmérnök,
adat integrátor,
üzleti elemző
Adatmérnök,
adatelemző,
adatfejlesztő
Elsődleges fejlesztői képességkészlet ETL
SQL
JSON
ETL
M
SQL
Spark (Scala, Python, Spark SQL, R)
Kód megírása Nincs kód,
alacsony kód
Nincs kód,
alacsony kód
Kód
Adatkötet Alacsony és magas között Alacsony és magas között Alacsony és magas között
Fejlesztői felület Varázsló
Vászon
Power Query Notebook
Spark-feladat definíciója
Források Több mint 30 összekötő Több mint 150 összekötő Spark-kódtárak százai
Célpontok Több mint 18 összekötő Lakehouse,
Azure SQL Database,
Azure Data Explorer,
Azure Synapse-elemzés
Spark-kódtárak százai
Átalakítási összetettség Alacsony:
egyszerűsített – típuskonvertálás, oszlopleképezés, fájlok egyesítése/felosztása, hierarchiák egyesítése
Alacsonytól magasig:
Több mint 300 átalakítási függvény
Alacsonytól magasig:
natív Spark- és nyílt forráskódú kódtárak támogatása

Tekintse át az alábbi három forgatókönyvet, amelyek segítségével kiválaszthatja, hogyan használhatja az adatokat a Fabricben.

1. forgatókönyv

Leo, az adatszakértő nagy mennyiségű adatot kell befognia külső rendszerekből, a helyszíni és a felhőből is. Ezek a külső rendszerek közé tartoznak az adatbázisok, a fájlrendszerek és az API-k. Leo nem szeretne kódot írni és karbantartani az egyes összekötőkhöz vagy adatáthelyezési műveletekhez. Szeretné követni a medál réteg ajánlott eljárásokat, bronz, ezüst és arany. Leo nem rendelkezik semmilyen tapasztalattal a Sparkkal, ezért a lehető legnagyobb mértékben előnyben részesíti a felhasználói felületet, minimális kódolással. És azt is szeretné, hogy dolgozza fel az adatokat egy ütemterv szerint.

Az első lépés a nyers adatok beolvasása a bronz rétegbeli tóba az Azure-beli adatforrásokból és különböző külső forrásokból (például Snowflake Web, REST, AWS S3, GCS stb.). Konszolidált tóházat szeretne, hogy a különböző LOB-ból, helyszíni és felhőforrásokból származó összes adat egyetlen helyen legyen. Leo áttekinti a beállításokat, és kiválasztja a folyamat másolási tevékenységét a nyers bináris másolata számára megfelelő választásként. Ez a minta az előzmény- és növekményes adatfrissítésre is vonatkozik. A másolási tevékenységgel Leo kód nélkül töltheti be a Gold-adatokat egy adattárházba, ha szükség van rá, és a folyamatok nagy léptékű adatbetöltést biztosítanak, amely képes áthelyezni a petabájtszintű adatokat. Copy tevékenység a legjobb alacsony kódszámú és kód nélküli választás, amely petabájtnyi adatot helyez át a tóházakba és raktárakba különböző forrásokból, akár alkalmi, akár ütemezés szerint.

2. forgatókönyv

Mary adatmérnök, aki mély ismeretekkel rendelkezik a több LOB elemzési jelentési követelményről. Egy felsőbb rétegbeli csapat sikeresen implementált egy megoldást, amely több LOB előzmény- és növekményes adatát migrálja egy közös tóházba. Mary feladata az adatok megtisztítása, üzleti logikák alkalmazása és több célhelyre (például Azure SQL DB, ADX és egy tóház) való betöltése a megfelelő jelentéskészítő csapatok előkészítése során.

Mary tapasztalt Power Query-felhasználó, és az adatmennyiség alacsony és közepes tartományban van a kívánt teljesítmény eléréséhez. Az adatfolyamok kód nélküli vagy alacsony kódszámú interfészeket biztosítanak több száz adatforrásból származó adatok betöltéséhez. Az adatfolyamokkal több mint 300 adatátalakítási lehetőséggel alakíthatja át az adatokat, és az eredményeket több célhelyre is beírhatja egy könnyen használható, magas vizuális felhasználói felülettel. Mary áttekinti a lehetőségeket, és úgy dönt, hogy érdemes a Dataflow Gen 2-t használni előnyben részesített átalakítási lehetőségként.

Forgatókönyv3

Adam egy adatszakértő, aki egy nagy kiskereskedelmi vállalatnál dolgozik, amely egy lakehouse-t használ az ügyféladatok tárolására és elemzésére. A munkája részeként Adam felelős az adatok kinyerését, átalakítását és betöltését végző adatfolyamok kiépítéséért és karbantartásáért a lakehouse-ba. A vállalat egyik üzleti követelménye, hogy ügyfél-felülvizsgálati elemzéseket végezzen, hogy betekintést nyerjen az ügyfelek tapasztalataiba, és javítsa szolgáltatásaikat.

Adam úgy dönt, hogy a legjobb megoldás az, ha a Spark használatával hozza létre a kinyerés és az átalakítási logikát. A Spark egy elosztott számítástechnikai platformot biztosít, amely nagy mennyiségű adatot képes párhuzamosan feldolgozni. Spark-alkalmazást ír Python vagy Scala használatával, amely strukturált, részben strukturált és strukturálatlan adatokat olvas be a OneLake-ből az ügyfelek véleményei és visszajelzései alapján. Az alkalmazás megtisztítja, átalakítja és adatokat ír a Lakehouse Delta-tábláiba. Az adatok ezután készen állnak az alsóbb rétegbeli elemzésekhez való használatra.