A Microsoft Fabric döntési útmutatója: másolási tevékenység, adatfolyam vagy Spark

Cikk
11/15/2023

Ezzel a referencia-útmutatóval és a példaforgatókönyvekkel eldöntheti, hogy szüksége van-e másolási tevékenységre, adatfolyamra vagy Sparkra a Microsoft Fabric számítási feladataihoz.

Copy tevékenység, adatfolyam és Spark-tulajdonságok

	Folyamatmásolási tevékenység	2. generációs adatfolyam	Spark
Használati eset	Data lake és adattárház migrálása, adatbetöltés, egyszerűsített átalakítás	Adatbetöltés, adatátalakítás, adatkonvergálás, adatprofilozás	Adatbetöltés, adatátalakítás, adatfeldolgozás, adatprofilozás
Elsődleges fejlesztői személy	Adatmérnök, adat integrátor	Adatmérnök, adat integrátor, üzleti elemző	Adatmérnök, adatelemző, adatfejlesztő
Elsődleges fejlesztői képességkészlet	ETL SQL JSON	ETL M SQL	Spark (Scala, Python, Spark SQL, R)
Kód megírása	Nincs kód, alacsony kód	Nincs kód, alacsony kód	Kód
Adatkötet	Alacsony és magas között	Alacsony és magas között	Alacsony és magas között
Fejlesztői felület	Varázsló Vászon	Power Query	Notebook Spark-feladat definíciója
Források	Több mint 30 összekötő	Több mint 150 összekötő	Spark-kódtárak százai
Célpontok	Több mint 18 összekötő	Lakehouse, Azure SQL Database, Azure Data Explorer, Azure Synapse-elemzés	Spark-kódtárak százai
Átalakítási összetettség	Alacsony: egyszerűsített – típuskonvertálás, oszlopleképezés, fájlok egyesítése/felosztása, hierarchiák egyesítése	Alacsonytól magasig: Több mint 300 átalakítási függvény	Alacsonytól magasig: natív Spark- és nyílt forráskódú kódtárak támogatása

Tekintse át az alábbi három forgatókönyvet, amelyek segítségével kiválaszthatja, hogyan használhatja az adatokat a Fabricben.

1. forgatókönyv

Leo, az adatszakértő nagy mennyiségű adatot kell befognia külső rendszerekből, a helyszíni és a felhőből is. Ezek a külső rendszerek közé tartoznak az adatbázisok, a fájlrendszerek és az API-k. Leo nem szeretne kódot írni és karbantartani az egyes összekötőkhöz vagy adatáthelyezési műveletekhez. Szeretné követni a medál réteg ajánlott eljárásokat, bronz, ezüst és arany. Leo nem rendelkezik semmilyen tapasztalattal a Sparkkal, ezért a lehető legnagyobb mértékben előnyben részesíti a felhasználói felületet, minimális kódolással. És azt is szeretné, hogy dolgozza fel az adatokat egy ütemterv szerint.

Az első lépés a nyers adatok beolvasása a bronz rétegbeli tóba az Azure-beli adatforrásokból és különböző külső forrásokból (például Snowflake Web, REST, AWS S3, GCS stb.). Konszolidált tóházat szeretne, hogy a különböző LOB-ból, helyszíni és felhőforrásokból származó összes adat egyetlen helyen legyen. Leo áttekinti a beállításokat, és kiválasztja a folyamat másolási tevékenységét a nyers bináris másolata számára megfelelő választásként. Ez a minta az előzmény- és növekményes adatfrissítésre is vonatkozik. A másolási tevékenységgel Leo kód nélkül töltheti be a Gold-adatokat egy adattárházba, ha szükség van rá, és a folyamatok nagy léptékű adatbetöltést biztosítanak, amely képes áthelyezni a petabájtszintű adatokat. Copy tevékenység a legjobb alacsony kódszámú és kód nélküli választás, amely petabájtnyi adatot helyez át a tóházakba és raktárakba különböző forrásokból, akár alkalmi, akár ütemezés szerint.

2. forgatókönyv

Mary adatmérnök, aki mély ismeretekkel rendelkezik a több LOB elemzési jelentési követelményről. Egy felsőbb rétegbeli csapat sikeresen implementált egy megoldást, amely több LOB előzmény- és növekményes adatát migrálja egy közös tóházba. Mary feladata az adatok megtisztítása, üzleti logikák alkalmazása és több célhelyre (például Azure SQL DB, ADX és egy tóház) való betöltése a megfelelő jelentéskészítő csapatok előkészítése során.

Mary tapasztalt Power Query-felhasználó, és az adatmennyiség alacsony és közepes tartományban van a kívánt teljesítmény eléréséhez. Az adatfolyamok kód nélküli vagy alacsony kódszámú interfészeket biztosítanak több száz adatforrásból származó adatok betöltéséhez. Az adatfolyamokkal több mint 300 adatátalakítási lehetőséggel alakíthatja át az adatokat, és az eredményeket több célhelyre is beírhatja egy könnyen használható, magas vizuális felhasználói felülettel. Mary áttekinti a lehetőségeket, és úgy dönt, hogy érdemes a Dataflow Gen 2-t használni előnyben részesített átalakítási lehetőségként.

Forgatókönyv3

Adam egy adatszakértő, aki egy nagy kiskereskedelmi vállalatnál dolgozik, amely egy lakehouse-t használ az ügyféladatok tárolására és elemzésére. A munkája részeként Adam felelős az adatok kinyerését, átalakítását és betöltését végző adatfolyamok kiépítéséért és karbantartásáért a lakehouse-ba. A vállalat egyik üzleti követelménye, hogy ügyfél-felülvizsgálati elemzéseket végezzen, hogy betekintést nyerjen az ügyfelek tapasztalataiba, és javítsa szolgáltatásaikat.

Adam úgy dönt, hogy a legjobb megoldás az, ha a Spark használatával hozza létre a kinyerés és az átalakítási logikát. A Spark egy elosztott számítástechnikai platformot biztosít, amely nagy mennyiségű adatot képes párhuzamosan feldolgozni. Spark-alkalmazást ír Python vagy Scala használatával, amely strukturált, részben strukturált és strukturálatlan adatokat olvas be a OneLake-ből az ügyfelek véleményei és visszajelzései alapján. Az alkalmazás megtisztítja, átalakítja és adatokat ír a Lakehouse Delta-tábláiba. Az adatok ezután készen állnak az alsóbb rétegbeli elemzésekhez való használatra.

A Microsoft Fabric döntési útmutatója: másolási tevékenység, adatfolyam vagy Spark

Copy tevékenység, adatfolyam és Spark-tulajdonságok

1. forgatókönyv

2. forgatókönyv

Forgatókönyv3

Visszajelzés

Visszajelzés

További források

A Microsoft Fabric döntési útmutatója: másolási tevékenység, adatfolyam vagy Spark

Copy tevékenység, adatfolyam és Spark-tulajdonságok

1. forgatókönyv

2. forgatókönyv

Forgatókönyv3

Kapcsolódó tartalom

Visszajelzés

Visszajelzés

További források