A Microsoft Fabric döntési útmutatója: másolási tevékenység, adatfolyam vagy Spark

Ezzel a referencia-útmutatóval és a példaforgatókönyvekkel eldöntheti, hogy másolási tevékenységre, adatfolyamra vagy Sparkra van-e szüksége a számítási feladatokhoz a Microsoft Fabric használatával.

Fontos

A Microsoft Fabric jelenleg előzetes verzióban érhető el. Ezek az információk egy előzetes termékre vonatkoznak, amely a kiadás előtt lényegesen módosulhat. A Microsoft nem vállal kifejezett vagy vélelmezett garanciát az itt megadott információkra vonatkozóan.

Copy tevékenység, adatfolyam és Spark-tulajdonságok

Folyamatmásolási tevékenység 2. generációs adatfolyam Spark
Használati eset Data Lake és adattárház migrálása,
adatbetöltés,
könnyű átalakítás
Adatbetöltés,
adatátalakítás,
adatszervezés,
adatprofilozás
Adatbetöltés,
adatátalakítás,
adatfeldolgozás,
adatprofilozás
Elsődleges fejlesztői személy Adatszakértő,
adat integrátor
Adatszakértő,
adat integrátor,
üzleti elemző
Adatszakértő,
adatelemző,
adatfejlesztő
Elsődleges fejlesztői képességcsoport ETL
SQL
JSON
ETL
M
SQL
Spark (Scala, Python, Spark SQL, R)
Kód megírva Nincs kód,
alacsony kód
Nincs kód,
alacsony kód
Code
Adatmennyiség Alacsonytól magasig Alacsonytól magasig Alacsonytól magasig
Fejlesztői felület Varázsló
Vászon
Power Query Notebook
Spark-feladat definíciója
Források Több mint 30 összekötő Több mint 150 összekötő Spark-kódtárak százai
Célhelyek Több mint 18 összekötő Tótárház,
Azure SQL adatbázis,
Azure Data Explorer,
Azure Synapse elemzés
Spark-kódtárak százai
Átalakítási összetettség Alacsony:
egyszerűsített – típusátalakítás, oszlopleképezés, fájlok egyesítése/felosztása, hierarchia összesimítása
Alacsonytól magasig:
Több mint 300 átalakítási függvény
Alacsonytól magasig:
natív Spark- és nyílt forráskódú kódtárak támogatása

Tekintse át az alábbi három forgatókönyvet, amelyek segítséget nyújtanak az adatok hálóban való használatához.

1. forgatókönyv

Leo, az adatmérnökök nagy mennyiségű adatot kell betöltenek a helyszíni és a felhőbeli külső rendszerekből. Ezek a külső rendszerek adatbázisok, fájlrendszerek és API-k. Leo nem szeretne kódot írni és karbantartani az egyes összekötőkhöz vagy adatáthelyezési műveletekhez. Szeretné követni a medallion rétegek ajánlott eljárásokat, bronz, ezüst és arany. Leo nem rendelkezik semmilyen tapasztalattal a Sparkkal, ezért a lehető legnagyobb mértékben részesíti előnyben a húzási felhasználói felületet, minimális kódolással. Emellett ütemezés szerint szeretné feldolgozni az adatokat.

Az első lépés a nyers adatok beolvasása a bronz rétegbeli tóházba az Azure-beli adaterőforrásokból és különböző külső forrásokból (például Snowflake Web, REST, AWS S3, GCS stb.). Konszolidált tótárházat szeretne, hogy a különböző üzletági, helyszíni és felhőbeli forrásokból származó összes adat egyetlen helyen legyen. Leo áttekinti a lehetőségeket, és kiválasztja a folyamat másolási tevékenységét a nyers bináris másolata számára megfelelő választásként. Ez a minta az előzmény- és növekményes adatfrissítésre is vonatkozik. A másolási tevékenységgel Leo kód nélkül is betöltheti a Gold-adatokat egy adattárházba, ha szükség van rá, és a folyamatok nagy léptékű adatbetöltést biztosítanak, amely képes áthelyezni a petabájt méretű adatokat. Copy tevékenység a legjobb alacsony kódú és kód nélküli választás, amely petabájtnyi adatot helyez át a tótárházakba és raktárakba különböző forrásokból, akár alkalmi, akár ütemezés szerint.

2. forgatókönyv

Mary egy adatszakértő, aki részletes ismeretekkel rendelkezik a több üzletági elemzési jelentéskészítési követelményekről. Egy felsőbb rétegbeli csapat sikeresen implementált egy megoldást több üzletág előzmény- és növekményes adatainak egy közös tótárházba való migrálásához. Mary feladata az adatok tisztítása, üzleti logikák alkalmazása és több célhelyre való betöltése (például Azure SQL DB, ADX és egy tótárház) a megfelelő jelentéskészítő csapatok előkészítéseként.

Mary tapasztalt Power Query felhasználó, és az adatmennyiség alacsony és közepes tartományban van a kívánt teljesítmény eléréséhez. Az adatfolyamok kód nélküli vagy alacsony kódszámú interfészeket biztosítanak több száz adatforrásból származó adatok betöltéséhez. Adatfolyamokkal több mint 300 adatátalakítási lehetőséggel alakíthatja át az adatokat, és az eredményeket több célhelyre is beírhatja egy könnyen használható, magas vizuális felhasználói felülettel. Mary áttekinti a lehetőségeket, és úgy dönt, hogy érdemes a Dataflow Gen 2-t használni előnyben részesített átalakítási lehetőségként.

Forgatókönyv3

Adam adatszakértő, aki egy nagy kiskereskedelmi vállalatnál dolgozik, amely egy tótárházat használ az ügyféladatok tárolására és elemzésére. A munkája részeként Adam feladata az adatok kinyerését, átalakítását és betöltését végző adatfolyamok létrehozása és karbantartása a tótárházba. A vállalat egyik üzleti követelménye, hogy ügyfél-ellenőrzési elemzéseket végezzen, hogy betekintést nyerjen az ügyfelek tapasztalataiba és javítsa szolgáltatásaikat.

Ádám úgy dönt, hogy a legjobb megoldás a Spark használata a kinyerés és az átalakítási logika létrehozásához. A Spark egy elosztott számítási platformot biztosít, amely nagy mennyiségű adat párhuzamos feldolgozására képes. Egy Spark-alkalmazást ír Python vagy Scala használatával, amely strukturált, részben strukturált és strukturálatlan adatokat olvas be a OneLake-ból az ügyfelek véleményezése és visszajelzése céljából. Az alkalmazás megtisztítja, átalakítja és beírja az adatokat a tótárházban található Delta-táblákba. Az adatok ezután készen állnak az alsóbb rétegbeli elemzésekhez való használatra.

Következő lépések