A Microsoft Fabric döntési útmutatója: másolási tevékenység, adatfolyam vagy Spark
Ezzel a referencia-útmutatóval és a példaforgatókönyvekkel eldöntheti, hogy másolási tevékenységre, adatfolyamra vagy Sparkra van-e szüksége a számítási feladatokhoz a Microsoft Fabric használatával.
Fontos
A Microsoft Fabric jelenleg előzetes verzióban érhető el. Ezek az információk egy előzetes termékre vonatkoznak, amely a kiadás előtt lényegesen módosulhat. A Microsoft nem vállal kifejezett vagy vélelmezett garanciát az itt megadott információkra vonatkozóan.
Copy tevékenység, adatfolyam és Spark-tulajdonságok
Folyamatmásolási tevékenység | 2. generációs adatfolyam | Spark | |
---|---|---|---|
Használati eset | Data Lake és adattárház migrálása, adatbetöltés, könnyű átalakítás |
Adatbetöltés, adatátalakítás, adatszervezés, adatprofilozás |
Adatbetöltés, adatátalakítás, adatfeldolgozás, adatprofilozás |
Elsődleges fejlesztői személy | Adatszakértő, adat integrátor |
Adatszakértő, adat integrátor, üzleti elemző |
Adatszakértő, adatelemző, adatfejlesztő |
Elsődleges fejlesztői képességcsoport | ETL SQL JSON |
ETL M SQL |
Spark (Scala, Python, Spark SQL, R) |
Kód megírva | Nincs kód, alacsony kód |
Nincs kód, alacsony kód |
Code |
Adatmennyiség | Alacsonytól magasig | Alacsonytól magasig | Alacsonytól magasig |
Fejlesztői felület | Varázsló Vászon |
Power Query | Notebook Spark-feladat definíciója |
Források | Több mint 30 összekötő | Több mint 150 összekötő | Spark-kódtárak százai |
Célhelyek | Több mint 18 összekötő | Tótárház, Azure SQL adatbázis, Azure Data Explorer, Azure Synapse elemzés |
Spark-kódtárak százai |
Átalakítási összetettség | Alacsony: egyszerűsített – típusátalakítás, oszlopleképezés, fájlok egyesítése/felosztása, hierarchia összesimítása |
Alacsonytól magasig: Több mint 300 átalakítási függvény |
Alacsonytól magasig: natív Spark- és nyílt forráskódú kódtárak támogatása |
Tekintse át az alábbi három forgatókönyvet, amelyek segítséget nyújtanak az adatok hálóban való használatához.
1. forgatókönyv
Leo, az adatmérnökök nagy mennyiségű adatot kell betöltenek a helyszíni és a felhőbeli külső rendszerekből. Ezek a külső rendszerek adatbázisok, fájlrendszerek és API-k. Leo nem szeretne kódot írni és karbantartani az egyes összekötőkhöz vagy adatáthelyezési műveletekhez. Szeretné követni a medallion rétegek ajánlott eljárásokat, bronz, ezüst és arany. Leo nem rendelkezik semmilyen tapasztalattal a Sparkkal, ezért a lehető legnagyobb mértékben részesíti előnyben a húzási felhasználói felületet, minimális kódolással. Emellett ütemezés szerint szeretné feldolgozni az adatokat.
Az első lépés a nyers adatok beolvasása a bronz rétegbeli tóházba az Azure-beli adaterőforrásokból és különböző külső forrásokból (például Snowflake Web, REST, AWS S3, GCS stb.). Konszolidált tótárházat szeretne, hogy a különböző üzletági, helyszíni és felhőbeli forrásokból származó összes adat egyetlen helyen legyen. Leo áttekinti a lehetőségeket, és kiválasztja a folyamat másolási tevékenységét a nyers bináris másolata számára megfelelő választásként. Ez a minta az előzmény- és növekményes adatfrissítésre is vonatkozik. A másolási tevékenységgel Leo kód nélkül is betöltheti a Gold-adatokat egy adattárházba, ha szükség van rá, és a folyamatok nagy léptékű adatbetöltést biztosítanak, amely képes áthelyezni a petabájt méretű adatokat. Copy tevékenység a legjobb alacsony kódú és kód nélküli választás, amely petabájtnyi adatot helyez át a tótárházakba és raktárakba különböző forrásokból, akár alkalmi, akár ütemezés szerint.
2. forgatókönyv
Mary egy adatszakértő, aki részletes ismeretekkel rendelkezik a több üzletági elemzési jelentéskészítési követelményekről. Egy felsőbb rétegbeli csapat sikeresen implementált egy megoldást több üzletág előzmény- és növekményes adatainak egy közös tótárházba való migrálásához. Mary feladata az adatok tisztítása, üzleti logikák alkalmazása és több célhelyre való betöltése (például Azure SQL DB, ADX és egy tótárház) a megfelelő jelentéskészítő csapatok előkészítéseként.
Mary tapasztalt Power Query felhasználó, és az adatmennyiség alacsony és közepes tartományban van a kívánt teljesítmény eléréséhez. Az adatfolyamok kód nélküli vagy alacsony kódszámú interfészeket biztosítanak több száz adatforrásból származó adatok betöltéséhez. Adatfolyamokkal több mint 300 adatátalakítási lehetőséggel alakíthatja át az adatokat, és az eredményeket több célhelyre is beírhatja egy könnyen használható, magas vizuális felhasználói felülettel. Mary áttekinti a lehetőségeket, és úgy dönt, hogy érdemes a Dataflow Gen 2-t használni előnyben részesített átalakítási lehetőségként.
Forgatókönyv3
Adam adatszakértő, aki egy nagy kiskereskedelmi vállalatnál dolgozik, amely egy tótárházat használ az ügyféladatok tárolására és elemzésére. A munkája részeként Adam feladata az adatok kinyerését, átalakítását és betöltését végző adatfolyamok létrehozása és karbantartása a tótárházba. A vállalat egyik üzleti követelménye, hogy ügyfél-ellenőrzési elemzéseket végezzen, hogy betekintést nyerjen az ügyfelek tapasztalataiba és javítsa szolgáltatásaikat.
Ádám úgy dönt, hogy a legjobb megoldás a Spark használata a kinyerés és az átalakítási logika létrehozásához. A Spark egy elosztott számítási platformot biztosít, amely nagy mennyiségű adat párhuzamos feldolgozására képes. Egy Spark-alkalmazást ír Python vagy Scala használatával, amely strukturált, részben strukturált és strukturálatlan adatokat olvas be a OneLake-ból az ügyfelek véleményezése és visszajelzése céljából. Az alkalmazás megtisztítja, átalakítja és beírja az adatokat a tótárházban található Delta-táblákba. Az adatok ezután készen állnak az alsóbb rétegbeli elemzésekhez való használatra.