A Microsoft Fabric döntési útmutatója: másolási tevékenység, adatfolyam vagy Spark
Ezzel a referencia-útmutatóval és a példaforgatókönyvekkel eldöntheti, hogy szüksége van-e másolási tevékenységre, adatfolyamra vagy Sparkra a Microsoft Fabric számítási feladataihoz.
Copy tevékenység, adatfolyam és Spark-tulajdonságok
Folyamatmásolási tevékenység | 2. generációs adatfolyam | Spark | |
---|---|---|---|
Használati eset | Data lake és adattárház migrálása, adatbetöltés, egyszerűsített átalakítás |
Adatbetöltés, adatátalakítás, adatkonvergálás, adatprofilozás |
Adatbetöltés, adatátalakítás, adatfeldolgozás, adatprofilozás |
Elsődleges fejlesztői személy | Adatmérnök, adat integrátor |
Adatmérnök, adat integrátor, üzleti elemző |
Adatmérnök, adatelemző, adatfejlesztő |
Elsődleges fejlesztői képességkészlet | ETL SQL JSON |
ETL M SQL |
Spark (Scala, Python, Spark SQL, R) |
Kód megírása | Nincs kód, alacsony kód |
Nincs kód, alacsony kód |
Kód |
Adatkötet | Alacsony és magas között | Alacsony és magas között | Alacsony és magas között |
Fejlesztői felület | Varázsló Vászon |
Power Query | Notebook Spark-feladat definíciója |
Források | Több mint 30 összekötő | Több mint 150 összekötő | Spark-kódtárak százai |
Célpontok | Több mint 18 összekötő | Lakehouse, Azure SQL Database, Azure Data Explorer, Azure Synapse-elemzés |
Spark-kódtárak százai |
Átalakítási összetettség | Alacsony: egyszerűsített – típuskonvertálás, oszlopleképezés, fájlok egyesítése/felosztása, hierarchiák egyesítése |
Alacsonytól magasig: Több mint 300 átalakítási függvény |
Alacsonytól magasig: natív Spark- és nyílt forráskódú kódtárak támogatása |
Tekintse át az alábbi három forgatókönyvet, amelyek segítségével kiválaszthatja, hogyan használhatja az adatokat a Fabricben.
1. forgatókönyv
Leo, az adatszakértő nagy mennyiségű adatot kell befognia külső rendszerekből, a helyszíni és a felhőből is. Ezek a külső rendszerek közé tartoznak az adatbázisok, a fájlrendszerek és az API-k. Leo nem szeretne kódot írni és karbantartani az egyes összekötőkhöz vagy adatáthelyezési műveletekhez. Szeretné követni a medál réteg ajánlott eljárásokat, bronz, ezüst és arany. Leo nem rendelkezik semmilyen tapasztalattal a Sparkkal, ezért a lehető legnagyobb mértékben előnyben részesíti a felhasználói felületet, minimális kódolással. És azt is szeretné, hogy dolgozza fel az adatokat egy ütemterv szerint.
Az első lépés a nyers adatok beolvasása a bronz rétegbeli tóba az Azure-beli adatforrásokból és különböző külső forrásokból (például Snowflake Web, REST, AWS S3, GCS stb.). Konszolidált tóházat szeretne, hogy a különböző LOB-ból, helyszíni és felhőforrásokból származó összes adat egyetlen helyen legyen. Leo áttekinti a beállításokat, és kiválasztja a folyamat másolási tevékenységét a nyers bináris másolata számára megfelelő választásként. Ez a minta az előzmény- és növekményes adatfrissítésre is vonatkozik. A másolási tevékenységgel Leo kód nélkül töltheti be a Gold-adatokat egy adattárházba, ha szükség van rá, és a folyamatok nagy léptékű adatbetöltést biztosítanak, amely képes áthelyezni a petabájtszintű adatokat. Copy tevékenység a legjobb alacsony kódszámú és kód nélküli választás, amely petabájtnyi adatot helyez át a tóházakba és raktárakba különböző forrásokból, akár alkalmi, akár ütemezés szerint.
2. forgatókönyv
Mary adatmérnök, aki mély ismeretekkel rendelkezik a több LOB elemzési jelentési követelményről. Egy felsőbb rétegbeli csapat sikeresen implementált egy megoldást, amely több LOB előzmény- és növekményes adatát migrálja egy közös tóházba. Mary feladata az adatok megtisztítása, üzleti logikák alkalmazása és több célhelyre (például Azure SQL DB, ADX és egy tóház) való betöltése a megfelelő jelentéskészítő csapatok előkészítése során.
Mary tapasztalt Power Query-felhasználó, és az adatmennyiség alacsony és közepes tartományban van a kívánt teljesítmény eléréséhez. Az adatfolyamok kód nélküli vagy alacsony kódszámú interfészeket biztosítanak több száz adatforrásból származó adatok betöltéséhez. Az adatfolyamokkal több mint 300 adatátalakítási lehetőséggel alakíthatja át az adatokat, és az eredményeket több célhelyre is beírhatja egy könnyen használható, magas vizuális felhasználói felülettel. Mary áttekinti a lehetőségeket, és úgy dönt, hogy érdemes a Dataflow Gen 2-t használni előnyben részesített átalakítási lehetőségként.
Forgatókönyv3
Adam egy adatszakértő, aki egy nagy kiskereskedelmi vállalatnál dolgozik, amely egy lakehouse-t használ az ügyféladatok tárolására és elemzésére. A munkája részeként Adam felelős az adatok kinyerését, átalakítását és betöltését végző adatfolyamok kiépítéséért és karbantartásáért a lakehouse-ba. A vállalat egyik üzleti követelménye, hogy ügyfél-felülvizsgálati elemzéseket végezzen, hogy betekintést nyerjen az ügyfelek tapasztalataiba, és javítsa szolgáltatásaikat.
Adam úgy dönt, hogy a legjobb megoldás az, ha a Spark használatával hozza létre a kinyerés és az átalakítási logikát. A Spark egy elosztott számítástechnikai platformot biztosít, amely nagy mennyiségű adatot képes párhuzamosan feldolgozni. Spark-alkalmazást ír Python vagy Scala használatával, amely strukturált, részben strukturált és strukturálatlan adatokat olvas be a OneLake-ből az ügyfelek véleményei és visszajelzései alapján. Az alkalmazás megtisztítja, átalakítja és adatokat ír a Lakehouse Delta-tábláiba. Az adatok ezután készen állnak az alsóbb rétegbeli elemzésekhez való használatra.
Kapcsolódó tartalom
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: