Megosztás a következőn keresztül:


A Microsoft Fabric döntési útmutatója: másolási tevékenység, másolási feladat, adatfolyam, Eventstream vagy Spark

Ezzel a referencia-útmutatóval és a példaforgatókönyvekkel eldöntheti, hogy szüksége van-e másolási tevékenységre, másolási feladatra, adatfolyamra, eseménystreamre vagy Sparkra a Microsoft Fabric számítási feladataihoz.

Másolási tevékenység, Másolási feladat, adatfolyam, Eventstream és Spark-tulajdonságok

folyamatmásolási tevékenység Másolási feladat 2. generációs adatfolyam Eventstream Szikra
Használati eset Data lake és adattárház migrálása,
adatbetöltés,
egyszerűsített átalakítás
Adatbetöltés,
Részleges másolat
Replikáció
Data Lake és Data Warehouse migrálása,
egyszerűsített átalakítás
Adatbetöltés,
adatátalakítás,
adatkonvergálás,
adatprofilozás
eseményadatok betöltése,
eseményadatok átalakítása
Adatbetöltés,
adatátalakítás,
adatfeldolgozás
adatprofilozás
elsődleges fejlesztői személy Adatmérnök,
adat integrátor
Üzleti elemző,
Adatintegrátor
adatmérnök
Adatmérnök,
adat integrátor,
üzleti elemző
Adatmérnök,
adatelemző,
adatfejlesztő
Adat integrátor,
adatszakértő
elsődleges fejlesztői képességkészlet ETL,
SQL
JSON
ETL,
SQL
JSON
ETL,
M,
SQL
SQL, JSON, üzenetkezelés Spark (Scala, Python, Spark SQL, R)
írt kód Nincs kód,
kevés kódolású
Nincs kód,
kevés kódolású
Nincs kód,
kevés kódolású
Nincs kód,
kevés kódolású
Kód
adatkötet Alacsonytól magasig Alacsonytól magasig Alacsonytól magasig Közepes és magas Alacsonytól magasig
fejlesztési felület Varázsló
vászon
Varázsló
vászon
Power Query Vászon Noteszgép
Spark feladatdefiníció
források Több mint 50 összekötő Több mint 50 összekötő Több mint 150 összekötő CdC-t támogató adatbázis (Adatrögzítés módosítása), Kafka, közzétételi és feliratkozási mintát támogató üzenetkezelő rendszerek, eseménystreamek Spark-kódtárak százai
Célpontok Több mint 40 összekötő Több mint 40 összekötő Lakehouse,
Azure SQL adatbázis
Azure Data Explorer,
Azure Synapse-elemzés
Eventhouse, Lakehouse, Activator Alert, Származtatott stream, Egyéni végpont Spark-kódtárak százai
Átalakítási összetettség Alacsony:
könnyű – típuskonvertálás, oszlopleképezés, fájlok egyesítése/felosztása, hierarchia lapítása
Alacsony:
könnyű – típuskonvertálás, oszlopleképezés, fájlok egyesítése/felosztása, hierarchia lapítása
Alacsonytól magasig:
Több mint 300 átalakítási függvény
Alacsony:
Könnyű
Alacsonytól magasig:
natív Spark- és nyílt forráskódú kódtárak támogatása

Lehetséges helyzetek

Tekintse át az alábbi forgatókönyveket, amelyek segítenek annak eldöntésében, hogyan dolgozzon adataival a Fabric rendszerben.

Szcenárió 1

Leo, az adatszakértő nagy mennyiségű adatot kell befognia külső rendszerekből, a helyszíni és a felhőből is. Ezek a külső rendszerek közé tartoznak az adatbázisok, a fájlrendszerek és az API-k. Leo nem szeretne kódot írni és karbantartani az egyes összekötőkhöz vagy adatáthelyezési műveletekhez. Szeretné követni az érmék rétegezésének legjobb gyakorlatait, bronz, ezüst és arany. Leo nem rendelkezik semmilyen tapasztalattal a Sparkkal, ezért a lehető legnagyobb mértékben előnyben részesíti a felhasználói felületet, minimális kódolással. És azt is szeretné, hogy dolgozza fel az adatokat egy ütemterv szerint.

Az első lépés a nyers adatok beolvasása a bronz rétegbeli tóba az Azure-beli adatforrásokból és különböző külső forrásokból (például Snowflake Web, REST, AWS S3, GCS stb.). Konszolidált tóházat szeretne, hogy a különböző LOB-ból, helyszíni és felhőforrásokból származó összes adat egyetlen helyen legyen. Leo áttekinti a beállításokat, és kiválasztja folyamatmásolási tevékenységet a nyers bináris másolata számára megfelelő választásként. Ez a minta az előzmény- és növekményes adatfrissítésre is vonatkozik. A másolási tevékenységgel Leo kód nélkül töltheti be a Gold-adatokat egy adattárházba, ha szükség van rá, és a folyamatok nagy léptékű adatbetöltést biztosítanak, amely képes áthelyezni a petabájtszintű adatokat. A másolási tevékenység a legjobb alacsony kódszámú és kód nélküli választás, amely petabájtnyi adatot helyez át a tóházakba és raktárakba különböző forrásokból, akár alkalmi, akár ütemezés szerint.

Forgatókönyv 2

Mary adatmérnök, aki mély ismeretekkel rendelkezik a több LOB elemzési jelentési követelményről. Egy felsőbb rétegbeli csapat sikeresen implementált egy megoldást, amely több LOB előzmény- és növekményes adatát migrálja egy közös tóházba. Mary feladata az adatok tisztítása, az üzleti logika alkalmazása, és azok betöltése több célhelyre, például Azure SQL DB, ADX és egy lakehouse adattároló, a jelentéskészítő csapatok munkájának előkészítéséhez.

Mary tapasztalt Power Query-felhasználó, és az adatmennyiség alacsony és közepes tartományban van a kívánt teljesítmény eléréséhez. Az adatfolyamok kód nélküli vagy alacsony kódszámú interfészeket biztosítanak több száz adatforrásból származó adatok betöltéséhez. Az adatfolyamokkal több mint 300 adatátalakítási lehetőséggel alakíthatja át az adatokat, és az eredményeket több célhelyre is beírhatja egy könnyen használható, magas vizuális felhasználói felülettel. Mary áttekinti a beállításokat, és úgy dönt, hogy érdemes Dataflow Gen 2 használni előnyben részesített átalakítási lehetőségként.

3. forgatókönyv

Prashant, adat integrátor, aki mély szakértelemmel rendelkezik az üzleti folyamatokban és rendszerekben. Egy felsőbb rétegbeli csapat sikeresen közzétette az üzleti alkalmazások eseményadatait az alárendelt rendszereken keresztül felhasználható üzenetekként. A Prashant az üzleti alkalmazások eseményadatainak a Microsoft Fabricbe való integrálásához lett hozzárendelve a valós idejű döntéstámogatás érdekében.

A közepes és magas adatmennyiség és a szervezet kód nélküli megoldások iránti előnyben részesítése miatt a Prashant igyekszik zökkenőmentesen továbbítani az eseményeket a kinyerési ütemezések kezelése nélkül. Ennek az igénynek a kielégítése érdekében az Eventstreamst választja a Microsoft Fabricben. Az Real-Time Intelligencia-felületen belüli eseménystreamek valós idejű adatbetöltést, átalakítást és útválasztást teszik lehetővé különböző célhelyekre – mindezt kód írása nélkül.

4. forgatókönyv

Adam egy adatszakértő, aki egy nagy kiskereskedelmi vállalatnál dolgozik, amely egy lakehouse-t használ az ügyféladatok tárolására és elemzésére. A munkája részeként Adam felelős az adatok kinyerését, átalakítását és betöltését végző folyamatok kiépítéséért és karbantartásáért a tóházban. A vállalat egyik üzleti követelménye, hogy ügyfél-felülvizsgálati elemzéseket végezzen, hogy betekintést nyerjen az ügyfelek tapasztalataiba, és javítsa szolgáltatásaikat.

Adam úgy dönt, hogy a legjobb megoldás az Spark használata a kinyerés és az átalakítási logika létrehozásához. A Spark egy elosztott számítástechnikai platformot biztosít, amely nagy mennyiségű adatot képes párhuzamosan feldolgozni. Spark-alkalmazást ír Python vagy Scala használatával, amely strukturált, részben strukturált és strukturálatlan adatokat olvas be a OneLake-ből az ügyfelek véleményei és visszajelzései alapján. Az alkalmazás megtisztítja az adatokat, átalakítja őket, és adatokat ír a Delta-táblákba a lakehouse-ban. Az adatok ezután készen állnak az alsóbb rétegbeli elemzésekhez való használatra.

5. forgatókönyv

Rajesh, az adatmérnök feladata növekményes adatok betöltése egy helyszíni SQL Serverről egy Azure SQL-adatbázisba. Rajesh helyszíni SQL Server-példánya már engedélyezte a Change Data Capture (CDC) használatát a kulcstáblákon.

Rajesh egy egyszerű, alacsony kódszámú, varázslóalapú megoldást keres, amely lehetővé teszi, hogy:

  • Több natív CDC-kompatibilis forrástábla kijelölése
  • Kezdeti teljes terhelés végrehajtása
  • Automatikus váltás növekményes adatbetöltésre a CDC alapján
  • Ismétlődő frissítések adatfrissítéseinek ütemezése

Nem szeretne egyéni kódot írni vagy összetett vezényléseket kezelni. Ideális esetben egy "5x5 varázslót" szeretne, ahol néhány kattintással elvégezheti a beállítást.

Rajesh a Másolási feladat funkciót választja a Microsoft Fabricben. A helyszíni átjáró támogatásával biztonságosan csatlakozik az SQL Serverhez, kiválasztja a kívánt táblákat, és konfigurálja a folyamatot, hogy a cél Azure SQL Database-be lépjen.

A Másolás feladat alacsony súrlódású és méretezhető adatáthelyezési élményt biztosít, amely megfelel Rajesh követelményeinek anélkül, hogy összetett folyamatokat kellene fenntartania.