Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Ezzel a referencia-útmutatóval és a példaforgatókönyvekkel eldöntheti, hogy szüksége van-e másolási tevékenységre, másolási feladatra, adatfolyamra, eseménystreamre vagy Sparkra a Microsoft Fabric számítási feladataihoz.
Másolási tevékenység, Másolási feladat, adatfolyam, Eventstream és Spark-tulajdonságok
| folyamatmásolási tevékenység | Másolási feladat | 2. generációs adatfolyam | Eventstream | Szikra | |
|---|---|---|---|---|---|
| Használati eset | Data lake és adattárház migrálása, adatbetöltés, egyszerűsített átalakítás |
Adatbetöltés, Részleges másolat Replikáció Data Lake és Data Warehouse migrálása, egyszerűsített átalakítás |
Adatbetöltés, adatátalakítás, adatkonvergálás, adatprofilozás |
eseményadatok betöltése, eseményadatok átalakítása |
Adatbetöltés, adatátalakítás, adatfeldolgozás adatprofilozás |
| elsődleges fejlesztői személy | Adatmérnök, adat integrátor |
Üzleti elemző, Adatintegrátor adatmérnök |
Adatmérnök, adat integrátor, üzleti elemző |
Adatmérnök, adatelemző, adatfejlesztő |
Adat integrátor, adatszakértő |
| elsődleges fejlesztői képességkészlet | ETL, SQL JSON |
ETL, SQL JSON |
ETL, M, SQL |
SQL, JSON, üzenetkezelés | Spark (Scala, Python, Spark SQL, R) |
| írt kód | Nincs kód, kevés kódolású |
Nincs kód, kevés kódolású |
Nincs kód, kevés kódolású |
Nincs kód, kevés kódolású |
Kód |
| adatkötet | Alacsonytól magasig | Alacsonytól magasig | Alacsonytól magasig | Közepes és magas | Alacsonytól magasig |
| fejlesztési felület | Varázsló vászon |
Varázsló vászon |
Power Query | Vászon | Noteszgép Spark feladatdefiníció |
| források | Több mint 50 összekötő | Több mint 50 összekötő | Több mint 150 összekötő | CdC-t támogató adatbázis (Adatrögzítés módosítása), Kafka, közzétételi és feliratkozási mintát támogató üzenetkezelő rendszerek, eseménystreamek | Spark-kódtárak százai |
| Célpontok | Több mint 40 összekötő | Több mint 40 összekötő | Lakehouse, Azure SQL adatbázis Azure Data Explorer, Azure Synapse-elemzés |
Eventhouse, Lakehouse, Activator Alert, Származtatott stream, Egyéni végpont | Spark-kódtárak százai |
| Átalakítási összetettség | Alacsony: könnyű – típuskonvertálás, oszlopleképezés, fájlok egyesítése/felosztása, hierarchia lapítása |
Alacsony: könnyű – típuskonvertálás, oszlopleképezés, fájlok egyesítése/felosztása, hierarchia lapítása |
Alacsonytól magasig: Több mint 300 átalakítási függvény |
Alacsony: Könnyű |
Alacsonytól magasig: natív Spark- és nyílt forráskódú kódtárak támogatása |
Lehetséges helyzetek
Tekintse át az alábbi forgatókönyveket, amelyek segítenek annak eldöntésében, hogyan dolgozzon adataival a Fabric rendszerben.
Szcenárió 1
Leo, az adatszakértő nagy mennyiségű adatot kell befognia külső rendszerekből, a helyszíni és a felhőből is. Ezek a külső rendszerek közé tartoznak az adatbázisok, a fájlrendszerek és az API-k. Leo nem szeretne kódot írni és karbantartani az egyes összekötőkhöz vagy adatáthelyezési műveletekhez. Szeretné követni az érmék rétegezésének legjobb gyakorlatait, bronz, ezüst és arany. Leo nem rendelkezik semmilyen tapasztalattal a Sparkkal, ezért a lehető legnagyobb mértékben előnyben részesíti a felhasználói felületet, minimális kódolással. És azt is szeretné, hogy dolgozza fel az adatokat egy ütemterv szerint.
Az első lépés a nyers adatok beolvasása a bronz rétegbeli tóba az Azure-beli adatforrásokból és különböző külső forrásokból (például Snowflake Web, REST, AWS S3, GCS stb.). Konszolidált tóházat szeretne, hogy a különböző LOB-ból, helyszíni és felhőforrásokból származó összes adat egyetlen helyen legyen. Leo áttekinti a beállításokat, és kiválasztja folyamatmásolási tevékenységet a nyers bináris másolata számára megfelelő választásként. Ez a minta az előzmény- és növekményes adatfrissítésre is vonatkozik. A másolási tevékenységgel Leo kód nélkül töltheti be a Gold-adatokat egy adattárházba, ha szükség van rá, és a folyamatok nagy léptékű adatbetöltést biztosítanak, amely képes áthelyezni a petabájtszintű adatokat. A másolási tevékenység a legjobb alacsony kódszámú és kód nélküli választás, amely petabájtnyi adatot helyez át a tóházakba és raktárakba különböző forrásokból, akár alkalmi, akár ütemezés szerint.
Forgatókönyv 2
Mary adatmérnök, aki mély ismeretekkel rendelkezik a több LOB elemzési jelentési követelményről. Egy felsőbb rétegbeli csapat sikeresen implementált egy megoldást, amely több LOB előzmény- és növekményes adatát migrálja egy közös tóházba. Mary feladata az adatok tisztítása, az üzleti logika alkalmazása, és azok betöltése több célhelyre, például Azure SQL DB, ADX és egy lakehouse adattároló, a jelentéskészítő csapatok munkájának előkészítéséhez.
Mary tapasztalt Power Query-felhasználó, és az adatmennyiség alacsony és közepes tartományban van a kívánt teljesítmény eléréséhez. Az adatfolyamok kód nélküli vagy alacsony kódszámú interfészeket biztosítanak több száz adatforrásból származó adatok betöltéséhez. Az adatfolyamokkal több mint 300 adatátalakítási lehetőséggel alakíthatja át az adatokat, és az eredményeket több célhelyre is beírhatja egy könnyen használható, magas vizuális felhasználói felülettel. Mary áttekinti a beállításokat, és úgy dönt, hogy érdemes Dataflow Gen 2 használni előnyben részesített átalakítási lehetőségként.
3. forgatókönyv
Prashant, adat integrátor, aki mély szakértelemmel rendelkezik az üzleti folyamatokban és rendszerekben. Egy felsőbb rétegbeli csapat sikeresen közzétette az üzleti alkalmazások eseményadatait az alárendelt rendszereken keresztül felhasználható üzenetekként. A Prashant az üzleti alkalmazások eseményadatainak a Microsoft Fabricbe való integrálásához lett hozzárendelve a valós idejű döntéstámogatás érdekében.
A közepes és magas adatmennyiség és a szervezet kód nélküli megoldások iránti előnyben részesítése miatt a Prashant igyekszik zökkenőmentesen továbbítani az eseményeket a kinyerési ütemezések kezelése nélkül. Ennek az igénynek a kielégítése érdekében az Eventstreamst választja a Microsoft Fabricben. Az Real-Time Intelligencia-felületen belüli eseménystreamek valós idejű adatbetöltést, átalakítást és útválasztást teszik lehetővé különböző célhelyekre – mindezt kód írása nélkül.
4. forgatókönyv
Adam egy adatszakértő, aki egy nagy kiskereskedelmi vállalatnál dolgozik, amely egy lakehouse-t használ az ügyféladatok tárolására és elemzésére. A munkája részeként Adam felelős az adatok kinyerését, átalakítását és betöltését végző folyamatok kiépítéséért és karbantartásáért a tóházban. A vállalat egyik üzleti követelménye, hogy ügyfél-felülvizsgálati elemzéseket végezzen, hogy betekintést nyerjen az ügyfelek tapasztalataiba, és javítsa szolgáltatásaikat.
Adam úgy dönt, hogy a legjobb megoldás az Spark használata a kinyerés és az átalakítási logika létrehozásához. A Spark egy elosztott számítástechnikai platformot biztosít, amely nagy mennyiségű adatot képes párhuzamosan feldolgozni. Spark-alkalmazást ír Python vagy Scala használatával, amely strukturált, részben strukturált és strukturálatlan adatokat olvas be a OneLake-ből az ügyfelek véleményei és visszajelzései alapján. Az alkalmazás megtisztítja az adatokat, átalakítja őket, és adatokat ír a Delta-táblákba a lakehouse-ban. Az adatok ezután készen állnak az alsóbb rétegbeli elemzésekhez való használatra.
5. forgatókönyv
Rajesh, az adatmérnök feladata növekményes adatok betöltése egy helyszíni SQL Serverről egy Azure SQL-adatbázisba. Rajesh helyszíni SQL Server-példánya már engedélyezte a Change Data Capture (CDC) használatát a kulcstáblákon.
Rajesh egy egyszerű, alacsony kódszámú, varázslóalapú megoldást keres, amely lehetővé teszi, hogy:
- Több natív CDC-kompatibilis forrástábla kijelölése
- Kezdeti teljes terhelés végrehajtása
- Automatikus váltás növekményes adatbetöltésre a CDC alapján
- Ismétlődő frissítések adatfrissítéseinek ütemezése
Nem szeretne egyéni kódot írni vagy összetett vezényléseket kezelni. Ideális esetben egy "5x5 varázslót" szeretne, ahol néhány kattintással elvégezheti a beállítást.
Rajesh a Másolási feladat funkciót választja a Microsoft Fabricben. A helyszíni átjáró támogatásával biztonságosan csatlakozik az SQL Serverhez, kiválasztja a kívánt táblákat, és konfigurálja a folyamatot, hogy a cél Azure SQL Database-be lépjen.
A Másolás feladat alacsony súrlódású és méretezhető adatáthelyezési élményt biztosít, amely megfelel Rajesh követelményeinek anélkül, hogy összetett folyamatokat kellene fenntartania.