Průvodce rozhodováním Microsoft Fabric: aktivita kopírování, tok dat nebo Spark

Tento referenční průvodce a ukázkové scénáře vám pomůžou při rozhodování, jestli potřebujete aktivitu kopírování, tok dat nebo Spark pro úlohy Microsoft Fabric.

vlastnosti aktivita Copy, toku dat a Sparku

Aktivita kopírování kanálu Tok dat Gen2 Spark
Případ použití Migrace data lake a datového skladu,
příjem dat,
odlehčená transformace
Příjem dat
transformace dat,
transformace dat,
profilace dat
Příjem dat
transformace dat,
zpracování údajů,
profilace dat
Primární osoba vývojáře Datový inženýr,
integrátor dat
Datový inženýr,
integrátor dat,
obchodní analytik
Datový inženýr,
datový vědec,
vývojář dat
Sada dovedností primárního vývojáře ETL
SQL
JSON
ETL
M
SQL
Spark (Scala, Python, Spark SQL, R)
Napsaný kód Žádný kód,
nízký kód
Žádný kód,
nízký kód
Kód
Objem dat Nízký až vysoký Nízký až vysoký Nízký až vysoký
Vývojové rozhraní Průvodce
Plátně
Power Query Poznámkový blok
Definice úlohy Sparku
Zdrojů Více než 30 konektorů Více než 150 konektorů Stovky knihoven Sparku
Destinací Více než 18 konektorů Jezero,
Databáze Azure SQL,
Azure Data Explorer,
Azure Synapse Analytics
Stovky knihoven Sparku
Složitost transformace Nízké:
lightweight – převod typu, mapování sloupců, sloučení/rozdělení souborů, zploštěná hierarchie
Nízká až vysoká:
Transformace s více než 300 funkcemi
Nízká až vysoká:
podpora nativních knihoven Spark a opensourcových knihoven

Projděte si následující tři scénáře, které vám pomůžou s výběrem způsobu práce s daty v prostředcích infrastruktury.

Scénář 1

Leo, datový inženýr, potřebuje ingestovat velký objem dat z externích systémů, a to jak z místního prostředí, tak z cloudu. Mezi tyto externí systémy patří databáze, systémy souborů a rozhraní API. Leo nechce psát a udržovat kód pro každou operaci přesunu dat nebo konektoru. Chce dodržovat osvědčené postupy pro medailiónové vrstvy s bronzovou, stříbrnou a zlatou. Leo nemá žádné zkušenosti se Sparkem, takže dává přednost uživatelskému rozhraní pro přetahování co nejvíce, s minimálním kódováním. A také chce zpracovávat data podle plánu.

Prvním krokem je získání nezpracovaných dat do bronzové vrstvy lakehouse z datových prostředků Azure a různých zdrojů třetích stran (například Snowflake Web, REST, AWS S3, GCS atd.). Chce konsolidovaný jezero, takže všechna data z různých obchodních, místních a cloudových zdrojů se nacházejí na jednom místě. Leo zkontroluje možnosti a vybere aktivitu kopírování kanálu jako odpovídající volbu pro jeho nezpracovanou binární kopii. Tento model platí pro historickou i přírůstkovou aktualizaci dat. Při aktivitě kopírování může Leo načíst zlatá data do datového skladu bez kódu, pokud je potřeba, a kanály poskytují vysoce škálovatelný příjem dat, který může přesouvat petabajtová data. aktivita Copy je nejlepší volbou s nízkým kódem a bez kódu pro přesun petabajtů dat do jezer a skladů z odrůd zdrojů, a to buď ad hoc, nebo prostřednictvím plánu.

Scénář 2

Mary je datový inženýr s hlubokými znalostmi požadavků na generování analytických sestav LOB. Nadřazený tým úspěšně implementoval řešení pro migraci několika historických a přírůstkových dat obchodního týmu do společného jezera. Mary má za úkol vyčistit data, použít obchodní logiku a načíst je do několika cílů (jako je Azure SQL DB, ADX a lakehouse) při přípravě na příslušné týmy pro vytváření sestav.

Mary je zkušený uživatel Power Query a objem dat je v nízkém až středním rozsahu, aby dosáhl požadovaného výkonu. Toky dat poskytují rozhraní bez kódu nebo nízkého kódu pro ingestování dat ze stovek zdrojů dat. S toky dat můžete transformovat data pomocí 300+ možností transformace dat a zapisovat výsledky do více cílů pomocí snadno použitelného, vysoce vizuálního uživatelského rozhraní. Mary zkontroluje možnosti a rozhodne se, že má smysl používat tok dat Gen 2 jako preferovanou možnost transformace.

Scénář 3

Adam je datový inženýr pracující ve velké maloobchodní společnosti, která používá lakehouse k ukládání a analýze zákaznických dat. V rámci své práce zodpovídá Adam za vytváření a údržbu datových kanálů, které extrahují, transformují a načítají data do jezera. Jednou z obchodních požadavků společnosti je provádět analýzy kontrol zákazníků, abyste získali přehled o zkušenostech svých zákazníků a zlepšili své služby.

Adam rozhodne, že nejlepší možností je použít Spark k sestavení logiky extrakce a transformace. Spark poskytuje distribuovanou výpočetní platformu, která dokáže paralelně zpracovávat velké objemy dat. Zapisuje aplikaci Spark pomocí Pythonu nebo Scaly, která čte strukturovaná, částečně strukturovaná a nestrukturovaná data z OneLake pro recenze zákazníků a zpětnou vazbu. Aplikace vyčistí, transformuje a zapisuje data do tabulek Delta v jezeře. Data jsou pak připravená k použití pro podřízenou analýzu.