Průvodce rozhodováním v Microsoft Fabric: aktivita kopírování, tok dat nebo Spark

Tento referenční průvodce a ukázkové scénáře vám pomůžou při rozhodování, jestli pro úlohy s využitím Microsoft Fabric potřebujete aktivitu kopírování, tok dat nebo Spark.

Důležité

Microsoft Fabric je v současné době ve verzi PREVIEW. Tyto informace se týkají předběžného vydání produktu, který může být před vydáním podstatně změněn. Společnost Microsoft neposkytuje na zde uvedené informace žádné záruky, ať už vyjádřené nebo předpokládané.

aktivita Copy, tok dat a vlastnosti Sparku

Aktivita kopírování kanálu Tok dat Gen 2 Spark
Případ použití Migrace data lake a datového skladu,
příjem dat,
Zjednodušená transformace
Příjem dat,
transformace dat,
transformace dat,
profilace dat
Příjem dat,
transformace dat,
zpracování dat,
profilace dat
Primární osoba vývojáře Datový inženýr,
integrátor dat
Datový inženýr,
integrátor dat,
obchodní analytik
Datový inženýr,
datový vědec,
vývojář dat
Primární sada dovedností pro vývojáře ETL
SQL
JSON
ETL
M
SQL
Spark (Scala, Python, Spark SQL, R)
Napsaný kód Žádný kód,
nízká úroveň kódu
Žádný kód,
nízká úroveň kódu
Kód
Objem dat Nízká až vysoká Nízká až vysoká Nízká až vysoká
Vývojové rozhraní Průvodce
Plátně
Power Query Poznámkový blok
Definice úlohy Sparku
Zdrojů Více než 30 konektorů Více než 150 konektorů Stovky knihoven Sparku
Cíle Více než 18 konektorů Lakehouse,
Azure SQL databáze,
Azure Data Explorer,
Azure Synapse analýzy
Stovky knihoven Sparku
Složitost transformace Nízké:
lightweight – převod typů, mapování sloupců, sloučení/rozdělení souborů, zploštěná hierarchie
Od nejnižšího po nejvyšší:
Více než 300 transformačních funkcí
Od nejnižšího po nejvyšší:
podpora nativních knihoven Sparku a opensourcových knihoven

Projděte si následující tři scénáře, které vám pomůžou s výběrem způsobu práce s daty v prostředcích infrastruktury.

Scénář 1

Leo, datový inženýr, potřebuje ingestovat velký objem dat z externích systémů, místních i cloudových. Mezi tyto externí systémy patří databáze, systémy souborů a rozhraní API. Leo nechce psát a udržovat kód pro každý konektor nebo operaci přesunu dat. Chce se řídit osvědčenými postupy pro medailónové vrstvy s bronzem, stříbrem a zlatem. Leo nemá žádné zkušenosti se Sparkem, takže dává přednost uživatelskému rozhraní drag and drop, jak je to možné, s minimálním kódováním. A také chce data zpracovávat podle plánu.

Prvním krokem je dostat nezpracovaná data do lakehouse bronzové vrstvy z datových prostředků Azure a z různých zdrojů třetích stran (například Snowflake Web, REST, AWS S3, GCS atd.). Chce konsolidovaný lakehouse, aby všechna data z různých obchodních, místních a cloudových zdrojů byla umístěna na jednom místě. Leo zkontroluje možnosti a vybere aktivitu kopírování kanálu jako vhodnou volbu pro svou nezpracovanou binární kopii. Tento model platí pro historickou i přírůstkovou aktualizaci dat. Díky aktivitě kopírování může Leo v případě potřeby načíst zlatá data do datového skladu bez kódu a kanály poskytují ingestování dat ve velkém měřítku, které umožňují přesun dat v petabajtovém měřítku. aktivita Copy je nejlepší volbou pro přesun petabajtů dat do lakehouse a skladů z různých zdrojů, a to ad hoc nebo prostřednictvím plánu.

Scénář 2

Mary je datová inženýrka s hlubokými znalostmi několika požadavků na generování analytických sestav lob. Nadřazený tým úspěšně implementoval řešení pro migraci historických a přírůstkových dat více obchodních prostředí do společného lakehouse. Mary dostala za úkol vyčistit data, použít obchodní logiku a načíst je do několika cílů (například Azure SQL DB, ADX a lakehouse) v rámci přípravy pro příslušné týmy pro vytváření sestav.

Mary je zkušený uživatel Power Query a objem dat je v nízkém až středním rozsahu, aby se dosáhlo požadovaného výkonu. Toky dat poskytují rozhraní bez kódu nebo rozhraní s nízkým kódem pro příjem dat ze stovek zdrojů dat. Díky tokům dat můžete transformovat data pomocí více než 300 možností transformace dat a zapisovat výsledky do několika cílů pomocí snadno použitelného a vysoce vizuálního uživatelského rozhraní. Mary zkontroluje možnosti a rozhodne se, že má smysl použít Dataflow Gen2 jako upřednostňovanou možnost transformace.

Scénář 3

Adam je datový inženýr pracující pro velkou maloobchodní společnost, která používá lakehouse k ukládání a analýze zákaznických dat. V rámci své práce zodpovídá za vytváření a údržbu datových kanálů, které extrahují, transformují a načítají data do lakehouse. Jedním z obchodních požadavků společnosti je provádět analýzy kontroly zákazníků, abyste získali přehled o zkušenostech zákazníků a vylepšili jejich služby.

Adam se rozhodne, že nejlepší možností je použít Spark k sestavení logiky extrakce a transformace. Spark poskytuje distribuovanou výpočetní platformu, která dokáže paralelně zpracovávat velké objemy dat. Napíše aplikaci Spark pomocí Pythonu nebo Scaly, která čte strukturovaná, částečně strukturovaná a nestrukturovaná data z OneLake pro účely hodnocení zákazníků a zpětné vazby. Aplikace čistí, transformuje a zapisuje data do tabulek Delta v lakehouse. Data jsou pak připravená k použití pro analýzy podřízených dat.

Další kroky