Průvodce rozhodováním v Microsoft Fabric: aktivita kopírování, tok dat nebo Spark
Tento referenční průvodce a ukázkové scénáře vám pomůžou při rozhodování, jestli pro úlohy s využitím Microsoft Fabric potřebujete aktivitu kopírování, tok dat nebo Spark.
Důležité
Microsoft Fabric je v současné době ve verzi PREVIEW. Tyto informace se týkají předběžného vydání produktu, který může být před vydáním podstatně změněn. Společnost Microsoft neposkytuje na zde uvedené informace žádné záruky, ať už vyjádřené nebo předpokládané.
aktivita Copy, tok dat a vlastnosti Sparku
Aktivita kopírování kanálu | Tok dat Gen 2 | Spark | |
---|---|---|---|
Případ použití | Migrace data lake a datového skladu, příjem dat, Zjednodušená transformace |
Příjem dat, transformace dat, transformace dat, profilace dat |
Příjem dat, transformace dat, zpracování dat, profilace dat |
Primární osoba vývojáře | Datový inženýr, integrátor dat |
Datový inženýr, integrátor dat, obchodní analytik |
Datový inženýr, datový vědec, vývojář dat |
Primární sada dovedností pro vývojáře | ETL SQL JSON |
ETL M SQL |
Spark (Scala, Python, Spark SQL, R) |
Napsaný kód | Žádný kód, nízká úroveň kódu |
Žádný kód, nízká úroveň kódu |
Kód |
Objem dat | Nízká až vysoká | Nízká až vysoká | Nízká až vysoká |
Vývojové rozhraní | Průvodce Plátně |
Power Query | Poznámkový blok Definice úlohy Sparku |
Zdrojů | Více než 30 konektorů | Více než 150 konektorů | Stovky knihoven Sparku |
Cíle | Více než 18 konektorů | Lakehouse, Azure SQL databáze, Azure Data Explorer, Azure Synapse analýzy |
Stovky knihoven Sparku |
Složitost transformace | Nízké: lightweight – převod typů, mapování sloupců, sloučení/rozdělení souborů, zploštěná hierarchie |
Od nejnižšího po nejvyšší: Více než 300 transformačních funkcí |
Od nejnižšího po nejvyšší: podpora nativních knihoven Sparku a opensourcových knihoven |
Projděte si následující tři scénáře, které vám pomůžou s výběrem způsobu práce s daty v prostředcích infrastruktury.
Scénář 1
Leo, datový inženýr, potřebuje ingestovat velký objem dat z externích systémů, místních i cloudových. Mezi tyto externí systémy patří databáze, systémy souborů a rozhraní API. Leo nechce psát a udržovat kód pro každý konektor nebo operaci přesunu dat. Chce se řídit osvědčenými postupy pro medailónové vrstvy s bronzem, stříbrem a zlatem. Leo nemá žádné zkušenosti se Sparkem, takže dává přednost uživatelskému rozhraní drag and drop, jak je to možné, s minimálním kódováním. A také chce data zpracovávat podle plánu.
Prvním krokem je dostat nezpracovaná data do lakehouse bronzové vrstvy z datových prostředků Azure a z různých zdrojů třetích stran (například Snowflake Web, REST, AWS S3, GCS atd.). Chce konsolidovaný lakehouse, aby všechna data z různých obchodních, místních a cloudových zdrojů byla umístěna na jednom místě. Leo zkontroluje možnosti a vybere aktivitu kopírování kanálu jako vhodnou volbu pro svou nezpracovanou binární kopii. Tento model platí pro historickou i přírůstkovou aktualizaci dat. Díky aktivitě kopírování může Leo v případě potřeby načíst zlatá data do datového skladu bez kódu a kanály poskytují ingestování dat ve velkém měřítku, které umožňují přesun dat v petabajtovém měřítku. aktivita Copy je nejlepší volbou pro přesun petabajtů dat do lakehouse a skladů z různých zdrojů, a to ad hoc nebo prostřednictvím plánu.
Scénář 2
Mary je datová inženýrka s hlubokými znalostmi několika požadavků na generování analytických sestav lob. Nadřazený tým úspěšně implementoval řešení pro migraci historických a přírůstkových dat více obchodních prostředí do společného lakehouse. Mary dostala za úkol vyčistit data, použít obchodní logiku a načíst je do několika cílů (například Azure SQL DB, ADX a lakehouse) v rámci přípravy pro příslušné týmy pro vytváření sestav.
Mary je zkušený uživatel Power Query a objem dat je v nízkém až středním rozsahu, aby se dosáhlo požadovaného výkonu. Toky dat poskytují rozhraní bez kódu nebo rozhraní s nízkým kódem pro příjem dat ze stovek zdrojů dat. Díky tokům dat můžete transformovat data pomocí více než 300 možností transformace dat a zapisovat výsledky do několika cílů pomocí snadno použitelného a vysoce vizuálního uživatelského rozhraní. Mary zkontroluje možnosti a rozhodne se, že má smysl použít Dataflow Gen2 jako upřednostňovanou možnost transformace.
Scénář 3
Adam je datový inženýr pracující pro velkou maloobchodní společnost, která používá lakehouse k ukládání a analýze zákaznických dat. V rámci své práce zodpovídá za vytváření a údržbu datových kanálů, které extrahují, transformují a načítají data do lakehouse. Jedním z obchodních požadavků společnosti je provádět analýzy kontroly zákazníků, abyste získali přehled o zkušenostech zákazníků a vylepšili jejich služby.
Adam se rozhodne, že nejlepší možností je použít Spark k sestavení logiky extrakce a transformace. Spark poskytuje distribuovanou výpočetní platformu, která dokáže paralelně zpracovávat velké objemy dat. Napíše aplikaci Spark pomocí Pythonu nebo Scaly, která čte strukturovaná, částečně strukturovaná a nestrukturovaná data z OneLake pro účely hodnocení zákazníků a zpětné vazby. Aplikace čistí, transformuje a zapisuje data do tabulek Delta v lakehouse. Data jsou pak připravená k použití pro analýzy podřízených dat.