Průvodce rozhodováním Microsoft Fabric: aktivita kopírování, tok dat nebo Spark
Tento referenční průvodce a ukázkové scénáře vám pomůžou při rozhodování, jestli potřebujete aktivitu kopírování, tok dat nebo Spark pro úlohy Microsoft Fabric.
vlastnosti aktivita Copy, toku dat a Sparku
Aktivita kopírování kanálu | Tok dat Gen2 | Spark | |
---|---|---|---|
Případ použití | Migrace data lake a datového skladu, příjem dat, odlehčená transformace |
Příjem dat transformace dat, transformace dat, profilace dat |
Příjem dat transformace dat, zpracování údajů, profilace dat |
Primární osoba vývojáře | Datový inženýr, integrátor dat |
Datový inženýr, integrátor dat, obchodní analytik |
Datový inženýr, datový vědec, vývojář dat |
Sada dovedností primárního vývojáře | ETL SQL JSON |
ETL M SQL |
Spark (Scala, Python, Spark SQL, R) |
Napsaný kód | Žádný kód, nízký kód |
Žádný kód, nízký kód |
Kód |
Objem dat | Nízký až vysoký | Nízký až vysoký | Nízký až vysoký |
Vývojové rozhraní | Průvodce Plátně |
Power Query | Poznámkový blok Definice úlohy Sparku |
Zdrojů | Více než 30 konektorů | Více než 150 konektorů | Stovky knihoven Sparku |
Destinací | Více než 18 konektorů | Jezero, Databáze Azure SQL, Azure Data Explorer, Azure Synapse Analytics |
Stovky knihoven Sparku |
Složitost transformace | Nízké: lightweight – převod typu, mapování sloupců, sloučení/rozdělení souborů, zploštěná hierarchie |
Nízká až vysoká: Transformace s více než 300 funkcemi |
Nízká až vysoká: podpora nativních knihoven Spark a opensourcových knihoven |
Projděte si následující tři scénáře, které vám pomůžou s výběrem způsobu práce s daty v prostředcích infrastruktury.
Scénář 1
Leo, datový inženýr, potřebuje ingestovat velký objem dat z externích systémů, a to jak z místního prostředí, tak z cloudu. Mezi tyto externí systémy patří databáze, systémy souborů a rozhraní API. Leo nechce psát a udržovat kód pro každou operaci přesunu dat nebo konektoru. Chce dodržovat osvědčené postupy pro medailiónové vrstvy s bronzovou, stříbrnou a zlatou. Leo nemá žádné zkušenosti se Sparkem, takže dává přednost uživatelskému rozhraní pro přetahování co nejvíce, s minimálním kódováním. A také chce zpracovávat data podle plánu.
Prvním krokem je získání nezpracovaných dat do bronzové vrstvy lakehouse z datových prostředků Azure a různých zdrojů třetích stran (například Snowflake Web, REST, AWS S3, GCS atd.). Chce konsolidovaný jezero, takže všechna data z různých obchodních, místních a cloudových zdrojů se nacházejí na jednom místě. Leo zkontroluje možnosti a vybere aktivitu kopírování kanálu jako odpovídající volbu pro jeho nezpracovanou binární kopii. Tento model platí pro historickou i přírůstkovou aktualizaci dat. Při aktivitě kopírování může Leo načíst zlatá data do datového skladu bez kódu, pokud je potřeba, a kanály poskytují vysoce škálovatelný příjem dat, který může přesouvat petabajtová data. aktivita Copy je nejlepší volbou s nízkým kódem a bez kódu pro přesun petabajtů dat do jezer a skladů z odrůd zdrojů, a to buď ad hoc, nebo prostřednictvím plánu.
Scénář 2
Mary je datový inženýr s hlubokými znalostmi požadavků na generování analytických sestav LOB. Nadřazený tým úspěšně implementoval řešení pro migraci několika historických a přírůstkových dat obchodního týmu do společného jezera. Mary má za úkol vyčistit data, použít obchodní logiku a načíst je do několika cílů (jako je Azure SQL DB, ADX a lakehouse) při přípravě na příslušné týmy pro vytváření sestav.
Mary je zkušený uživatel Power Query a objem dat je v nízkém až středním rozsahu, aby dosáhl požadovaného výkonu. Toky dat poskytují rozhraní bez kódu nebo nízkého kódu pro ingestování dat ze stovek zdrojů dat. S toky dat můžete transformovat data pomocí 300+ možností transformace dat a zapisovat výsledky do více cílů pomocí snadno použitelného, vysoce vizuálního uživatelského rozhraní. Mary zkontroluje možnosti a rozhodne se, že má smysl používat tok dat Gen 2 jako preferovanou možnost transformace.
Scénář 3
Adam je datový inženýr pracující ve velké maloobchodní společnosti, která používá lakehouse k ukládání a analýze zákaznických dat. V rámci své práce zodpovídá Adam za vytváření a údržbu datových kanálů, které extrahují, transformují a načítají data do jezera. Jednou z obchodních požadavků společnosti je provádět analýzy kontrol zákazníků, abyste získali přehled o zkušenostech svých zákazníků a zlepšili své služby.
Adam rozhodne, že nejlepší možností je použít Spark k sestavení logiky extrakce a transformace. Spark poskytuje distribuovanou výpočetní platformu, která dokáže paralelně zpracovávat velké objemy dat. Zapisuje aplikaci Spark pomocí Pythonu nebo Scaly, která čte strukturovaná, částečně strukturovaná a nestrukturovaná data z OneLake pro recenze zákazníků a zpětnou vazbu. Aplikace vyčistí, transformuje a zapisuje data do tabulek Delta v jezeře. Data jsou pak připravená k použití pro podřízenou analýzu.