Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tento referenční průvodce a ukázkové scénáře vám pomůžou při rozhodování, jestli potřebujete aktivitu kopírování, úlohu kopírování, tok dat, stream událostí nebo Spark pro úlohy Microsoft Fabric.
Aktivita kopírování, úloha kopírování, tok dat, eventstream a vlastnosti Sparku
aktivity kopírování kanálu | Úloha kopírování | Datový tok Gen 2 | Eventstream | Jiskra | |
---|---|---|---|---|---|
případ použití | Migrace data lake a datového skladu, příjem dat, odlehčená transformace |
Příjem dat Přírůstková kopie, Replikace Migrace datového jezera a datového skladu odlehčená transformace |
Příjem dat transformace dat, zpracování dat profilace dat |
příjem dat událostí, transformace dat událostí |
Příjem dat transformace dat, zpracování dat profilace dat |
primární persona vývojáře | Datový inženýr, integrátor dat |
Obchodní analytik, Integrátor dat, Datový inženýr |
Datový inženýr, integrátor dat, obchodní analytik |
Datový inženýr, datový vědec, vývojář dat |
Integrátor dat, datový inženýr |
sada dovedností primárního vývojáře | ETL, SQL JSON – JavaScript Object Notation |
ETL, SQL JSON – JavaScript Object Notation |
ETL, M, SQL |
SQL, JSON, zasílání zpráv | Spark (Scala, Python, Spark SQL, R) |
kód napsaný | Žádný kód, nízký kód |
Žádný kód, nízký kód |
Žádný kód, nízký kód |
Bez kódu, nízký kód |
Kód |
objem dat | Nízká až vysoká | Nízká až vysoká | Nízká až vysoká | Střední až vysoká | Nízká až vysoká |
rozhraní pro vývoj | Čaroděj plátno |
Čaroděj plátno |
Power Query | Plátno | Zápisník Definice úlohy Sparku |
zdroje | 50 a více konektorů | 50 a více konektorů | Více než 150 konektorů | Databáze podporující CDC (Change Data Capture), Kafka, systémy zasílání zpráv, které podporují model publikování a odběru, streamy událostí | Stovky knihoven Sparku |
cíle | 40 a více konektorů | 40 a více konektorů | Jezero, Databáze Azure SQL, Azure Data Explorer, Azure Synapse Analytics |
Eventhouse, Lakehouse, upozornění aktivátoru, odvozený stream, vlastní koncový bod | Stovky knihoven Sparku |
složitost transformace | Nízký: lehký – převod typu, mapování sloupců, sloučení/rozdělení souborů, zploštění hierarchie |
Nízký: lehký – převod typu, mapování sloupců, sloučení/rozdělení souborů, zploštění hierarchie |
Nízká až vysoká: Více než 300 transformačních funkcí |
Nízký: lehký |
Nízká až vysoká: podpora nativních knihoven Spark a opensourcových knihoven |
Scénáře
Projděte si následující scénáře, které pomohou při rozhodování o způsobu práce s vašimi daty ve službě Fabric a jeho datových prostředcích.
Scénář 1
Leo, datový inženýr, potřebuje ingestovat velký objem dat z externích systémů, a to jak z místního prostředí, tak z cloudu. Mezi tyto externí systémy patří databáze, systémy souborů a rozhraní API. Leo nechce psát a udržovat kód pro každou operaci přesunu dat nebo konektoru. Chce dodržovat osvědčené postupy pro vrstvy medailónu, jako jsou bronzová, stříbrná a zlatá. Leo nemá žádné zkušenosti se Sparkem, a proto dává přednost uživatelskému rozhraní typu drag and drop co nejčastěji a s minimálním kódováním. A také chce zpracovávat data podle plánu.
Prvním krokem je získání nezpracovaných dat do bronzové vrstvy datového jezera z datových zdrojů Azure a z různých externích zdrojů (například Snowflake Web, REST, AWS S3, GCS atd.). Chce konsolidované lakehouse, aby všechna data z různých LOB, lokálních a cloudových zdrojů se nacházela na jednom místě. Leo zkontroluje možnosti a vybere aktivitu kopírování pipeline jako vhodnou volbu pro svou nezpracovanou binární kopii. Tento model platí pro historickou i přírůstkovou aktualizaci dat. Při aktivitě kopírování může Leo bez potřeby kódu načíst Gold data do datového skladu, pokud to vyžaduje situace. Kanály pak poskytují vysoce škálovatelný příjem dat, který umožňuje přesouvat data na úrovni petabajtů. Aktivita kopírování je nejlepší volbou pro low-code a bez kódu, pokud jde o přesun petabajtů dat do lakehouse a datových skladů z různých zdrojů, a to buď ad-hoc, nebo podle plánu.
Scénář 2
Mary je datová inženýrka s hlubokými znalostmi různých požadavků na analytické reporty pro různé části podnikání. Nadřazený tým úspěšně implementoval řešení pro migraci historických a přírůstkových dat z více podnikových linií do společného lakehouse. Mary má za úkol vyčistit data, použít obchodní logiky a načíst je do několika úložišť (jako je Azure SQL DB, ADX a lakehouse) při přípravě na jejich příslušné týmy pro vytváření reportů.
Mary je zkušený uživatel Power Query a objem dat je v nízkém až středním rozsahu, aby dosáhl požadovaného výkonu. Toky dat poskytují rozhraní bez kódu nebo nízkého kódu pro ingestování dat ze stovek zdrojů dat. S toky dat můžete transformovat data pomocí 300+ možností transformace dat a zapisovat výsledky do více cílů pomocí snadno použitelného, vysoce vizuálního uživatelského rozhraní. Mary zkontroluje možnosti a rozhodne se, že má smysl používat Tok dat Gen2 jako preferovanou možnost transformace.
Scénář 3
Prashant, integrátor dat s hlubokými znalostmi obchodních procesů a systémů. Nadřazený tým úspěšně odhalil data událostí z obchodních aplikací jako zprávy, které je možné využívat prostřednictvím podřízených systémů. Prashant byl přiřazen k integraci dat událostí z obchodních aplikací do Microsoft Fabric pro podporu rozhodování v reálném čase.
Vzhledem ke střednímu až vysokému objemu dat a preferenci organizace pro řešení bez kódu hledá Prashant způsob, jak bezproblémově předávat události bez správy plánů extrakce. Pro splnění této potřeby zvolí Eventstreams v Microsoft Fabric. Eventstreamy v prostředí Real-Time Intelligence umožňují příjem, transformaci a směrování dat v reálném čase do různých cílů – to vše bez psaní kódu.
Scénář 4
Adam je datový inženýr pracující ve velké maloobchodní společnosti, která používá lakehouse k ukládání a analýze zákaznických dat. V rámci své práce zodpovídá Adam za vytváření a údržbu datových kanálů, které extrahují, transformují a načítají data do jezera. Jedním z obchodních požadavků společnosti je provádět analytiku recenzí zákazníků, aby tak získali přehled o zkušenostech zákazníků a zlepšili své služby.
Adam rozhodne, že nejlepší možností je použít Spark k sestavení logiky extrakce a transformace. Spark poskytuje distribuovanou výpočetní platformu, která dokáže paralelně zpracovávat velké objemy dat. Zapisuje aplikaci Spark pomocí Pythonu nebo Scaly, která čte strukturovaná, částečně strukturovaná a nestrukturovaná data z OneLake pro recenze zákazníků a zpětnou vazbu. Aplikace vyčistí, transformuje a zapisuje data do tabulek Delta v jezeře. Data jsou pak připravená k použití pro podřízenou analýzu.
Scénář 5
Rajesh, datový inženýr, má za úkol ingestovat přírůstková data z místního SQL Serveru do azure SQL Database. Místní instance SQL Serveru Rajesh už má u klíčových tabulek povolenou funkci Change Data Capture (CDC).
Rajesh hledá jednoduché, nízkokódové řešení řízené průvodcem, které mu umožňuje:
- Výběr více nativních zdrojových tabulek s podporou CDC
- Proveďte počáteční úplné načtení
- Automatické přepnutí na přírůstkové načítání dat na základě CDC
- Naplánování aktualizací dat pro opakované aktualizace
Chce se vyhnout psaní vlastního kódu nebo správě složitých orchestrací. V ideálním případě chce "průvodce 5x5", kde může provést nastavení několika kliknutími.
Rajesh zvolí funkci kopírování úlohy v Microsoft Fabric. S podporou místní brány se bezpečně připojí ke svému SQL Serveru, vybere požadované tabulky a nakonfiguruje tok tak, aby se dostal do cílové služby Azure SQL Database.
Úloha kopírování poskytuje snadný a škálovatelný způsob přesunu dat, který splňuje požadavky Rajeshe, aniž by bylo nutné udržovat složité datové toky.