Sdílet prostřednictvím


Příprava a transformace dat v Microsoft Fabric

Po ingestování dat do Microsoft Fabric je obvykle potřeba data před analýzou vyčistit, tvarovat a obohatit. Bez ohledu na to, jestli je vaším cílem připravit kurátorované tabulky v Lakehouse nebo data připravená pro modelování v datovém skladu, Fabric nabízí možnosti transformace jak s nízkým počtem kódů, tak i tradičním kódováním.

Tento článek popisuje, jak používat Tok dat Gen2 pro vizuální, nízkokódovou přípravu dat a jak používat poznámkové bloky a funkce uživatelských dat pro pokročilé transformace řízené kódem. Zvolte přístup, který nejlépe vyhovuje vašim požadavkům na roli, sadu dovedností a úlohy.

Transformace dat pomocí toku dat Gen2

Pro přípravu dat s nízkým kódem použijte Dataflow Gen2. Tok dat Gen2 používá známé prostředí Power Query , stejnou technologii jako v Excelu a Power BI.

Pomocí rozhraní Power Query můžete použít filtry, odvodit sloupce, agregovat data, sloučit dotazy a provádět další transformace prostřednictvím vizuálního podrobného pracovního postupu. Ve Fabric může Dataflow Gen2 běžet jako samostatný proces ETL nebo jako aktivita v rámci potrubí.

Například po ingestování nezpracovaných prodejních dat do Lakehouse můžete pomocí datového toku odstranit duplicity, standardizovat názvy sloupců, aplikovat obchodní pravidla a zapsat vyčištěné výsledky do kurátorovaných tabulek ve zlaté vrstvě Lakehouse nebo do datového skladu.

Tok dat Gen2 běží v cloudu pomocí kapacity Fabric, která umožňuje škálování na velké datové sady a složité transformace bez nutnosti vlastního kódu. Datoví analytici a vývojáři BI můžou data připravovat nezávisle, zatímco výstup stále zapisují do tabulek Lakehouse nebo Warehouse jako součást sjednoceného základu úložiště Fabric.

Příprava na kód pomocí poznámkových bloků a funkcí uživatelských dat

V případě pokročilých scénářů transformace s kódem použijte poznámkové bloky, úlohy Sparku a funkce uživatelských dat v prostředí pro přípravu dat.

Poznámkový blok Fabric zajišťuje prostředí podobné Jupyteru na portálu Fabric. Kód můžete napsat v jazycích, jako je Python, T-SQL nebo Scala, abyste mohli pracovat s daty uloženými ve OneLake.

Notebooky jsou ideální pro komplexní transformace, vlastní algoritmy, datové workflow a integraci s externími knihovnami. Můžete například načíst nezpracované soubory JSON nebo Parquet z lakehouse do datového rámce Sparku, spojit je s jinými datovými sadami, použít agregace s okny, rozšířit data a uložit výsledky zpět jako tabulky Delta v OneLake.

Poznámkové bloky se integrují přímo s jezery a sklady ve stejném pracovním prostoru. Data můžete číst a zapisovat bez další konfigurace přihlašovacích údajů, protože operace běží v kontextu zabezpečení infrastruktury. Poznámkové bloky můžete také orchestrovat a plánovat pomocí aktivity poznámkového bloku v pipelinech služby Data Factory.

Funkce uživatelských dat Fabricu umožňují zapouzdřovat opakovaně použitelnou logiku Pythonu ve Fabricu. Můžete je použít k implementaci pokročilých obchodních pravidel, volání externích služeb nebo vytváření modulárních transformačních komponent. Uživatelské datové funkce podporují knihovny PyPI, můžou se připojit ke zdrojům dat Fabric a můžou vystavit koncové body REST pro externí integraci. Díky těmto možnostem jsou vhodné pro podnikové scénáře, které vyžadují opakovaně použitelnou a řízenou logiku transformace.

Funkce uživatelských dat můžete vyvolat z poznámkových bloků, pipelines, pravidel aktivátoru a jako součást translytických toků úloh v sestavách Power BI.