Sdílet prostřednictvím


Co jsou datové vědy v Microsoft Fabric?

Pro rozšiřování dat a obchodní přehledy nabízí Microsoft Fabric prostředí pro datové vědy, které uživatelům umožňují vytvářet kompletní pracovní postupy datových věd. Začněte tím, že si prohlédnete kompletní kurz pro datové vědy.

Celou řadu aktivit můžete dokončit v celém procesu datových věd:

Uživatelé Microsoft Fabric mají přístup k domovské stránce datové vědy. Pak můžou zjišťovat a přistupovat k různým relevantním prostředkům, jak je znázorněno na následujícím snímku obrazovky:

Snímek obrazovky s domovskou stránkou datové vědy

Většina projektů strojového učení se řídí procesem datových věd. Tento proces na vysoké úrovni zahrnuje tyto kroky:

Diagram procesu datových věd

Tento článek popisuje možnosti datových věd Microsoft Fabric z hlediska procesu datových věd. Pro každý krok procesu datových věd tento článek shrnuje možnosti Microsoft Fabric, které vám můžou pomoct.

Formulace problému a generování nápadů

Uživatelé datových věd v Microsoft Fabric pracují na stejné platformě jako firemní uživatelé a analytici. Díky tomu je sdílení dat a spolupráce v různých rolích plynulejší. Analytici můžou snadno sdílet sestavy a datové sady Power BI s odborníky na datové vědy. Snadná spolupráce mezi rolemi v Microsoft Fabric usnadňuje předání během fáze formulace problému.

Zjišťování a předběžné zpracování dat

Uživatelé Microsoft Fabric můžou pracovat s daty v OneLake pomocí prostředku Lakehouse. Pokud chcete procházet data a pracovat s nimi, Lakehouse se snadno připojí k poznámkovému bloku. Uživatelé mohou snadno číst data z Lakehouse přímo do datového rámce Pandas. Pro zkoumání je pak možné bezproblémově číst data z OneLake.

K dispozici je výkonná sada nástrojů pro příjem dat, kanály pro orchestrace dat a kanály pro integraci dat, což jsou nativně integrované součásti Microsoft Fabric. Snadno sestavitelné pipeline mohou přistupovat k datům a transformovat je do formátu, který může strojové učení využívat.

Zkoumání dat

Důležitou součástí procesu strojového učení je pochopení dat prostřednictvím zkoumání a vizualizace.

V závislosti na umístění úložiště dat nabízí Microsoft Fabric nástroje pro zkoumání a přípravu dat pro analýzu a strojové učení. Samotné poznámkové bloky se stávají efektivními a efektivními nástroji pro zkoumání dat.

Apache Spark a Python pro přípravu dat

Microsoft Fabric dokáže transformovat, připravit a prozkoumat data ve velkém měřítku. Pomocí Sparku můžou uživatelé k předběžnému zpracování dat ve velkém používat nástroje PySpark/Python, Scala a SparkR/SparklyR. Výkonné opensourcové knihovny vizualizací můžou vylepšit prostředí pro zkoumání dat, aby bylo možné lépe porozumět datům.

Nástroj pro zpracování dat pro bezproblémové čištění dat

Aby bylo možné používat službu Data Wrangler, prostředí Poznámkového bloku Microsoft Fabric přidalo funkci nástroje pro kód, která připravuje data a generuje kód Pythonu. Díky tomuto prostředí je snadné urychlit zdlouhavé a běžné úkoly – například čištění dat. S ním můžete také vytvářet automatizaci a opakovatelnost prostřednictvím vygenerovaného kódu. Další informace o službě Data Wrangler najdete v části Data Wrangler tohoto dokumentu.

Experimentování a modelování ML

Díky nástrojům jako PySpark/Python a SparklyR/R mohou notebooky zpracovávat trénování modelů strojového učení. Algoritmy a knihovny strojového učení můžou pomoct trénovat modely strojového učení. Nástroje pro správu knihoven mohou tyto knihovny a algoritmy nainstalovat. Uživatelé pak můžou pomocí oblíbených knihoven strojového učení dokončit trénování modelu STROJOVÉho učení v Microsoft Fabric. Kromě toho můžou oblíbené knihovny, jako je Scikit Learn, vyvíjet také modely.

Experimenty a běhy MLflow můžou sledovat trénink modelu ML. K protokolování experimentů a modelů nabízí Microsoft Fabric integrované prostředí MLflow, které podporuje interakci. Přečtěte si další informace o tom, jak pomocí MLflow sledovat experimenty a spravovat modely v Microsoft Fabric.

SynapseML

Microsoft vlastní a provozuje opensourcovou knihovnu SynapseML (dříve označovanou jako MMLSpark). Zjednodušuje vytváření široce škálovatelných kanálů strojového učení. Jako ekosystém nástrojů rozšiřuje architekturu Apache Sparku několika novými směry. SynapseML sjednocuje několik existujících architektur strojového učení a nových algoritmů Microsoftu do jednoho škálovatelného rozhraní API. Opensourcová knihovna SynapseML obsahuje bohatý ekosystém nástrojů ML pro prediktivní vývoj modelů a využívá předem natrénované modely AI ze služeb Azure AI. Další informace najdete ve zdroji SynapseML.

Rozšiřování a zprovoznění

Notebooky mohou zpracovávat dávkové vyhodnocování modelů strojového učení s knihovnami s otevřeným zdrojovým kódem pro predikci. Můžou také zpracovávat škálovatelnou univerzální funkci Spark Predict pro Microsoft Fabric. Tato funkce podporuje modely zabalené v MLflow v registru modelů Microsoft Fabric.

Získávání poznatků

V Microsoft Fabric můžete snadno napsat predikované hodnoty do OneLake. Odtud mohou sestavy Power BI bez problémů využívat data v režimu Direct Lake od Power BI. Odborníci na datové vědy pak mohou snadno sdílet výsledky své práce se zúčastněnými stranami a zjednodušují operacionalizaci.

Pomocí funkcí plánování poznámkového bloku můžete naplánovat spuštění poznámkových bloků, které obsahují dávkové vyhodnocování. Dávkové vyhodnocování můžete naplánovat také jako součást aktivit potrubí nebo úloh Spark. S režimem Direct Lake v Microsoft Fabric získá Power BI automaticky nejnovější předpovědi, aniž by bylo nutné načítat nebo aktualizovat data.

Datoví vědci a obchodní analytici tráví spoustu času tím, že se snaží pochopit, vyčistit a transformovat data před zahájením smysluplné analýzy. Obchodní analytici obvykle pracují s sémantickými modely a kódují znalosti domény a obchodní logiku do měr Power BI. Na druhou stranu můžou datoví vědci pracovat se stejnými daty, ale obvykle používají jiné prostředí nebo jazyk kódu. Sémantickým propojením můžou datoví vědci vytvořit propojení mezi sémantických modelů Power BI a datovými vědami Synapse v prostředí Microsoft Fabric prostřednictvím knihovny SemPy Python. Aby bylo možné zjednodušit analýzu dat, SemPy zachycuje a používá sémantiku dat, protože uživatelé provádějí různé transformace sémantických modelů. Když datoví vědci používají sémantické propojení, mohou

  • vyhněte se reimplementaci obchodní logiky a znalostí domény v kódu
  • snadný přístup k mírám Power BI a jejich používání v kódu
  • použití sémantiky k napájení nových prostředí – například sémantické funkce
  • prozkoumání a ověření funkčních závislostí a vztahů mezi daty

Když organizace používají SemPy, můžou očekávat

  • vyšší produktivita a rychlejší spolupráce napříč týmy, které pracují se stejnými datovými sadami
  • větší spolupráce napříč týmy business intelligence a umělé inteligence
  • menší nejednoznačnost a jednodušší křivka učení při připojování k novému modelu nebo datové sadě

Další informace o sémantickém odkazu naleznete v tématu Co je sémantický odkaz?.