Čo je Dátová veda v službe Microsoft Fabric?

Článok
15. 11. 2023

Služba Microsoft Fabric ponúka možnosti dátovej vedy na to, aby používateľom umožnila dokončiť komplexné pracovné postupy v oblasti dátovej vedy na účely obohatenia údajov a podnikových prehľadov. Môžete dokončiť širokú škálu aktivít v rámci celého procesu dátovej vedy, od skúmania, prípravy a čistenia údajov až po experimentovanie, modelovanie, bodovanie modelov a zobrazovanie prediktívnych prehľadov do zostáv BI.

Používatelia služby Microsoft Fabric majú prístup k domovskej stránke dátovej vedy. Odtiaľ môžu zisťovať rôzne relevantné zdroje a pristupovať k nim. Môžu napríklad vytvárať experimenty strojového učenia, modely a poznámkové bloky. Môžu tiež importovať existujúce poznámkové bloky na domovskej stránke Dátovej vedy.

Možno viete, ako funguje typický proces dátovej vedy. Ako známy proces sleduje väčšina projektov strojového učenia.

Na vyššej úrovni proces zahŕňa nasledujúce kroky:

Formulácia a prostredie problému
Zisťovanie údajov a predbežné spracovanie
Experimentovanie a modelovanie
Obohatenie a funkčnosť
Získať prehľady

Tento článok popisuje možnosti vedy o údajoch v službe Microsoft Fabric z hľadiska procesu dátovej vedy. V každom kroku procesu dátovej vedy tento článok sumarizuje funkcie služby Microsoft Fabric, ktoré vám môžu pomôcť.

Formulácia a prostredie problému

Používatelia dátovej vedy v službe Microsoft Fabric pracujú na rovnakej platforme ako podnikoví používatelia a analytici. Zdieľanie údajov a spolupráca budú vďaka tomu bezproblémovejšie v rámci rôznych rolí. Analytici môžu jednoducho zdieľať zostavy a množiny údajov služby Power BI s odborníkmi na dátovu vedu. Jednoduchá spolupráca v rámci rolí v službe Microsoft Fabric výrazne uľahčuje ruky počas fázy problémového formulovania.

Zisťovanie údajov a predbežné spracovanie

Používatelia služby Microsoft Fabric môžu pracovať s údajmi vo OneLake pomocou položky Lakehouse. Lakehouse sa jednoducho pripája k notebooku na prehľadávanie a interakciu s údajmi.

Používatelia môžu jednoducho čítať údaje z lakehouse priamo do údajového rámca Pandas. Na skúmanie tak môžete bezproblémovo čítať údaje zo služby OneLake.

Na príjem údajov a kanály prípravy údajov s kanálmi integrácie údajov je k dispozícii výkonná množina nástrojov – natívne integrovaná časť služby Microsoft Fabric. Jednoducho vytvárané kanály údajov môžu pristupovať k údajom a transformovať ich do formátu, ktorý môže využívať strojové učenie.

Prieskum údajov

Dôležitou súčasťou procesu strojového učenia je pochopenie údajov prostredníctvom skúmania a vizualizácie.

V závislosti od umiestnenia ukladacieho priestoru údajov ponúka Microsoft Fabric množinu rôznych nástrojov na skúmanie a prípravu údajov na analýzu a strojové učenie. Poznámkové bloky sa stávajú jedným z najrýchlejších spôsobov, ako začať s skúmaním údajov.

Apache Spark a Python na prípravu údajov

Microsoft Fabric ponúka možnosti na transformáciu, prípravu a skúmanie údajov vo väčšom meradle. S Spark môžu používatelia využívať nástroje PySpark/Python, Scala a SparkR/SparklyR na predbežné spracovanie údajov v mierke. Výkonné knižnice vizualizácií typu open-source môžu zlepšiť možnosti skúmania údajov a pomôcť tak lepšie pochopiť údaje.

Wrangler údajov na bezproblémovú čistenie údajov

Poznámkový blok v službe Microsoft Fabric pridal funkciu na používanie služby Data Wrangler, nástroja na prípravu údajov a generovanie kódu v jazyku Python. Vďaka tomuto zážitku môžete jednoducho zrýchliť únavné a svetské úlohy – napríklad čistenie údajov a vytvorenie opakovateľnosti a automatizácie prostredníctvom vygenerovaného kódu. Ďalšie informácie o Wrangleri údajov nájdete v časti Data Wrangler v tomto dokumente.

Experimentovanie a modelovanie strojového učenia

Pomocou nástrojov ako PySpark/Python, SparklyR/R môžu poznámkové bloky zvládnuť trénovanie modelu strojového učenia.

Algoritmy strojového učenia a knižnice môžu pomôcť trénovať modely strojového učenia. Nástroje na správu knižníc môžu nainštalovať tieto knižnice a algoritmy. Používatelia majú teda možnosť využiť širokú škálu populárnych knižníc strojového učenia na dokončenie trénovania modelu strojového učenia v službe Microsoft Fabric.

Okrem toho môžu obľúbené knižnice, ako napríklad Scikit Learn, tiež vyvíjať modely.

Experimenty a spustenia toku strojového učenia môžu sledovať trénovaie modelu strojového učenia. Microsoft Fabric ponúka vstavané prostredie pre MLflow, s ktorým môžu používatelia interagovať, na zaznamenávanie experimentov a modelov. Ďalšie informácie o tom, ako používať tok ML na sledovanie experimentov a spravovanie modelov v službe Microsoft Fabric.

SynapseML

Open-source knižnica SynapseML (predtým známa ako MMLSpark), ktorú vlastní a spravuje spoločnosť Microsoft, zjednodušuje masívne škálovateľné vytváranie kanálov strojového učenia. Ako ekosystém nástrojov rozširuje architektúru Apache Spark vo viacerých nových smeroch. SynapseML zjednotenie niekoľkých existujúcich rámcov strojového učenia a nových algoritmov spoločnosti Microsoft do jediného škálovateľného rozhrania API. Open-source knižnica SynapseML obsahuje bohatý ekosystém nástrojov strojového učenia na vývoj prediktívnych modelov a využívanie vopred trénovaných modelov AI zo služieb Azure AI. Ďalšie informácie o synapseML.

Obohatenie a funkčnosť

Poznámkové bloky dokážu zvládnuť dávkové skóre modelov strojového učenia s open-source knižnicami na predpovedanie alebo škálovateľnou univerzálnou funkciou Spark Predict, ktorá podporuje modely zbaleného MLflow v databáze Registry modelu služby Microsoft Fabric.

Získať prehľady

V službe Microsoft Fabric je možné predpovedať hodnoty jednoducho zapísať do služby OneLake a bez problémov sa používať zo zostáv služby Power BI pomocou režimu Direct Lake služby Power BI. To uľahčuje odborníkom na dátovú vedu zdieľať výsledky z ich práce so zainteresovanými stranami a zjednodušuje tiež prevádzku.

Poznámkové bloky, ktoré obsahujú dávkové skóre, je možné naplánovať, aby sa mohli spustiť pomocou možností plánovania poznámkového bloku. Dávkové bodovanie možno naplánovať aj ako súčasť aktivít údajového kanála alebo úloh Spark. Vďaka režimu Direct lake v službe Microsoft Fabric power BI automaticky získa najnovšie predpovede bez potreby načítania alebo obnovenia údajov.

Prieskum údajov so sémantickým prepojením

Dátoví vedci a obchodní analytici sa veľa času snažia pochopiť, vyčistiť a transformovať údaje, až potom môžu začať používať zmysluplnú analýzu. Obchodní analytici zvyčajne pracujú so sémantickými modelmi a kódujú svoje vedomosti o doméne a obchodnú logiku do mierok služby Power BI. Na druhej strane dátoví vedci môžu pracovať s tými istými údajmi, ale zvyčajne v inom prostredí kódu alebo jazyku.

Sémantické prepojenie umožňuje dátovým vedcom vytvoriť spojenie medzi sémantickými modelmi služby Power BI a prostredím Synapse Data Science v službe Microsoft Fabric prostredníctvom knižnice SemPy jazyka Python. SemPy zjednodušuje analýzu údajov zaznamenávaním a využitím sémantiky údajov počas toho, ako používatelia vykonávajú rôzne transformácie v sémantických modeloch. Využitím sémantických prepojení dátov vedci môžu:

potrebu opätovného implementácie obchodnej logiky a znalostí o doméne vo svojom kóde
jednoduchý prístup k mierkam Služby Power BI a ich používanie vo svojom kóde,
používať sémantiku na napájanie nových funkcií, ako sú napríklad sémantické funkcie,
preskúmať a overiť funkčné závislosti a vzťahy medzi údajmi,

Pri používaní semPy môžu organizácie očakávať:

vyššej produktivity a rýchlejšej spolupráce v rámci tímov, ktoré pracujú s tými istými množinami údajov,
vyššej krížovej spolupráce v rámci tímov Business Intelligence a AI.
nejednoznačnosť a jednoduchšiu krivku učenia pri prijímaní do nového modelu alebo množiny údajov.

Ďalšie informácie o sémantickom prepojení nájdete v téme Čo je sémantické prepojenie?.

Začnite pracovať so vzorkami komplexných vied o údajoch nájdete v téme Kurzy dátovej vedy
Ďalšie informácie o príprave a vyčistení údajov pomocou služby Data Wrangler nájdete v téme Data Wrangler.
Ďalšie informácie o sledovaní experimentov nájdete v téme experimentovanie strojového učenia
Ďalšie informácie o spravovaní modelov nájdete v téme model strojového učenia
Ďalšie informácie o bodovaní dávky pomocou položky Predpovedať nájdete v téme Modely skóre s PREDICT
Slúži na predpovede od služby Lakehouse k službe Power BI s Direct lake Mode

Ďalšie zdroje informácií

Dokumentácia

Data Science in Microsoft Fabric documentation - Microsoft Fabric

Summary of the Data Science documentation in Microsoft Fabric
What is Data engineering in Microsoft Fabric? - Microsoft Fabric

Learn about Data engineering core concepts in Microsoft Fabric and the analytics functionality it offers.
Machine learning model - Microsoft Fabric

Learn how to create machine learning models, manage versions within a model, track models, and apply a model.
Microsoft Fabric for Data Science

Discover how Microsoft Fabric enables you to explore, experiment, and enrich data. You will learn how to use Fabric notebooks in python to interact with data, use tools like Data Wrangler, Synapse ML, and Semantic Link to clean, transform, and featurize data and use MLflow to track and compare different machine learning models and experiments. Chapters 00:00 - Microsoft Fabric for Data Science 00:40 - What is Microsoft Fabric - The unified data platform for the era of AI 01:43 - What's included with Fabric
Data science lineage - Microsoft Fabric

Learn how the Microsoft Fabric lineage view helps you answer questions about data changes and report updates.
Disaster recovery guidance for Fabric Data Science - Microsoft Fabric

Guidance for disaster recovery in Fabric Data Science
Model scoring with PREDICT - Microsoft Fabric

Learn how to operationalize machine learning models in Fabric with a scalable function called PREDICT.
Data science tutorial - get started - Microsoft Fabric

Learn about the Data science tutorial, including an overview of the steps you follow through the series and details about the end-to-end scenario.

Školenie

Modul

Get started with data science in Microsoft Fabric - Training

Get started with data science in Microsoft Fabric by learning how to train a model in a notebook, and track your metrics with MLflow and experiments.

Certifikácia

Microsoft Certified: Fabric Data Engineer Associate - Certifications

As a Fabric Data Engineer, you should have subject matter expertise with data loading patterns, data architectures, and orchestration processes.

Udalosti

FabCon Vegas

31. 3., 23 - 2. 4., 23

Najväčšia vzdelávacia udalosť fabric, Power BI a SQL. 31. marec – 2. apríl. Pomocou kódu FABINSIDER ušetríte 400 USD.

Zaregistrujte sa

Zdieľať cez

Čo je Dátová veda v službe Microsoft Fabric?

Formulácia a prostredie problému

Zisťovanie údajov a predbežné spracovanie

Prieskum údajov

Apache Spark a Python na prípravu údajov

Wrangler údajov na bezproblémovú čistenie údajov

Experimentovanie a modelovanie strojového učenia

SynapseML

Obohatenie a funkčnosť

Získať prehľady

Prieskum údajov so sémantickým prepojením

Pripomienky

Ďalšie zdroje informácií

Zdieľať cez

Čo je Dátová veda v službe Microsoft Fabric?

Formulácia a prostredie problému

Zisťovanie údajov a predbežné spracovanie

Prieskum údajov

Apache Spark a Python na prípravu údajov

Wrangler údajov na bezproblémovú čistenie údajov

Experimentovanie a modelovanie strojového učenia

SynapseML

Obohatenie a funkčnosť

Získať prehľady

Prieskum údajov so sémantickým prepojením

Súvisiaci obsah

Pripomienky

Ďalšie zdroje informácií