Udalosti
31. 3., 23 - 2. 4., 23
Najväčšia vzdelávacia udalosť fabric, Power BI a SQL. 31. marec – 2. apríl. Pomocou kódu FABINSIDER ušetríte 400 USD.
Zaregistrujte saTento prehliadač už nie je podporovaný.
Inovujte na Microsoft Edge a využívajte najnovšie funkcie, aktualizácie zabezpečenia a technickú podporu.
Služba Microsoft Fabric ponúka možnosti dátovej vedy na to, aby používateľom umožnila dokončiť komplexné pracovné postupy v oblasti dátovej vedy na účely obohatenia údajov a podnikových prehľadov. Môžete dokončiť širokú škálu aktivít v rámci celého procesu dátovej vedy, od skúmania, prípravy a čistenia údajov až po experimentovanie, modelovanie, bodovanie modelov a zobrazovanie prediktívnych prehľadov do zostáv BI.
Používatelia služby Microsoft Fabric majú prístup k domovskej stránke dátovej vedy. Odtiaľ môžu zisťovať rôzne relevantné zdroje a pristupovať k nim. Môžu napríklad vytvárať experimenty strojového učenia, modely a poznámkové bloky. Môžu tiež importovať existujúce poznámkové bloky na domovskej stránke Dátovej vedy.
Možno viete, ako funguje typický proces dátovej vedy. Ako známy proces sleduje väčšina projektov strojového učenia.
Na vyššej úrovni proces zahŕňa nasledujúce kroky:
Tento článok popisuje možnosti vedy o údajoch v službe Microsoft Fabric z hľadiska procesu dátovej vedy. V každom kroku procesu dátovej vedy tento článok sumarizuje funkcie služby Microsoft Fabric, ktoré vám môžu pomôcť.
Používatelia dátovej vedy v službe Microsoft Fabric pracujú na rovnakej platforme ako podnikoví používatelia a analytici. Zdieľanie údajov a spolupráca budú vďaka tomu bezproblémovejšie v rámci rôznych rolí. Analytici môžu jednoducho zdieľať zostavy a množiny údajov služby Power BI s odborníkmi na dátovu vedu. Jednoduchá spolupráca v rámci rolí v službe Microsoft Fabric výrazne uľahčuje ruky počas fázy problémového formulovania.
Používatelia služby Microsoft Fabric môžu pracovať s údajmi vo OneLake pomocou položky Lakehouse. Lakehouse sa jednoducho pripája k notebooku na prehľadávanie a interakciu s údajmi.
Používatelia môžu jednoducho čítať údaje z lakehouse priamo do údajového rámca Pandas. Na skúmanie tak môžete bezproblémovo čítať údaje zo služby OneLake.
Na príjem údajov a kanály prípravy údajov s kanálmi integrácie údajov je k dispozícii výkonná množina nástrojov – natívne integrovaná časť služby Microsoft Fabric. Jednoducho vytvárané kanály údajov môžu pristupovať k údajom a transformovať ich do formátu, ktorý môže využívať strojové učenie.
Dôležitou súčasťou procesu strojového učenia je pochopenie údajov prostredníctvom skúmania a vizualizácie.
V závislosti od umiestnenia ukladacieho priestoru údajov ponúka Microsoft Fabric množinu rôznych nástrojov na skúmanie a prípravu údajov na analýzu a strojové učenie. Poznámkové bloky sa stávajú jedným z najrýchlejších spôsobov, ako začať s skúmaním údajov.
Microsoft Fabric ponúka možnosti na transformáciu, prípravu a skúmanie údajov vo väčšom meradle. S Spark môžu používatelia využívať nástroje PySpark/Python, Scala a SparkR/SparklyR na predbežné spracovanie údajov v mierke. Výkonné knižnice vizualizácií typu open-source môžu zlepšiť možnosti skúmania údajov a pomôcť tak lepšie pochopiť údaje.
Poznámkový blok v službe Microsoft Fabric pridal funkciu na používanie služby Data Wrangler, nástroja na prípravu údajov a generovanie kódu v jazyku Python. Vďaka tomuto zážitku môžete jednoducho zrýchliť únavné a svetské úlohy – napríklad čistenie údajov a vytvorenie opakovateľnosti a automatizácie prostredníctvom vygenerovaného kódu. Ďalšie informácie o Wrangleri údajov nájdete v časti Data Wrangler v tomto dokumente.
Pomocou nástrojov ako PySpark/Python, SparklyR/R môžu poznámkové bloky zvládnuť trénovanie modelu strojového učenia.
Algoritmy strojového učenia a knižnice môžu pomôcť trénovať modely strojového učenia. Nástroje na správu knižníc môžu nainštalovať tieto knižnice a algoritmy. Používatelia majú teda možnosť využiť širokú škálu populárnych knižníc strojového učenia na dokončenie trénovania modelu strojového učenia v službe Microsoft Fabric.
Okrem toho môžu obľúbené knižnice, ako napríklad Scikit Learn, tiež vyvíjať modely.
Experimenty a spustenia toku strojového učenia môžu sledovať trénovaie modelu strojového učenia. Microsoft Fabric ponúka vstavané prostredie pre MLflow, s ktorým môžu používatelia interagovať, na zaznamenávanie experimentov a modelov. Ďalšie informácie o tom, ako používať tok ML na sledovanie experimentov a spravovanie modelov v službe Microsoft Fabric.
Open-source knižnica SynapseML (predtým známa ako MMLSpark), ktorú vlastní a spravuje spoločnosť Microsoft, zjednodušuje masívne škálovateľné vytváranie kanálov strojového učenia. Ako ekosystém nástrojov rozširuje architektúru Apache Spark vo viacerých nových smeroch. SynapseML zjednotenie niekoľkých existujúcich rámcov strojového učenia a nových algoritmov spoločnosti Microsoft do jediného škálovateľného rozhrania API. Open-source knižnica SynapseML obsahuje bohatý ekosystém nástrojov strojového učenia na vývoj prediktívnych modelov a využívanie vopred trénovaných modelov AI zo služieb Azure AI. Ďalšie informácie o synapseML.
Poznámkové bloky dokážu zvládnuť dávkové skóre modelov strojového učenia s open-source knižnicami na predpovedanie alebo škálovateľnou univerzálnou funkciou Spark Predict, ktorá podporuje modely zbaleného MLflow v databáze Registry modelu služby Microsoft Fabric.
V službe Microsoft Fabric je možné predpovedať hodnoty jednoducho zapísať do služby OneLake a bez problémov sa používať zo zostáv služby Power BI pomocou režimu Direct Lake služby Power BI. To uľahčuje odborníkom na dátovú vedu zdieľať výsledky z ich práce so zainteresovanými stranami a zjednodušuje tiež prevádzku.
Poznámkové bloky, ktoré obsahujú dávkové skóre, je možné naplánovať, aby sa mohli spustiť pomocou možností plánovania poznámkového bloku. Dávkové bodovanie možno naplánovať aj ako súčasť aktivít údajového kanála alebo úloh Spark. Vďaka režimu Direct lake v službe Microsoft Fabric power BI automaticky získa najnovšie predpovede bez potreby načítania alebo obnovenia údajov.
Dátoví vedci a obchodní analytici sa veľa času snažia pochopiť, vyčistiť a transformovať údaje, až potom môžu začať používať zmysluplnú analýzu. Obchodní analytici zvyčajne pracujú so sémantickými modelmi a kódujú svoje vedomosti o doméne a obchodnú logiku do mierok služby Power BI. Na druhej strane dátoví vedci môžu pracovať s tými istými údajmi, ale zvyčajne v inom prostredí kódu alebo jazyku.
Sémantické prepojenie umožňuje dátovým vedcom vytvoriť spojenie medzi sémantickými modelmi služby Power BI a prostredím Synapse Data Science v službe Microsoft Fabric prostredníctvom knižnice SemPy jazyka Python. SemPy zjednodušuje analýzu údajov zaznamenávaním a využitím sémantiky údajov počas toho, ako používatelia vykonávajú rôzne transformácie v sémantických modeloch. Využitím sémantických prepojení dátov vedci môžu:
Pri používaní semPy môžu organizácie očakávať:
Ďalšie informácie o sémantickom prepojení nájdete v téme Čo je sémantické prepojenie?.
Udalosti
31. 3., 23 - 2. 4., 23
Najväčšia vzdelávacia udalosť fabric, Power BI a SQL. 31. marec – 2. apríl. Pomocou kódu FABINSIDER ušetríte 400 USD.
Zaregistrujte saŠkolenie
Modul
Get started with data science in Microsoft Fabric - Training
Get started with data science in Microsoft Fabric by learning how to train a model in a notebook, and track your metrics with MLflow and experiments.
Certifikácia
Microsoft Certified: Fabric Data Engineer Associate - Certifications
As a Fabric Data Engineer, you should have subject matter expertise with data loading patterns, data architectures, and orchestration processes.
Dokumentácia
Data Science in Microsoft Fabric documentation - Microsoft Fabric
Summary of the Data Science documentation in Microsoft Fabric
What is Data engineering in Microsoft Fabric? - Microsoft Fabric
Learn about Data engineering core concepts in Microsoft Fabric and the analytics functionality it offers.
Machine learning model - Microsoft Fabric
Learn how to create machine learning models, manage versions within a model, track models, and apply a model.