Poznámka
Na prístup k tejto stránke sa vyžaduje oprávnenie. Môžete sa skúsiť prihlásiť alebo zmeniť adresáre.
Na prístup k tejto stránke sa vyžaduje oprávnenie. Môžete skúsiť zmeniť adresáre.
Tieto kurzy predstavujú kompletný komplexný scenár v skúsenostiach dátovej vedy o službe Fabric. Pokrývajú každý krok, a to od
- Prijímanie údajov
- Čistenie údajov
- Príprava údajov
komu:
- Trénovanie modelu strojového učenia
- Generovanie prehľadov
a potom pokryjte používanie týchto prehľadov pomocou nástrojov vizualizácie, napríklad Power BI.
Noví ľudia v službe Microsoft Fabric by mali navštíviť lokalitu Čo je Microsoft Fabric?.
Zavedenie
Životný cyklus projektu dátovej vedy zvyčajne zahŕňa tieto kroky:
- Vysvetlenie obchodných pravidiel
- Získanie údajov
- Preskúmanie, vyčistenie, príprava a vizualizácia údajov
- Trénovať model a sledovať experiment
- Skóre modelu a generovanie prehľadov
Kroky často pokračujú opakovane. Ciele a kritériá úspešnosti každej fázy závisia od spolupráce, zdieľania údajov a dokumentácie. Skúsenosti z dátovej vedy služby Fabric zahŕňajú viaceré natívne vstavané funkcie, ktoré umožňujú bezproblémovú spoluprácu, získavanie, zdieľanie a spotrebu údajov.
Tieto kurzy sú pre vás úlohou dátového vedca, ktorý musí preskúmať, vyčistiť a transformovať množinu údajov, ktorá obsahuje stav výpovede 10 000 zákazníkov banky. Potom vytvoríte model strojového učenia, aby ste mohli predpovedať, z ktorého banky klienti pravdepodobne odídu.
V kurzoch vykonávate nasledujúce činnosti:
- Použitie poznámkových blokov služby Fabric pre scenáre dátovej vedy
- Použitie Apache Spark na ingestovanie údajov do útla Fabric lakehouse
- Načítanie existujúcich údajov z delta tabuliek lakehouse
- Vyčistenie a transformácia údajov pomocou nástrojov Apache Spark a Python
- Vytváranie experimentov a spustení na trénovanie rôznych modelov strojového učenia
- Používanie MLflow a používateľského rozhrania služby Fabric na registráciu a sledovanie trénovaných modelov
- Spustiť bodovanie na stupnici, a ušetriť predpovede a závernosť výsledky lakehouse
- Používanie služby DirectLake na vizualizáciu predpovedí v Službe Power BI
Architektúra
V tejto sérii kurzov sa prezentuje zjednodušený komplexný scenár dátovej vedy, ktorý zahŕňa:
- Príjem údajov z externého zdroja údajov.
- Skúmanie a čistenie údajov.
- Trénovanie modelu strojového učenia a registrácia.
- Ukladanie dávkového bodovania a predpovede.
- Vizualizácia výsledkov predpovede v Službe Power BI.
Rôzne súčasti scenára dátovej vedy
Zdroje údajov – pri ingestovaní údajov pomocou služby Fabric sa môžete jednoducho a rýchlo pripojiť k službám Azure Data Services, iným cloudovým platformám a lokálnym zdrojom údajov. Pomocou poznámkových blokov služby Fabric môžete presunutie údajov z týchto zdrojov:
- Vstavané služby Lakehouses
- Sklady údajov
- Semantic models
- Rôzne zdroje údajov apache spark
- Rôzne zdroje údajov, ktoré podporujú jazyk Python
Táto séria kurzov sa zameriava na príjem údajov a načítanie z jazera.
Preskúmanie, čistenie a príprava – skúsenosti z dátovej vedy o službe Fabric podporujú čistenie, transformáciu, skúmanie a uvádzanie údajov. Používa vstavané prostredia Spark a nástroje založené na jazyku Python, ako napríklad knižnicu Data Wrangler a SemPy. V tomto kurze sa naučíte skúmať údaje pomocou knižnice seaborn
jazyka Python a vyčistí sa a pripravuje údaje so službou Apache Spark.
Modely a experimenty – pomocou služby Fabric môžete modely strojového učenia trénovať, hodnotiť a hodnotiť pomocou vstavaných experimentov. Na registráciu a nasadenie modelov a sledovanie experimentov ponúka MLflow bezproblémovú integráciu so službou Fabric ako spôsob modelovania položiek. Na vytváranie a zdieľanie podnikových prehľadov ponúka fabric ďalšie funkcie na predpovedanie modelu v mierke (PREDICT), na vytváranie a zdieľanie podnikových prehľadov.
Úložisko – fabric sa štandardizuje na Delta Lake, čo znamená, že všetky motory tkaniny môžu interagovať s rovnakou množinou údajov uloženou v úložisku Lakehouse. S danou vrstvou úložiska môžete ukladať štruktúrované aj neštruktúrované údaje, ktoré podporujú úložisko na základe súborov aj tabuľkový formát. K množinám údajov a uloženým súborom môžete jednoducho získať prístup prostredníctvom všetkých položiek prostredia služby Fabric – napríklad poznámkových blokov a kanálov.
Vystavenie analýzy a prehľadov – služba Power BI, ktorá je popredným nástrojom BI pre analytické nástroje, môže využívať údaje v prostredí lakehouse na generovanie zostáv a vizualizácií. V poznámkových blokoch knižnice natívnej vizualizácie Jazyka Python alebo Spark
matplotlib
seaborn
plotly
- atď.
môže vizualizovať údaje uložené v dome jazera. Knižnica SemPy tiež podporuje vizualizáciu údajov. Táto knižnica podporuje vstavané bohaté vizualizácie špecifické pre danú úlohu pre
- Sémantický dátový model
- Závislosti a ich porušenia
- Prípady klasifikácie a regresie