Kompletní scénář datových věd: úvod a architektura
Tato sada kurzů ukazuje ukázkový kompletní scénář v prostředí datových věd o prostředcích infrastruktury. Implementujete každý krok od příjmu dat, čištění a přípravy až po trénování modelů strojového učení a generování přehledů a pak tyto přehledy použijete pomocí vizualizačních nástrojů, jako je Power BI.
Důležité
Microsoft Fabric je ve verzi Preview.
Pokud s Microsoft Fabric začínáte, přečtěte si téma Co je Microsoft Fabric?.
Úvod
Životní cyklus projektu datových věd obvykle zahrnuje (často iterativně) následující kroky:
- Principy podniku
- Získání dat
- Zkoumání, čištění, příprava a vizualizace dat
- Trénování modelů a sledování experimentů
- Vyhodnocování modelů a generování přehledů
Cíle a kritéria úspěchu každé fáze závisí na spolupráci, sdílení dat a dokumentaci. Prostředí datových věd o prostředcích infrastruktury se skládá z několika nativních funkcí, které bezproblémovým způsobem umožňují spolupráci, získávání, sdílení a využívání dat.
V těchto kurzech převezmete roli datového vědce, který dostal za úkol prozkoumat, vyčistit a transformovat datovou sadu obsahující data o jízdách taxicab. Pak vytvoříte model strojového učení, který bude předpovídat dobu trvání cesty ve velkém měřítku u velké datové sady.
Naučíte se provádět následující aktivity:
Poznámkové bloky prostředků infrastruktury použijte ve scénářích datových věd.
Ingestování dat do Fabric Lakehouse pomocí Apache Sparku
Načtěte existující data z tabulek Lakehouse Delta.
Čištění a transformace dat pomocí Apache Sparku
Vytvořte experimenty a spuštění pro trénování modelu strojového učení.
Registrace a sledování natrénovaných modelů pomocí MLflow a uživatelského rozhraní Fabric
Spusťte bodování ve velkém měřítku a uložte předpovědi a výsledky odvozování do lakehouse.
Vizualizace předpovědí v Power BI pomocí DirectLake
Architektura
V této sérii kurzů představíme zjednodušený kompletní scénář datových věd, který zahrnuje:
- Příjem dat z externího zdroje dat
- Zkoumání a vizualizace dat.
- Čištění dat, příprava a příprava funkcí.
- Trénování a vyhodnocení modelu.
- Dávkové vyhodnocování modelů a ukládání předpovědí pro spotřebu
- Vizualizace výsledků predikce
Různé komponenty scénáře datových věd
Zdroje dat – Prostředky infrastruktury usnadňují a rychle se připojují k datovým službám Azure, dalším cloudovým platformám a místním zdrojům dat, ze které ingestují data. Pomocí poznámkových bloků prostředků infrastruktury můžete ingestovat data z integrovaného lakehouse, Data Warehouse, datových sad Power BI a různých vlastních zdrojů dat podporovaných Apache Sparkem a Pythonem. Tato série kurzů se zaměřuje na ingestování a načítání dat z lakehouse.
Zkoumání, čištění a příprava – Prostředí datových věd v prostředcích infrastruktury podporuje čištění, transformaci, zkoumání a extrakci dat pomocí integrovaných prostředí ve Sparku a také nástrojů založených na Pythonu, jako jsou Data Wrangler a Knihovna SemPy. V tomto kurzu si ukážeme zkoumání dat pomocí knihovny seaborn
Pythonu a čištění a přípravu dat pomocí Apache Sparku.
Modely a experimenty – Prostředky infrastruktury umožňují trénovat, vyhodnocovat a hodnotit modely strojového učení pomocí integrovaných položek experimentů a modelů s bezproblémovou integrací s MLflow pro sledování experimentů a registraci/nasazení modelů. Prostředky infrastruktury také poskytují funkce pro predikci modelů ve velkém měřítku (PREDICT), které umožňují získávat a sdílet obchodní přehledy.
Úložiště – Prostředky infrastruktury se standardizují v Delta Lake, což znamená, že všechny moduly Fabric můžou pracovat se stejnou datovou sadou uloženou v Lakehouse. Tato vrstva úložiště umožňuje ukládat strukturovaná i nestrukturovaná data, která podporují souborové úložiště i tabulkový formát. K uloženým datovým sadám a souborům je možné snadno přistupovat prostřednictvím všech položek prostředí Prostředků infrastruktury, jako jsou poznámkové bloky a kanály.
Zveřejnění analýz a přehledů – Data z Lakehouse může využívat Power BI, špičkový nástroj business intelligence, pro vytváření sestav a vizualizaci. Data uložená v Lakehouse se také dají vizualizovat v poznámkových blocích pomocí knihoven vizualizací nativních pro Spark nebo Python, jako jsou matplotlib
, seaborn
plotly
, a další. Data je také možné vizualizovat pomocí knihovny SemPy, která podporuje integrované bohaté vizualizace specifické pro úlohy pro sémantický datový model, pro závislosti a jejich porušení a pro případy použití klasifikace a regrese.
Další kroky
Váš názor
Odeslat a zobrazit názory pro