Sdílet prostřednictvím


Kompletní scénář datové vědy: úvod a architektura

Tyto návody představují kompletní end-to-end scénář v prostředí pro datové vědy Fabric. Pokrývají každý krok, od

  • Příjem dat
  • Čištění dat
  • Příprava dat

na

  • Trénování modelu strojového učení
  • Generování přehledů

a pak proberete využití těchto přehledů pomocí vizualizačních nástrojů – například Power BI.

Lidé, kteří jsou noví v Microsoft Fabric, by měli navštívit Co je Microsoft Fabric?.

Úvod

Životní cyklus projektu datových věd obvykle zahrnuje tyto kroky:

  • Vysvětlení obchodních pravidel
  • Získání dat
  • Prozkoumání, vyčištění, příprava a vizualizace dat
  • Trénování modelu a sledování experimentu
  • Určení skóre modelu a generování přehledů

Kroky často postupují iterativně. Cíle a kritéria úspěchu jednotlivých fází závisí na spolupráci, sdílení dat a dokumentaci. Prostředí pro datové vědy infrastruktury zahrnuje několik nativních funkcí, které umožňují bezproblémovou spolupráci, získávání dat, sdílení a spotřebu.

Tyto kurzy vás umístí do role datového vědce, který musí prozkoumat, vyčistit a transformovat datovou sadu, která obsahuje stav četnosti změn 10 000 bankovních zákazníků. Pak vytvoříte model strojového učení, který předpovídá, kteří zákazníci banky pravděpodobně odejdou.

V kurzech provedete následující aktivity:

  1. Použití poznámkových bloků Fabric pro scénáře datových věd
  2. Použijte Apache Spark pro načítání dat do fabric lakehouse.
  3. Načtení existujících dat z tabulek Delta lakehouse
  4. Vyčištění a transformace dat pomocí nástrojů založených na Apache Sparku a Pythonu
  5. Vytváření experimentů a spuštění pro trénování různých modelů strojového učení
  6. Použití MLflow a uživatelského rozhraní Fabric k registraci a sledování natrénovaných modelů
  7. Spuštění skóringu ve velkém měřítku a uložení předpovědí a výsledků odvozování do datového úložiště
  8. Použití DirectLake k vizualizaci předpovědí v Power BI

Architektura

Tato série kurzů představuje zjednodušený komplexní scénář datových věd zahrnující:

  1. Příjem dat z externího zdroje dat
  2. Zkoumání a čištění dat
  3. Trénování a registrace modelu strojového učení
  4. Dávkové vyhodnocování a ukládání předpovědí
  5. Vizualizace výsledků předpovědi v Power BI

diagram komplexních komponent scénáře datových věd

Různé komponenty scénáře datových věd

Zdroje dat – k ingestování dat pomocí Fabric se můžete snadno a rychle připojit ke službám Azure Data Services, dalším cloudovým platformám a místním datovým zdrojům. S poznámkovými bloky Fabric můžete importovat data z těchto prostředků:

  • Vestavěné datové sklady jezerního typu
  • Datové sklady
  • Sémantické modely
  • Různé zdroje dat Apache Sparku
  • Různé zdroje dat, které podporují Python

Tato série kurzů se zaměřuje na příjem a načítání dat z jezera.

Prozkoumání, vyčištění a příprava – Prostředí datové vědy v platformě Fabric podporuje čištění, transformaci, zkoumání/analýzu a generování funkcí dat. Používá integrované prostředí Sparku a nástroje založené na Pythonu – například knihovnu Data Wrangler a SemPy. Tento kurz předvádí zkoumání dat pomocí seaborn knihovny Pythonu a čištění a přípravu dat pomocí Apache Sparku.

Modely a experimenty – Pomocí prostředků infrastruktury můžete trénovat, vyhodnocovat a vyhodnocovat modely strojového učení pomocí integrovaných experimentů. Pro registraci a nasazení modelů a sledování experimentů nabízí MLflow bezproblémovou integraci s platformou Fabric jako způsob modelování položek. K vytváření a sdílení obchodních přehledů nabízí Fabric další funkce pro predikci modelu ve velkém měřítku (PREDICT).

Storage – Fabric standardizuje na Delta Lake, což znamená, že všechny engine Fabric mohou pracovat se stejnou datovou sadou uloženou v datovém skladu typu lakehouse. V této vrstvě úložiště můžete ukládat strukturovaná i nestrukturovaná data, která podporují ukládání na základě souborů i tabulkového formátu. K datovým sadám a uloženým souborům můžete snadno přistupovat prostřednictvím všech položek prostředí Fabric – například k poznámkovým blokům a kanálům.

Zveřejnění analýzy a přehledů – Power BI, špičkový nástroj business intelligence, může využívat data lakehouse pro generování sestav a vizualizací. V prostředcích poznámkového bloku, nativních knihovnách vizualizací v Pythonu nebo Sparku

  • matplotlib
  • seaborn
  • plotly
  • atd.

může vizualizovat data zachovaná v jezeře. Knihovna SemPy podporuje také vizualizaci dat. Tato knihovna podporuje integrované bohaté vizualizace specifické pro úlohy pro

  • Sémantický datový model
  • Závislosti a jejich porušení
  • Případy použití klasifikace a regrese

Další krok