Zdieľať cez


Komplexný scenár pre dátovú vedu: úvod a architektúra

Tieto kurzy predstavujú kompletný komplexný scenár v skúsenostiach dátovej vedy o službe Fabric. Pokrývajú každý krok, a to od

  • Prijímanie údajov
  • Čistenie údajov
  • Príprava údajov

komu:

  • Trénovanie modelu strojového učenia
  • Generovanie prehľadov

a potom pokryjte používanie týchto prehľadov pomocou nástrojov vizualizácie, napríklad Power BI.

Noví ľudia v službe Microsoft Fabric by mali navštíviť lokalitu Čo je Microsoft Fabric?.

Zavedenie

Životný cyklus projektu dátovej vedy zvyčajne zahŕňa tieto kroky:

  • Vysvetlenie obchodných pravidiel
  • Získanie údajov
  • Preskúmanie, vyčistenie, príprava a vizualizácia údajov
  • Trénovať model a sledovať experiment
  • Skóre modelu a generovanie prehľadov

Kroky často pokračujú opakovane. Ciele a kritériá úspešnosti každej fázy závisia od spolupráce, zdieľania údajov a dokumentácie. Skúsenosti z dátovej vedy služby Fabric zahŕňajú viaceré natívne vstavané funkcie, ktoré umožňujú bezproblémovú spoluprácu, získavanie, zdieľanie a spotrebu údajov.

Tieto kurzy sú pre vás úlohou dátového vedca, ktorý musí preskúmať, vyčistiť a transformovať množinu údajov, ktorá obsahuje stav výpovede 10 000 zákazníkov banky. Potom vytvoríte model strojového učenia, aby ste mohli predpovedať, z ktorého banky klienti pravdepodobne odídu.

V kurzoch vykonávate nasledujúce činnosti:

  1. Použitie poznámkových blokov služby Fabric pre scenáre dátovej vedy
  2. Použitie Apache Spark na ingestovanie údajov do útla Fabric lakehouse
  3. Načítanie existujúcich údajov z delta tabuliek lakehouse
  4. Vyčistenie a transformácia údajov pomocou nástrojov Apache Spark a Python
  5. Vytváranie experimentov a spustení na trénovanie rôznych modelov strojového učenia
  6. Používanie MLflow a používateľského rozhrania služby Fabric na registráciu a sledovanie trénovaných modelov
  7. Spustiť bodovanie na stupnici, a ušetriť predpovede a závernosť výsledky lakehouse
  8. Používanie služby DirectLake na vizualizáciu predpovedí v Službe Power BI

Architektúra

V tejto sérii kurzov sa prezentuje zjednodušený komplexný scenár dátovej vedy, ktorý zahŕňa:

  1. Príjem údajov z externého zdroja údajov.
  2. Skúmanie a čistenie údajov.
  3. Trénovanie modelu strojového učenia a registrácia.
  4. Ukladanie dávkového bodovania a predpovede.
  5. Vizualizácia výsledkov predpovede v Službe Power BI.

diagram súčastí komplexného scenára dátovej vedy.

Rôzne súčasti scenára dátovej vedy

Zdroje údajov – pri ingestovaní údajov pomocou služby Fabric sa môžete jednoducho a rýchlo pripojiť k službám Azure Data Services, iným cloudovým platformám a lokálnym zdrojom údajov. Pomocou poznámkových blokov služby Fabric môžete presunutie údajov z týchto zdrojov:

  • Vstavané služby Lakehouses
  • Sklady údajov
  • Semantic models
  • Rôzne zdroje údajov apache spark
  • Rôzne zdroje údajov, ktoré podporujú jazyk Python

Táto séria kurzov sa zameriava na príjem údajov a načítanie z jazera.

Preskúmanie, čistenie a príprava – skúsenosti z dátovej vedy o službe Fabric podporujú čistenie, transformáciu, skúmanie a uvádzanie údajov. Používa vstavané prostredia Spark a nástroje založené na jazyku Python, ako napríklad knižnicu Data Wrangler a SemPy. V tomto kurze sa naučíte skúmať údaje pomocou knižnice seaborn jazyka Python a vyčistí sa a pripravuje údaje so službou Apache Spark.

Modely a experimenty – pomocou služby Fabric môžete modely strojového učenia trénovať, hodnotiť a hodnotiť pomocou vstavaných experimentov. Na registráciu a nasadenie modelov a sledovanie experimentov ponúka MLflow bezproblémovú integráciu so službou Fabric ako spôsob modelovania položiek. Na vytváranie a zdieľanie podnikových prehľadov ponúka fabric ďalšie funkcie na predpovedanie modelu v mierke (PREDICT), na vytváranie a zdieľanie podnikových prehľadov.

Úložisko – fabric sa štandardizuje na Delta Lake, čo znamená, že všetky motory tkaniny môžu interagovať s rovnakou množinou údajov uloženou v úložisku Lakehouse. S danou vrstvou úložiska môžete ukladať štruktúrované aj neštruktúrované údaje, ktoré podporujú úložisko na základe súborov aj tabuľkový formát. K množinám údajov a uloženým súborom môžete jednoducho získať prístup prostredníctvom všetkých položiek prostredia služby Fabric – napríklad poznámkových blokov a kanálov.

Vystavenie analýzy a prehľadov – služba Power BI, ktorá je popredným nástrojom BI pre analytické nástroje, môže využívať údaje v prostredí lakehouse na generovanie zostáv a vizualizácií. V poznámkových blokoch knižnice natívnej vizualizácie Jazyka Python alebo Spark

  • matplotlib
  • seaborn
  • plotly
  • atď.

môže vizualizovať údaje uložené v dome jazera. Knižnica SemPy tiež podporuje vizualizáciu údajov. Táto knižnica podporuje vstavané bohaté vizualizácie špecifické pre danú úlohu pre

  • Sémantický dátový model
  • Závislosti a ich porušenia
  • Prípady klasifikácie a regresie

Ďalší krok