Datatieteen skenaario alusta loppuun: johdanto ja arkkitehtuuri

Artikkeli
01/28/2025

Nämä opetusohjelmat esittelevät Fabric-tietojenkäsittelykokemuksen skenaariomallin päästä päähän. Voit ottaa käyttöön jokaisen vaiheen tietojen käsittelystä, puhdistamisesta ja valmistelusta koneoppimismallien harjoittamiseen ja merkityksellisten tietojen luomiseen sekä käyttää sitten näitä merkityksellisiä tietoja Power BI:n kaltaisten visualisointityökalujen avulla.

Jos olet uusi Microsoft Fabric -käyttäjä, katso Mikä Microsoft Fabric on?.

Johdanto

Datatiedeprojektin elinkaari sisältää yleensä (usein toistuvasti) seuraavat vaiheet:

Liiketoimintaymmärrys
Tietojen hankinta
Tietojen tarkasteleminen, siistiminen, valmistelu ja visualisointi
Mallin harjoittamisen ja kokeilujen seuranta
Mallin pisteytys ja merkityksellisten tietojen luominen.

Kunkin vaiheen tavoitteet ja onnistumisen ehdot riippuvat yhteistyöstä, tietojen jakamisesta ja dokumentaatiosta. Fabric-datatieteen käyttökokemus koostuu useista alkuperäisistä ominaisuuksista, jotka mahdollistavat yhteistyön, tietojen hankkimisen, jakamisen ja kulutuksen saumattomasti.

Näissä opetusohjelmissa annat roolisi datatieteilijälle, jolle on annettu tehtäväksi tutkia, puhdistaa ja muuntaa tietojoukkoa, joka sisältää 10 000 asiakkaan vaihtuvuustilan pankissa. Sen jälkeen luot koneoppimismallin ennustaaksesi, ketkä pankkiasiakkaat todennäköisesti lähtevät.

Opit suorittamaan seuraavia toimia:

Käytä Fabric-muistikirjoja tietojenkäsittelyskenaarioita varten.
Tietojen käyttö Fabric-lakehouseen Apache Sparkin avulla.
Lataa olemassa olevat tiedot Lakehousen delta-taulukoista.
Siisti ja muunna tietoja Apache Spark- ja Python-pohjaisten työkalujen avulla.
Luo kokeita ja suorituksia eri koneoppimismallien harjoittamiseksi.
Rekisteröi ja seuraa harjoitettuja malleja MLflow'n ja Fabric-käyttöliittymän avulla.
Suorita pisteytys mittakaavassa ja tallenna ennusteet ja tunnistustulokset Lakehouse-järjestelmään.
Visualisoi Ennusteet Power BI:ssä DirectLaken avulla.

Arkkitehtuuri

Tässä opetusohjelmasarjassa esittelemme yksinkertaistetun päästä päähän -tietojenkäsittelyskenaarion, johon sisältyy:

Datatiedeskenaarion eri osat

tietolähteiden – Fabricin avulla on helppo ja nopea muodostaa yhteys Azure-tietopalveluihin, muihin pilviympäristöihin ja paikallisiin tietolähteisiin, jotta voit käsitellä tietoja. Fabric Notebooks -muistikirjojen avulla voit käyttää tietoja sisäänrakennetusta Lakehousesta, Tietovarastosta, semanttisista malleista sekä erilaisista Apache Spark- ja Python-tuetuista mukautetuista tietolähteistä. Tässä opetusohjelmasarjassa keskitytään tietojen käyttöön ja lataamiseen Lakehousesta.

Tutki, siisti ja valmistele – Fabric-tietotieteen käyttökokemus tukee tietojen puhdistusta, muuntamista, tutkimista ja suunnittelua käyttämällä sisäisiä Spark-kokemuksia sekä Python-pohjaisia työkaluja, kuten Data Wrangler ja SemPy Library. Tässä opetusohjelmassa esitellään tietojen tarkasteleminen Python-kirjaston seaborn sekä tietojen puhdistaminen ja valmistelu Apache Sparkin avulla.

malleista ja kokeista – Fabricin avulla voit harjoittaa, arvioida ja pisteillä koneoppimismalleja käyttämällä sisäisiä kokeiluja ja mallikohteita, joiden saumaton integrointi MLflow - avulla voit kokeilla seurantaa ja mallin rekisteröintiä/käyttöönottoa. Fabricissa on myös ominaisuuksia mallin ennustamiseen mittakaavassa (PREDICT), joiden avulla voit hyödyntää ja jakaa merkityksellisiä liiketoimintatietoja.

Storage - Fabric standardoi Delta Lake, mikä tarkoittaa, että kaikki Fabric-moottorit voivat käsitellä samaa tietojoukkoa, joka on tallennettu lakehouseen. Tämän tallennuskerroksen avulla voit tallentaa sekä jäsennettyjä että jäsentämättömiä tietoja, jotka tukevat sekä tiedostopohjaista tallennustilaa että taulukkomuotoa. Tallennetut tietojoukot ja tiedostot ovat helposti käytettävissä kaikkien Fabric-käyttökokemuskohteiden, kuten muistikirjojen ja putkien, kautta.

Paljastaa analyysit ja merkitykselliset tiedot – Lakehousesta peräisin olevia tietoja voi käyttää Power BI, alan johtava liiketoimintatietotyökalu, raportointia ja visualisointia varten. Lakehousessa säilyneet tiedot voidaan visualisoida myös muistikirjoissa käyttämällä Spark- tai Python-alkuperäisiä visualisointikirjastoja, kuten matplotlib, seaborn, plotlyja niin edelleen. Tiedot voidaan visualisoida myös SemPy-kirjastolla, joka tukee semanttisen tietomallin sisäisiä monipuolisia, tehtäväkohtaisia visualisointeja riippuvuuksille ja rikkomuksille sekä luokitus- ja regressiokäytön tapauksille.

Seuraava vaihe

Järjestelmän valmisteleminen tietojenkäsittelytieteen opetusohjelmaa

Jaa

Datatieteen skenaario alusta loppuun: johdanto ja arkkitehtuuri

Johdanto

Arkkitehtuuri

Datatiedeskenaarion eri osat

Seuraava vaihe

Palaute

Lisäresursseja