Datatieteen skenaario alusta loppuun: johdanto ja arkkitehtuuri
Nämä opetusohjelmat esittelevät Fabric-tietojenkäsittelykokemuksen skenaariomallin päästä päähän. Voit ottaa käyttöön jokaisen vaiheen tietojen käsittelystä, puhdistamisesta ja valmistelusta koneoppimismallien harjoittamiseen ja merkityksellisten tietojen luomiseen sekä käyttää sitten näitä merkityksellisiä tietoja Power BI:n kaltaisten visualisointityökalujen avulla.
Jos olet uusi Microsoft Fabric -käyttäjä, katso Mikä on Microsoft Fabric?.
Johdanto
Datatiedeprojektin elinkaari sisältää yleensä (usein toistuvasti) seuraavat vaiheet:
- Liiketoimintaymmärrys
- Tietojen hankinta
- Tietojen tarkasteleminen, siistiminen, valmistelu ja visualisointi
- Mallin harjoittamisen ja kokeilujen seuranta
- Mallin pisteytys ja merkityksellisten tietojen luominen.
Kunkin vaiheen tavoitteet ja onnistumisen ehdot riippuvat yhteistyöstä, tietojen jakamisesta ja dokumentaatiosta. Fabric-datatieteen käyttökokemus koostuu useista alkuperäisistä ominaisuuksista, jotka mahdollistavat yhteistyön, tietojen hankkimisen, jakamisen ja kulutuksen saumattomasti.
Näissä opetusohjelmissa annat roolisi datatieteilijälle, jolle on annettu tehtäväksi tutkia, puhdistaa ja muuntaa tietojoukkoa, joka sisältää 10 000 asiakkaan vaihtuvuustilan pankissa. Sen jälkeen luot koneoppimismallin ennustaaksesi, ketkä pankkiasiakkaat todennäköisesti lähtevät.
Opit suorittamaan seuraavia toimia:
- Käytä Fabric-muistikirjoja tietojenkäsittelyskenaarioita varten.
- Tietojen käyttö Fabric-lakehouseen Apache Sparkin avulla.
- Lataa olemassa olevat tiedot Lakehousen delta-taulukoista.
- Siisti ja muunna tietoja Apache Spark- ja Python-pohjaisten työkalujen avulla.
- Luo kokeita ja suorituksia eri koneoppimismallien harjoittamiseksi.
- Rekisteröi ja seuraa harjoitettuja malleja MLflow'n ja Fabric-käyttöliittymän avulla.
- Suorita pisteytys mittakaavassa ja tallenna ennusteet ja tunnistustulokset Lakehouse-järjestelmään.
- Visualisoi Ennusteet Power BI:ssä DirectLaken avulla.
Arkkitehtuuri
Tässä opetusohjelmasarjassa esittelemme yksinkertaistetun päästä päähän -tietojenkäsittelyskenaarion, johon sisältyy:
- Tietojen käyttö ulkoisesta tietolähteestä.
- Tutki ja siisti tietoja.
- Opit kouluttamaan ja rekisteröimään koneoppimismalleja.
- Suorita erän pisteytys ja tallenna ennusteet.
- Visualisoi ennustetulokset Power BI:ssä.
Datatiedeskenaarion eri osat
Tietolähteet : Fabric on helppo ja nopea muodostaa yhteys Azure Data Servicesiin, muihin pilviympäristöihin ja paikallisiin tietolähteisiin, jotta voit käsitellä tietoja. Fabric Notebooks -muistikirjojen avulla voit käyttää tietoja sisäänrakennetusta Lakehousesta, Tietovarastosta, semanttisista malleista sekä erilaisista Apache Spark- ja Python-tuetuista mukautetuista tietolähteistä. Tässä opetusohjelmasarjassa keskitytään tietojen käyttöön ja lataamiseen Lakehousesta.
Tutki, siisti ja valmistele – Fabric-tietotieteen käyttökokemus tukee tietojen puhdistamista, muuntamista, tutkimista ja teemistä käyttämällä sisäisiä Spark-kokemuksia sekä Python-pohjaisia työkaluja, kuten Data Wrangler ja SemPy Library. Tässä opetusohjelmassa esitellään tietojen tarkasteleminen Python-kirjaston seaborn
avulla sekä tietojen puhdistaminen ja valmistelu Apache Sparkin avulla.
Mallit ja kokeilut – Fabric-toiminnolla voit harjoittaa, arvioida ja pisteillä koneoppimismalleja käyttämällä sisäisiä kokeiluja ja mallikohteita, joissa MLflow on integroitu saumattomasti. Näin voit kokeilla seurantaa ja mallin rekisteröintiä/käyttöönottoa. Fabricissa on myös ominaisuuksia mallin ennustamiseen mittakaavassa (PREDICT), joiden avulla voit hyödyntää ja jakaa merkityksellisiä liiketoimintatietoja.
Tallennus - Fabric standardoi Delta Lake -järvellä, mikä tarkoittaa, että kaikki Fabric-moottorit voivat käsitellä samaa tietojoukkoa, joka on tallennettu lakehouseen. Tämän tallennuskerroksen avulla voit tallentaa sekä jäsennettyjä että jäsentämättömiä tietoja, jotka tukevat sekä tiedostopohjaista tallennustilaa että taulukkomuotoa. Tallennetut tietojoukot ja tiedostot ovat helposti käytettävissä kaikkien Fabric-käyttökokemuskohteiden, kuten muistikirjojen ja putkien, kautta.
Paljastaa analyysit ja merkitykselliset tiedot – Lakehouse-tietovarastossa olevia tietoja voi käyttää Power BI, joka on alan johtava liiketoimintatietotyökalu, raportointiin ja visualisointiin. Lakehousessa säilyneet tiedot voidaan myös visualisoida muistikirjoissa käyttämällä Spark- tai Python-alkuperäisiä visualisointikirjastoja, kuten matplotlib
, seaborn
plotly
ja . Tiedot voidaan visualisoida myös SemPy-kirjastolla, joka tukee semanttisen tietomallin sisäisiä monipuolisia, tehtäväkohtaisia visualisointeja riippuvuuksille ja rikkomuksille sekä luokitus- ja regressiokäytön tapauksille.