Ende-til-ende-scenario for datavitenskap: innføring og arkitektur

Dette settet med opplæringer viser et eksempel på ende-til-ende-scenario i stoffdatavitenskapsopplevelsen. Du implementerer hvert trinn fra datainntak, rensing og forberedelse, til opplæring av maskinlæringsmodeller og generering av innsikt, og deretter bruker du denne innsikten ved hjelp av visualiseringsverktøy som Power BI.

Hvis du ikke har brukt Microsoft Fabric før, kan du se Hva er Microsoft Fabric?.

Innledning

Livssyklusen til et datavitenskapsprosjekt inkluderer vanligvis (ofte, iterativt) følgende trinn:

  • Forretningsmessig forståelse
  • Datainnhenting
  • Datautforskning, rensing, forberedelse og visualisering
  • Modellopplæring og eksperimentsporing
  • Modellpoeng og generering av innsikt.

Målene og suksesskriteriene for hvert trinn avhenger av samarbeid, datadeling og dokumentasjon. Fabric data science-opplevelsen består av flere innebygde funksjoner som muliggjør samarbeid, datainnsamling, deling og forbruk på en sømløs måte.

I disse opplæringene tar du rollen som en dataforsker som har fått oppgaven med å utforske, rense og transformere et datasett som inneholder frafallsstatusen til 10 000 kunder i en bank. Deretter bygger du en maskinlæringsmodell for å forutsi hvilke bankkunder som sannsynligvis vil forlate.

Du vil lære å utføre følgende aktiviteter:

  1. Bruk Fabric-notatblokkene for datavitenskapsscenarioer.
  2. Inntak av data til et fabric lakehouse ved hjelp av Apache Spark.
  3. Last inn eksisterende data fra deltatabellene i lakehouse.
  4. Rengjør og transformer data ved hjelp av Apache Spark- og Python-baserte verktøy.
  5. Opprett eksperimenter og kjøringer for å lære opp ulike maskinlæringsmodeller.
  6. Registrer og spor opplærte modeller ved hjelp av MLflow og Fabric UI.
  7. Kjør scoring i stor skala og lagre spådommer og slutningsresultater til lakehouse.
  8. Visualiser prognoser i Power BI ved hjelp av DirectLake.

Arkitektur

I denne opplæringsserien viser vi frem et forenklet ende-til-ende-scenario for datavitenskap som involverer:

  1. Inntak av data fra en ekstern datakilde.
  2. Utforsk og rengjør data.
  3. Lær opp og registrer maskinlæringsmodeller.
  4. Utfør satsvise poengsummer og lagre prognoser.
  5. Visualiser prognoseresultater i Power BI.

Diagram of the Data science end-to-end scenario components.

Ulike komponenter i datavitenskapsscenarioet

Datakilder – Fabric gjør det enkelt og raskt å koble til Azure Data Services, andre skyplattformer og lokale datakilder for å innta data fra. Ved hjelp av Fabric Notebooks kan du innta data fra det innebygde Lakehouse, Data Warehouse, semantiske modeller og ulike Apache Spark- og Python-støttede egendefinerte datakilder. Denne opplæringsserien fokuserer på inninntak og innlasting av data fra et lakehouse.

Utforsk, rengjøre og klargjøre – Datavitenskapsopplevelsen på Fabric støtter datarensing, transformasjon, utforskning og utforskning ved hjelp av innebygde opplevelser på Spark samt Python-baserte verktøy som Data Wrangler og SemPy Library. Denne opplæringen viser datautforskning ved hjelp av Python-bibliotek seaborn og datarensing og forberedelse ved hjelp av Apache Spark.

Modeller og eksperimenter – Stoff gjør det mulig å lære opp, evaluere og score maskinlæringsmodeller ved hjelp av innebygde eksperimenter og modellelementer med sømløs integrering med MLflow for eksperimentsporing og modellregistrering/distribusjon. Fabric har også funksjoner for modellprognose i stor skala (PREDICT) for å få og dele forretningsinnsikt.

Storage - Fabric standardiserer på Delta Lake, noe som betyr at alle motorene i Fabric kan samhandle med samme datasett som er lagret i et lakehouse. Med dette lagringslaget kan du lagre både strukturerte og ustrukturerte data som støtter både filbasert lagring og tabellformat. Datasettene og filene som er lagret, kan enkelt nås via alle stoffopplevelseselementer som notatblokker og datasamlebånd.

Utsett analyse og innsikt – Data fra et lakehouse kan forbrukes av Power BI, bransjeledende verktøy for forretningsintelligens, for rapportering og visualisering. Data som vedvarer i lakehouse, kan også visualiseres i notatblokker ved hjelp av spark- eller Python-opprinnelige visualiseringsbiblioteker som matplotlib, seaborn, plotlyog mer. Data kan også visualiseres ved hjelp av SemPy-biblioteket som støtter innebygde rike, oppgavespesifikke visualiseringer for den semantiske datamodellen, for avhengigheter og brudd, og for klassifiserings- og regresjonsbrukstilfeller.

Neste trinn