Hva er datavitenskap i Microsoft Fabric?
Viktig
Microsoft Fabric er i forhåndsversjon.
Microsoft Fabric tilbyr datavitenskapsopplevelser for å gi brukerne mulighet til å fullføre ende-til-ende-arbeidsflyter for datavitenskap med det formål å berike data og forretningsinnsikt. Du kan fullføre et bredt spekter av aktiviteter på tvers av hele datavitenskapsprosessen, hele veien fra datautforskning, forberedelse og rensing til eksperimentering, modellering, modellpoengberegning og servering av prediktiv innsikt til BI-rapporter.
Microsoft Fabric-brukere har tilgang til en hjemmeside for datavitenskap. Derfra kan de oppdage og få tilgang til ulike relevante ressurser. De kan for eksempel opprette maskinlæringseksperimenter, modeller og notatblokker. De kan også importere eksisterende notatblokker på hjemmesiden for datavitenskap.
Du vet kanskje hvordan en typisk datavitenskapsprosess fungerer. Som en velkjent prosess følger de fleste maskinlæringsprosjekter den.
På et høyt nivå omfatter prosessen disse trinnene:
- Problemformulering og ideering
- Dataoppdagelse og forhåndsbehandling
- Eksperimentering og modellering
- Berike og operasjonalisere
- Få innsikt
Denne artikkelen beskriver Microsoft Fabric Data Science-funksjonene fra et prosessperspektiv for datavitenskap. For hvert trinn i datavitenskapsprosessen oppsummerer denne artikkelen Microsoft Fabric-funksjonene som kan hjelpe.
Problemformulering og ideering
Data science-brukere i Microsoft Fabric arbeider på samme plattform som forretningsbrukere og analytikere. Datadeling og samarbeid blir mer sømløst på tvers av ulike roller som et resultat. Analytikere kan enkelt dele Power BI-rapporter og -datasett med datavitenskapsutøvere. Enkel samarbeid på tvers av roller i Microsoft Fabric gjør det mye enklere å levere i problemformelfasen.
Dataoppdagelse og forhåndsbehandling
Microsoft Fabric-brukere kan samhandle med data i OneLake ved hjelp av Lakehouse-elementet. Lakehouse kobler enkelt til en notatblokk for å bla gjennom og samhandle med data.
Brukere kan enkelt lese data fra en Lakehouse direkte inn i en Pandas-dataramme. For utforskning gjør dette sømløse datalesninger fra One Lake mulig.
Det finnes et kraftig sett med verktøy som er tilgjengelig for datainntak og dataorkestreringssamlebånd med dataintegreringssamlebånd – en innebygd del av Microsoft Fabric. Datasamlebånd som er enkle å bygge, kan få tilgang til og transformere dataene til et format som maskinlæring kan bruke.
Datautforsking
En viktig del av maskinlæringsprosessen er å forstå data gjennom utforskning og visualisering.
Avhengig av datalagringsplasseringen tilbyr Microsoft Fabric et sett med forskjellige verktøy for å utforske og klargjøre dataene for analyse og maskinlæring. Notatblokker blir en av de raskeste måtene å komme i gang med datautforskning på.
Apache Spark og Python for klargjøring av data
Microsoft Fabric tilbyr muligheter til å transformere, klargjøre og utforske dataene i stor skala. Med Spark kan brukere dra nytte av PySpark/Python-, Scala- og SparkR/SparklyR-verktøy for forhåndsbehandling av data i stor skala. Kraftige visualiseringsbiblioteker med åpen kilde kan forbedre datautforskingsopplevelsen for å bedre forstå dataene.
Data Wrangler for sømløs datarensing
Microsoft Fabric Notebook-opplevelsen la til en funksjon for å bruke Data Wrangler, et kodeverktøy som klargjør data og genererer Python-kode. Denne opplevelsen gjør det enkelt å akselerere kjedelige og dagligdagse oppgaver – for eksempel datarensing, og bygge repeterbarhet og automatisering gjennom generert kode. Mer informasjon om Data Wrangler i Data Wrangler-delen av dette dokumentet.
Eksperimentering og ML-modellering
Med verktøy som PySpark/Python, SparklyR/R kan notatblokker håndtere opplæring i maskinlæringsmodeller.
ML-algoritmer og biblioteker kan hjelpe deg med å lære opp maskinlæringsmodeller. Bibliotekbehandlingsverktøy kan installere disse bibliotekene og algoritmene. Brukere har derfor muligheten til å dra nytte av et stort utvalg av populære maskinlæringsbiblioteker for å fullføre ML-modellopplæringen i Microsoft Fabric.
I tillegg kan populære biblioteker som Scikit Learn også utvikle modeller.
MLflow-eksperimenter og -kjøringer kan spore ML-modellopplæringen. Microsoft Fabric tilbyr en innebygd MlFlow-opplevelse som brukere kan samhandle med, for å logge eksperimenter og modeller. Mer informasjon om hvordan du bruker MLflow til å spore eksperimenter og administrere modeller i Microsoft Fabric.
SynapseML
SynapseML (tidligere kjent som MMLSpark) åpen kilde-bibliotek, som Microsoft eier og vedlikeholder, forenkler massivt skalerbar maskinlæringssamlebåndoppretting. Som et verktøyøkosystem utvider det Apache Spark-rammeverket i flere nye retninger. SynapseML forener flere eksisterende rammeverk for maskinlæring og nye Microsoft-algoritmer til én enkelt, skalerbar API. SynapseML-biblioteket med åpen kilde inneholder et rikt økosystem av ML-verktøy for utvikling av prediktive modeller, samt bruk av forhåndstrente AI-modeller fra Azure Cognitive Services. Mer informasjon om SynapseML.
Berike og operasjonalisere
Notatblokker kan håndtere batchpoeng for maskinlæringsmodell med biblioteker med åpen kildekode for prognoser, eller Microsoft Fabric scalable universal Spark Predict-funksjonen, som støtter pakkede mlflow-modeller i Microsoft Fabric-modellregisteret.
Få innsikt
I Microsoft Fabric kan prognoseverdier enkelt skrives til OneLake, og sømløst forbrukes fra Power BI-rapporter, med Power BI Direct Lake-modus. Dette gjør det svært enkelt for datavitenskapsutøvere å dele resultater fra sitt arbeid med interessenter, og det forenkler også operasjonalisering.
Notatblokker som inneholder satsvis poengsum, kan planlegges å kjøre ved hjelp av funksjonene for planlegging av notatblokker. Satsvis poengsum kan også planlegges som en del av datasamlebåndaktiviteter eller Spark-jobber. Power BI får automatisk de nyeste prognosene uten behov for innlasting eller oppdatering av dataene, takket være Direct Lake-modusen i Microsoft Fabric.
Neste trinn
- Kom i gang med ende-til-ende-eksempler for datavitenskap, se Opplæringer for datavitenskap
- Mer informasjon om dataforberedelse og rensing med Data Wrangler, se Data Wrangler
- Mer informasjon om sporing av eksperimenter, se maskinlæringseksperiment
- Mer informasjon om administrasjon av modeller, se Maskinlæringsmodell
- Mer informasjon om satsvis poengsum med Forutsi, se Resultatmodeller med FORUTSI
- Server prognoser fra Lakehouse til Power BI med direct lake-modus