Hva er datavitenskap i Microsoft Fabric?

Microsoft Fabric tilbyr datavitenskapsopplevelser for å gi brukerne mulighet til å fullføre ende-til-ende-arbeidsflyter for datavitenskap med det formål å berike data og forretningsinnsikt. Du kan fullføre et bredt spekter av aktiviteter på tvers av hele datavitenskapsprosessen, hele veien fra datautforskning, forberedelse og rensing til eksperimentering, modellering, modellpoeng og servering av prediktiv innsikt i BI-rapporter.

Microsoft Fabric-brukere har tilgang til en hjemmeside for datavitenskap. Derfra kan de oppdage og få tilgang til ulike relevante ressurser. De kan for eksempel opprette maskinlæringseksperimenter, modeller og notatblokker. De kan også importere eksisterende notatblokker på hjemmesiden for datavitenskap.

Skjermbilde av hjemmesiden for datavitenskap.

Du vet kanskje hvordan en typisk prosess for datavitenskap fungerer. Som en velkjent prosess følger de fleste maskinlæringsprosjekter den.

Prosessen omfatter disse trinnene på et høyt nivå:

  • Problemformulering og ideer
  • Dataoppdagelse og forhåndsbehandling
  • Eksperimentering og modellering
  • Berike og operasjonalisere
  • Få innsikt

Diagram over datavitenskapsprosess.

Denne artikkelen beskriver Microsoft Fabric Data Science-funksjonene fra et perspektiv for datavitenskapsprosesser. For hvert trinn i datavitenskapsprosessen oppsummerer denne artikkelen Microsoft Fabric-funksjonene som kan hjelpe.

Problemformulering og ideer

Data Science-brukere i Microsoft Fabric arbeider på samme plattform som forretningsbrukere og analytikere. Datadeling og samarbeid blir mer sømløst på tvers av ulike roller som et resultat. Analytikere kan enkelt dele Power BI-rapporter og datasett med datavitenskapsutøvere. Den enkle samarbeidsmåten på tvers av roller i Microsoft Fabric gjør det mye enklere å bruke formuleringsfasen i problemformelen.

Dataoppdagelse og forhåndsbehandling

Microsoft Fabric-brukere kan samhandle med data i OneLake ved hjelp av Lakehouse-elementet. Lakehouse festes enkelt til en notatblokk for å bla gjennom og samhandle med data.

Brukere kan enkelt lese data fra et Lakehouse direkte inn i en Pandas-dataramme. For utforskning gjør dette sømløse datalesninger fra OneLake mulig.

Et kraftig sett med verktøy er tilgjengelig for datainntak og dataorkestreringssamlebånd med dataintegreringssamlebånd – en innebygd del av Microsoft Fabric. Datasamlebånd som er enkle å bygge, kan få tilgang til og transformere dataene til et format som maskinlæring kan bruke.

Datautforskning

En viktig del av maskinlæringsprosessen er å forstå data gjennom utforskning og visualisering.

Avhengig av plasseringen for datalagring tilbyr Microsoft Fabric et sett med forskjellige verktøy for å utforske og klargjøre dataene for analyse og maskinlæring. Notatblokker blir en av de raskeste måtene å komme i gang med datautforskning på.

Apache Spark og Python for klargjøring av data

Microsoft Fabric tilbyr muligheter til å transformere, klargjøre og utforske dataene dine i stor skala. Med Spark kan brukere dra nytte av PySpark/Python-, Scala- og SparkR/SparklyR-verktøy for forhåndsbehandling av data i stor skala. Kraftige visualiseringsbiblioteker med åpen kildekode kan forbedre datautforskningsopplevelsen for å hjelpe deg med å forstå dataene bedre.

Data Wrangler for sømløs datarensing

Microsoft Fabric Notebook-opplevelsen la til en funksjon for å bruke Data Wrangler, et kodeverktøy som klargjør data og genererer Python-kode. Denne erfaringen gjør det enkelt å akselerere kjedelige og dagligdagse oppgaver – for eksempel datarensing, og bygge repeterbarhet og automatisering gjennom generert kode. Mer informasjon om Data Wrangler i Data Wrangler-delen i dette dokumentet.

Eksperimentering og ML-modellering

Med verktøy som PySpark/Python, SparklyR/R, kan notatblokker håndtere maskinlæringsmodellopplæring.

ML-algoritmer og biblioteker kan hjelpe deg med å lære opp maskinlæringsmodeller. Bibliotekbehandlingsverktøy kan installere disse bibliotekene og algoritmene. Brukere har derfor muligheten til å dra nytte av et stort utvalg av populære maskinlæringsbiblioteker for å fullføre ML-modellopplæringen i Microsoft Fabric.

I tillegg kan populære biblioteker som Scikit Learn også utvikle modeller.

MLflow-eksperimenter og -kjøringer kan spore ML-modellopplæringen. Microsoft Fabric tilbyr en innebygd MLflow-opplevelse som brukere kan samhandle med, for å logge eksperimenter og modeller. Mer informasjon om hvordan du bruker MLflow til å spore eksperimenter og administrere modeller i Microsoft Fabric.

SynapseML

SynapseML (tidligere kjent som MMLSpark) åpen kildekode bibliotek, som Microsoft eier og vedlikeholder, forenkler massivt skalerbar maskinlæring pipeline opprettelse. Som et verktøyøkosystem utvider det Apache Spark-rammeverket i flere nye retninger. SynapseML forener flere eksisterende maskinlæringsrammeverk og nye Microsoft-algoritmer til én enkelt, skalerbar API. SynapseML-biblioteket med åpen kildekode inkluderer et rikt økosystem av ML-verktøy for utvikling av prediktive modeller, samt bruk av forhåndsutdannede AI-modeller fra Azure AI-tjenester. Mer informasjon om SynapseML.

Berike og operasjonalisere

Notatblokker kan håndtere maskinlæring modell batch scoring med åpen kildekode biblioteker for prediksjon, eller Microsoft Fabric skalerbar universell Spark Predict funksjon, som støtter MLflow pakket modeller i Microsoft Fabric modell registeret.

Få innsikt

I Microsoft Fabric kan forventede verdier enkelt skrives til OneLake og brukes sømløst fra Power BI-rapporter, med Power BI Direct Lake-modus. Dette gjør det svært enkelt for datavitenskapsutøvere å dele resultater fra sitt arbeid med interessenter, og det forenkler også operasjonalisering.

Notatblokker som inneholder satsvis poengsum, kan planlegges å kjøre ved hjelp av funksjonene for planlegging av notatblokker. Satsvis poengsum kan også planlegges som en del av datasamlebåndaktiviteter eller Spark-jobber. Power BI får automatisk de nyeste prognosene uten behov for innlasting eller oppdatering av dataene, takket være Direct Lake-modusen i Microsoft Fabric.

Viktig

Denne funksjonen er i forhåndsvisning.

Dataforskere og forretningsanalytikere bruker mye tid på å prøve å forstå, rengjøre og transformere data før de kan starte en meningsfull analyse. Forretningsanalytikere arbeider vanligvis med semantiske modeller og koder domenekunnskapen og forretningslogikken til Power BI-mål. På den annen side kan dataforskere arbeide med de samme dataene, men vanligvis i et annet kodemiljø eller språk.

Semantisk kobling (forhåndsvisning) gjør det mulig for dataforskere å etablere en forbindelse mellom Semantiske Power BI-modeller og Synapse Data Science i Microsoft Fabric-opplevelsen via SemPy Python-biblioteket. SemPy forenkler dataanalyse ved å fange opp og utnytte datasemantikk når brukere utfører ulike transformasjoner på semantiske modeller. Ved å utnytte semantisk kobling kan dataforskere:

  • unngå behovet for å implementere forretningslogikk og domenekunnskap på nytt i koden
  • få enkel tilgang til og bruke Power BI-mål i koden
  • bruke semantikk til å drive nye opplevelser, for eksempel semantiske funksjoner
  • utforske og validere funksjonelle avhengigheter og relasjoner mellom data

Gjennom bruk av SemPy kan organisasjoner forvente å se:

  • økt produktivitet og raskere samarbeid på tvers av team som opererer på de samme datasettene
  • økt tverrsamarbeid på tvers av forretningsintelligens- og AI-team
  • redusert tvetydighet og en enklere læringskurve når du legger på en ny modell eller et nytt datasett

Hvis du vil ha mer informasjon om semantisk kobling, kan du se Hva er semantisk kobling (forhåndsvisning)?.