Hvad er datavidenskab i Microsoft Fabric?

I forbindelse med databerigelse og forretningsindsigt tilbyder Microsoft Fabric datavidenskabsoplevelser, der giver brugerne mulighed for at bygge komplette arbejdsprocesser for datavidenskab. Data science-arbejdsbelastninger kører direkte på styrede virksomhedsdata i OneLake, så du kan få adgang til kuraterede datasæt, delte data og forudsigelser uden at flytte data mellem systemer. For at komme i gang, se Data Science end-to-end tutorialen.

Du kan udføre en lang række aktiviteter på tværs af hele datavidenskabsprocessen:

Microsoft Fabric-brugere kan få adgang til en hjemmeside for datavidenskab. De kan derefter finde og få adgang til forskellige relevante ressourcer, som vist på følgende skærmbillede:

De fleste projekter til maskinel indlæring følger datavidenskabsprocessen. På et højt niveau omfatter denne proces disse trin:

I denne artikel beskrives Microsoft Fabric Data Science-funktionerne fra et datavidenskabelig procesperspektiv. For hvert trin i datavidenskabsprocessen opsummerer denne artikel de Microsoft Fabric-funktioner, der kan hjælpe.

Problemformulering og -ideation

Data Science-brugere i Microsoft Fabric arbejder på samme platform som virksomhedsbrugere og analytikere. Datadeling og -samarbejde bliver mere problemfrit på tværs af forskellige roller som følge heraf. Analytikere kan nemt dele Power BI-rapporter og -datasæt med dataspecialister. Det lette samarbejde på tværs af roller i Microsoft Fabric gør det nemmere at afleveringer i problemformuleringsfasen. Datadeling på tværs af lejere i OneLake muliggør yderligere samarbejde mellem flere organisationer, hvilket giver data science-teams adgang til styrede datasæt, der deles af eksterne partnere eller datterselskaber.

Registrering og forbehandling af data

Microsoft Fabric-brugere kan interagere med data i OneLake ved at bruge Lakehouse-ressourcen. Lakehouse kan nemt vedhæftes en notesbog for at gennemse og interagere med data. Brugerne kan nemt læse data fra et Lakehouse direkte i en Pandas-dataramme. Til udforskning bliver problemfrie datalæsninger fra OneLake derefter mulige.

OneLake-genveje udvider denne funktion ved at give adgang uden kopi til data, der er lagret i eksterne systemer eller delt fra andre Fabric-arbejdsområder og lejere. Du kan vedhæfte en genvej til et lakehouse og læse de refererede data i notesbøger uden duplikation eller ETL.

Der er et effektivt sæt værktøjer til dataindtagelses- og dataorkestreringspipelines med pipelines til dataintegration – en indbygget integreret del af Microsoft Fabric. Pipelines, der er nemme at bygge, kan få adgang til og transformere dataene til et format, som maskinel indlæring kan forbruge.

Udforskning af data

En vigtig del af maskinel indlæringsprocessen omfatter forståelse af data via udforskning og visualisering.

Afhængigt af placeringen af datalageret tilbyder Microsoft Fabric værktøjer til at udforske og forberede dataene til analyse og maskinel indlæring. Notesbøger bliver selv effektive og effektive værktøjer til udforskning af data.

Apache Spark og Python til dataforberedelse

Microsoft Fabric kan transformere, forberede og udforske dine data i stor skala. Med Spark kan brugerne bruge Værktøjerne PySpark/Python, Scala og SparkR/SparklyR til at forarbejde data i stor skala. Effektive visualiseringsbiblioteker med åben kildekode kan forbedre dataudforskningsoplevelsen for at få bedre dataforståelse.

Data Wrangler til problemfri rensning af data

For at bruge Data Wrangler har Microsoft Fabric Notebook-oplevelsen tilføjet en kodeværktøjsfunktion, der forbereder data og genererer Python-kode. Denne oplevelse gør det nemt at fremskynde kedelige og verdslige opgaver – f.eks. datarensning. Med den kan du også bygge automatisering og gentagelse via genereret kode. Få mere at vide om Data Wrangler i afsnittet Data Wrangler i dette dokument.

Eksperimentering og ml-modellering

Med værktøjer som PySpark/Python og SparklyR/R kan notesbøger håndtere oplæring af modeller til maskinel indlæring. Algoritmer og biblioteker til maskinel indlæring kan hjælpe med at oplære modeller til maskinel indlæring. Værktøjer til administration af biblioteker kan installere disse biblioteker og algoritmer. Brugerne kan derefter bruge populære biblioteker til maskinel indlæring til at fuldføre deres ml-modeltræning i Microsoft Fabric. Derudover kan populære biblioteker som F.eks. Scikit Learn også udvikle modeller.

MLflow-eksperimenter og kørsler kan spore ml-modeltræning. For at logge eksperimenter og modeller tilbyder Microsoft Fabric en indbygget MLflow-oplevelse, der understøtter interaktion. Få mere at vide om, hvordan du bruger MLflow til at spore eksperimenter og administrere modeller i Microsoft Fabric.

SynapseML

Microsoft ejer og driver SynapseML (tidligere kendt som MMLSpark) open source-biblioteket. Det forenkler oprettelsen af massivt skalerbare maskinlæringspipelines. Som et værktøjsøkosystem udvider det Apache Spark-strukturen i flere nye retninger. SynapseML samler flere eksisterende maskinlæringsframeworks og nye Microsoft-algoritmer i et enkelt, skalerbart API. Det open source SynapseML-bibliotek inkluderer et rigt økosystem af ML-værktøjer til udvikling af forudsigende modeller, og det bruger forudtrænede AI-modeller fra Foundry Tools. Du kan finde flere oplysninger ved at gå til SynapseML-ressourcen .

Berige og driftsklargøre

Notesbøger kan håndtere batchscore for model til maskinel indlæring med biblioteker med åben kildekode til forudsigelse. De kan også håndtere microsoft Fabric-skalerbare universelle Spark Predict-funktion. Denne funktion understøtter MLflow-pakkede modeller i Microsoft Fabric-modelregistreringsdatabasen.

Få indsigt

I Microsoft Fabric kan du nemt skrive forudsagte værdier til OneLake. Derfra kan Power BI-rapporter problemfrit forbruge dem med Power BI Direct Lake-tilstanden, som læser data direkte fra OneLake uden at kopiere dem ind i den semantiske model. Dette mønster uden kopiering holder forudsigelserne opdaterede og eliminerer overflødig dataflytning. Data science-praktikere kan derefter nemt dele resultaterne af deres arbejde med interessenter, og det forenkler operationaliseringen.

Du kan bruge planlægningsfunktioner for notesbøger til at planlægge kørsler af notesbøger, der indeholder batchscore. Du kan også planlægge batchscoring som en del af pipelineaktiviteter eller Spark-job. Med Direct Lake-tilstanden i Microsoft Fabric får Power BI automatisk de nyeste forudsigelser uden behov for databelastninger eller opdateringer.

Dataudforskning med semantisk link

Datateknikere og forretningsanalytikere bruger meget tid på at forstå, rense og transformere data, før meningsfuld analyse kan begynde. Forretningsanalytikere arbejder typisk med semantiske modeller og koder deres domæneviden og forretningslogik ind i Power BI-målinger. Data scientists kan derimod arbejde med de samme data, men typisk bruge et andet kodemiljø eller sprog. Med semantisk link kan dataeksperter oprette en forbindelse mellem semantiske Power BI-modeller og Synapse Data Science i Microsoft Fabric-oplevelsen via SemPy Python-biblioteket. For at forenkle dataanalyser registrerer og bruger SemPy datasemantik, når brugerne udfører forskellige transformationer på semantiske modeller. Når dataforskere bruger semantisk link, kan de

undgå genimplementering af forretningslogik og domænekendskab i deres kode
nemt få adgang til og bruge Power BI-målinger i deres kode
brug semantik til at styrke nye oplevelser – f.eks. semantiske funktioner
udforske og validere funktionelle afhængigheder og relationer mellem data

Når organisationer bruger SemPy, kan de forvente

øget produktivitet og hurtigere samarbejde på tværs af teams, der arbejder på de samme datasæt
øget samarbejde på tværs af business intelligence- og AI-teams
reduceret flertydighed og en nemmere læringskurve, når du onboarder til en ny model eller et nyt datasæt

For mere information om semantisk link, se Hvad er semantisk link?.

Besøg Selvstudier om datavidenskab for at komme i gang med datavidenskabseksempler fra ende til anden
Besøg Data Wrangler for at få flere oplysninger om dataforberedelse og -rengøring med Data Wrangler
Besøg Eksperiment med maskinel indlæring for at få mere at vide om sporingseksperimenter
Besøg Model til maskinel indlæring for at få mere at vide om modelstyring
Besøg Resultatmodeller med PREDICT for at få mere at vide om batchscore med Forudsig
Levere Lakehouse-forudsigelser til Power BI med Direct Lake

Feedback

Var denne side nyttig?

Last updated on 2026-03-31