Bemærk
Adgang til denne side kræver godkendelse. Du kan prøve at logge på eller ændre mapper.
Adgang til denne side kræver godkendelse. Du kan prøve at ændre mapper.
I forbindelse med databerigelse og forretningsindsigt tilbyder Microsoft Fabric datavidenskabsoplevelser, der giver brugerne mulighed for at bygge komplette arbejdsprocesser for datavidenskab. Du kan udføre en lang række aktiviteter på tværs af hele datavidenskabsprocessen:
- dataudforskning
- dataforberedelse
- datarensning
- eksperimenteren
- modeling
- modelscore
- servering af forudsigende indsigt i BI-rapporter
Microsoft Fabric-brugere kan få adgang til en hjemmeside for datavidenskab. De kan derefter finde og få adgang til forskellige relevante ressourcer, som vist på følgende skærmbillede:
De fleste projekter til maskinel indlæring følger datavidenskabsprocessen. På et højt niveau omfatter denne proces disse trin:
- problemformulering og -ideation
- registrering og forbehandling af data
- eksperimentering og modellering
- berige og operationalisere
- byg indsigt
I denne artikel beskrives Microsoft Fabric Data Science-funktionerne fra et datavidenskabelig procesperspektiv. For hvert trin i datavidenskabsprocessen opsummerer denne artikel de Microsoft Fabric-funktioner, der kan hjælpe.
Problemformulering og -ideation
Data Science-brugere i Microsoft Fabric arbejder på samme platform som virksomhedsbrugere og analytikere. Datadeling og -samarbejde bliver mere problemfrit på tværs af forskellige roller som følge heraf. Analytikere kan nemt dele Power BI-rapporter og -datasæt med dataspecialister. Det lette samarbejde på tværs af roller i Microsoft Fabric gør det nemmere at afleveringer i problemformuleringsfasen.
Registrering og forbehandling af data
Microsoft Fabric-brugere kan interagere med data i OneLake ved hjælp af Lakehouse-ressourcen. Lakehouse kan nemt vedhæftes en notesbog for at gennemse og interagere med data. Brugerne kan nemt læse data fra et Lakehouse direkte i en Pandas-dataramme. Til udforskning bliver problemfrie datalæsninger fra OneLake derefter mulige.
Der er et effektivt sæt værktøjer til dataindtagelses- og dataorkestreringspipelines med pipelines til dataintegration – en indbygget integreret del af Microsoft Fabric. Datapipelines, der er nemme at bygge, kan få adgang til og transformere dataene til et format, som maskinel indlæring kan forbruge.
Dataudforskning
En vigtig del af maskinel indlæringsprocessen omfatter forståelse af data via udforskning og visualisering.
Afhængigt af placeringen af datalageret tilbyder Microsoft Fabric værktøjer til at udforske og forberede dataene til analyse og maskinel indlæring. Notesbøger bliver selv effektive og effektive værktøjer til udforskning af data.
Apache Spark og Python til dataforberedelse
Microsoft Fabric kan transformere, forberede og udforske dine data i stor skala. Med Spark kan brugerne bruge Værktøjerne PySpark/Python, Scala og SparkR/SparklyR til at forarbejde data i stor skala. Effektive visualiseringsbiblioteker med åben kildekode kan forbedre dataudforskningsoplevelsen for at få bedre dataforståelse.
Data Wrangler til problemfri rensning af data
For at bruge Data Wrangler har Microsoft Fabric Notebook-oplevelsen tilføjet en kodeværktøjsfunktion, der forbereder data og genererer Python-kode. Denne oplevelse gør det nemt at fremskynde kedelige og verdslige opgaver – f.eks. datarensning. Med den kan du også bygge automatisering og gentagelse via genereret kode. Få mere at vide om Data Wrangler i afsnittet Data Wrangler i dette dokument.
Eksperimentering og ml-modellering
Med værktøjer som PySpark/Python og SparklyR/R kan notesbøger håndtere oplæring af modeller til maskinel indlæring. Algoritmer og biblioteker til maskinel indlæring kan hjælpe med at oplære modeller til maskinel indlæring. Værktøjer til administration af biblioteker kan installere disse biblioteker og algoritmer. Brugerne kan derefter bruge populære biblioteker til maskinel indlæring til at fuldføre deres ml-modeltræning i Microsoft Fabric. Derudover kan populære biblioteker som F.eks. Scikit Learn også udvikle modeller.
MLflow-eksperimenter og kørsler kan spore ml-modeltræning. For at logge eksperimenter og modeller tilbyder Microsoft Fabric en indbygget MLflow-oplevelse, der understøtter interaktion. Få mere at vide om, hvordan du bruger MLflow til at spore eksperimenter og administrere modeller i Microsoft Fabric.
SynapseML
Microsoft ejer og driver Open Source-biblioteket SynapseML (tidligere kaldet MMLSpark). Det forenkler oprettelsen af en omfattende skalerbar pipeline til maskinel indlæring. Som et værktøjsøkosystem udvider det Apache Spark-strukturen i flere nye retninger. SynapseML samler flere eksisterende strukturer til maskinel indlæring og nye Microsoft-algoritmer til en enkelt skalerbar API. SynapseML-biblioteket med åben kildekode indeholder et omfattende økosystem af ML-værktøjer til forudsigende modeludvikling, og det bruger forudtrænede AI-modeller fra Azure AI-tjenester. Du kan finde flere oplysninger ved at gå til SynapseML-ressourcen .
Berige og driftsklargøre
Notesbøger kan håndtere batchscore for model til maskinel indlæring med biblioteker med åben kildekode til forudsigelse. De kan også håndtere microsoft Fabric-skalerbare universelle Spark Predict-funktion. Denne funktion understøtter MLflow-pakkede modeller i Microsoft Fabric-modelregistreringsdatabasen.
Få indsigt
I Microsoft Fabric kan du nemt skrive forudsagte værdier til OneLake. Herfra kan Power BI-rapporter uden problemer bruge dem i Power BI Direct Lake-tilstand. Datavidenskabseksperter kan derefter nemt dele resultaterne af deres arbejde med interessenter – og det forenkler driften.
Du kan bruge planlægningsfunktioner for notesbøger til at planlægge kørsler af notesbøger, der indeholder batchscore. Du kan også planlægge batchscore som en del af datapipelineaktiviteter eller Spark-job. Med Direct Lake-tilstanden i Microsoft Fabric får Power BI automatisk de nyeste forudsigelser uden behov for databelastninger eller opdateringer.
Dataudforskning med semantisk link
Datateknikere og forretningsanalytikere bruger meget tid på at forstå, rense og transformere data, før meningsfuld analyse kan begynde. Forretningsanalytikere arbejder typisk med semantiske modeller og koder deres domænekendskab og forretningslogik i Power BI-målinger. På den anden side kan dataforskere arbejde med de samme data, men typisk i et andet kodemiljø eller sprog. Med semantisk link kan dataeksperter oprette en forbindelse mellem semantiske Power BI-modeller og Synapse Data Science i Microsoft Fabric-oplevelsen via SemPy Python-biblioteket. For at forenkle dataanalyser registrerer og bruger SemPy datasemantik, når brugerne udfører forskellige transformationer på semantiske modeller. Når dataforskere bruger semantisk link, kan de
- undgå genimplementering af forretningslogik og domænekendskab i deres kode
- nemt få adgang til og bruge Power BI-målinger i deres kode
- brug semantik til at styrke nye oplevelser – f.eks. semantiske funktioner
- udforske og validere funktionelle afhængigheder og relationer mellem data
Når organisationer bruger SemPy, kan de forvente
- øget produktivitet og hurtigere samarbejde på tværs af teams, der arbejder på de samme datasæt
- øget samarbejde på tværs af business intelligence- og AI-teams
- reduceret flertydighed og en nemmere læringskurve, når du onboarder til en ny model eller et nyt datasæt
Du kan finde flere oplysninger om semantisk link ved at gå til ressourcen Hvad er semantisk link?
Relateret indhold
- Besøg Selvstudier om datavidenskab for at komme i gang med datavidenskabseksempler fra ende til anden
- Besøg Data Wrangler for at få flere oplysninger om dataforberedelse og -rengøring med Data Wrangler
- Besøg Eksperiment med maskinel indlæring for at få mere at vide om sporingseksperimenter
- Besøg Model til maskinel indlæring for at få mere at vide om modelstyring
- Besøg Resultatmodeller med PREDICT for at få mere at vide om batchscore med Forudsig
- Servér Lakehouse-forudsigelser til Power BI med Direct Lake Mode