Hvad er Data Science i Microsoft Fabric?
Vigtigt
Microsoft Fabric er i øjeblikket i PRØVEVERSION. Disse oplysninger relaterer til et foreløbig produkt, der kan ændres væsentligt, før de udgives. Microsoft giver ingen garantier, udtrykt eller stiltiende, med hensyn til de oplysninger, der er angivet her.
Microsoft Fabric tilbyder datavidenskabsoplevelser, der giver brugerne mulighed for at fuldføre komplette arbejdsprocesser for datavidenskab med henblik på databerigelse og forretningsindsigt. Du kan udføre en lang række aktiviteter på tværs af hele datavidenskabsprocessen, lige fra udforskning, forberedelse og rensning af data til eksperimenter, modellering, modelscore og visning af forudsagt indsigt i BI-rapporter.
Microsoft Fabric-brugere kan få adgang til en hjemmeside for datavidenskab. Herfra kan de finde og få adgang til forskellige relevante ressourcer. De kan f.eks. oprette eksperimenter med maskinel indlæring, modeller og notesbøger. De kan også importere eksisterende notesbøger på siden Startside for datavidenskab.
Du ved måske, hvordan en typisk datavidenskabsproces fungerer. Som en velkendt proces følger de fleste projekter til maskinel indlæring det.
På et højt niveau omfatter processen disse trin:
- Problemformulering og -ideation
- Registrering og forbehandling af data
- Eksperimenter og modellering
- Gør det bedre og mere operationelt
- Få indsigt
I denne artikel beskrives Microsoft Fabric Data Science-funktionerne ud fra et datavidenskabelig procesperspektiv. For hvert trin i datavidenskabsprocessen opsummerer denne artikel de Microsoft Fabric-funktioner, der kan hjælpe.
Problemformulering og -ideation
Data Science-brugere i Microsoft Fabric arbejder på samme platform som forretningsbrugere og analytikere. Datadeling og -samarbejde bliver mere problemfrit på tværs af forskellige roller som følge heraf. Analytikere kan nemt dele Power BI-rapporter og -datasæt med dataspecialister. Det lette samarbejde på tværs af roller i Microsoft Fabric gør det meget nemmere at afleveringer i problemformuleringsfasen.
Dataregistrering og forbehandling
Microsoft Fabric-brugere kan interagere med data i OneLake ved hjælp af Lakehouse-elementet. Lakehouse kan nemt knyttes til en notesbog for at gennemse og interagere med data.
Brugerne kan nemt læse data fra et Lakehouse direkte i en Pandas-dataramme. Dette gør det muligt at læse problemfrie data fra One Lake til udforskning.
Der er et effektivt sæt værktøjer til dataindtagelse og dataorkestreringspipelines med pipelines til dataintegration – en indbygget integreret del af Microsoft Fabric. Datapipelines, der er nemme at bygge, kan få adgang til og transformere dataene til et format, som maskinel indlæring kan forbruge.
Udforskning af data
En vigtig del af processen til maskinel indlæring er at forstå data via udforskning og visualisering.
Afhængigt af placeringen af datalageret tilbyder Microsoft Fabric et sæt forskellige værktøjer til at udforske og forberede dataene til analyse og maskinel indlæring. Notesbøger bliver en af de hurtigste måder at komme i gang med dataudforskning på.
Apache Spark og Python til dataforberedelse
Microsoft Fabric tilbyder funktioner til at transformere, forberede og udforske dine data i stor skala. Med Spark kan brugerne bruge Værktøjerne PySpark/Python, Scala og SparkR/SparklyR til forbehandling af data i stor skala. Effektive visualiseringsbiblioteker med åben kildekode kan forbedre dataudforskningsoplevelsen for at hjælpe med at forstå dataene bedre.
Data Wrangler til problemfri datarensning
Microsoft Fabric Notebook-oplevelsen tilføjede en funktion til brug af Data Wrangler, et kodeværktøj, der forbereder data og genererer Python-kode. Denne oplevelse gør det nemt at fremskynde kedelige og verdslige opgaver – f.eks. datarensning og byg repeterbarhed og automatisering via genereret kode. Få mere at vide om Data Wrangler i afsnittet Data Wrangler i dette dokument.
Eksperimentering og ML-modellering
Med værktøjer som PySpark/Python, SparklyR/R kan notesbøger håndtere oplæring af modeller til maskinel indlæring.
ML-algoritmer og -biblioteker kan hjælpe med at oplære modeller til maskinel indlæring. Værktøjer til administration af biblioteker kan installere disse biblioteker og algoritmer. Brugerne har derfor mulighed for at udnytte en lang række populære biblioteker til maskinel indlæring for at fuldføre deres ml-modeltræning i Microsoft Fabric.
Derudover kan populære biblioteker som Scikit Learn også udvikle modeller.
MLflow-eksperimenter og -kørsler kan spore oplæringen af ML-modellen. Microsoft Fabric tilbyder en indbygget MlFlow-oplevelse, som brugerne kan interagere med, for at logge eksperimenter og modeller. Få mere at vide om, hvordan du bruger MLflow til at spore eksperimenter og administrere modeller i Microsoft Fabric.
SynapseML
Open source-biblioteket SynapseML (tidligere kendt som MMLSpark), som Microsoft ejer og vedligeholder, forenkler oprettelsen af en omfattende skalerbar pipeline til maskinel indlæring. Som et værktøjsøkosystem udvider det Apache Spark-strukturen i flere nye retninger. SynapseML samler flere eksisterende rammer for maskinel indlæring og nye Microsoft-algoritmer til en enkelt skalerbar API. SynapseML-biblioteket med åben kildekode indeholder et omfattende økosystem af ML-værktøjer til udvikling af forudsigende modeller samt udnyttelse af forududdannede AI-modeller fra Azure Cognitive Services. Få mere at vide om SynapseML.
Gør det bedre og mere operationelt
Notesbøger kan håndtere batchscore for maskinel indlæringsmodel med open source-biblioteker til forudsigelse eller den universelle Spark Predict-funktion i Microsoft Fabric, der kan skaleres, og som understøtter mlflowpakkede modeller i Microsoft Fabric-modelregistreringsdatabasen.
Få indsigt
I Microsoft Fabric kan forudsagte værdier nemt skrives til OneLake og forbruges problemfrit fra Power BI-rapporter med Tilstanden Power BI Direct Lake. Dette gør det meget nemt for datavidenskabelige fagfolk at dele resultater fra deres arbejde med interessenter, og det forenkler også drift.
Notesbøger, der indeholder batchscore, kan planlægges til at køre ved hjælp af planlægningsfunktionerne for notesbogen. Batchscore kan også planlægges som en del af aktiviteter i datapipelines eller Spark-job. Power BI henter automatisk de nyeste forudsigelser uden behov for indlæsning eller opdatering af dataene takket være direct lake-tilstanden i Microsoft Fabric.
Næste trin
- Kom i gang med eksempler på datavidenskab fra start til slut under Selvstudier om datavidenskab
- Få mere at vide om dataforberedelse og rensning med Data Wrangler under Data Wrangler
- Få mere at vide om sporing af eksperimenter under Eksperiment til maskinel indlæring
- Få mere at vide om administration af modeller under Model til maskinel indlæring
- Få mere at vide om batchscore med Forudsig, se Scoremodeller med PREDICT
- Servér forudsigelser fra Lakehouse til Power BI med Direct Lake Mode