Hvad er datavidenskab i Microsoft Fabric?

Microsoft Fabric tilbyder datavidenskabsoplevelser, der giver brugerne mulighed for at fuldføre komplette datavidenskabsarbejdsprocesser med henblik på databerigelse og forretningsindsigt. Du kan udføre en lang række aktiviteter på tværs af hele datavidenskabsprocessen lige fra udforskning af data, forberedelse og rensning til eksperimentering, modellering, modelscore og visning af forudsigende indsigt i BI-rapporter.

Microsoft Fabric-brugere kan få adgang til en hjemmeside for datavidenskab. Herfra kan de finde og få adgang til forskellige relevante ressourcer. De kan f.eks. oprette eksperimenter med maskinel indlæring, modeller og notesbøger. De kan også importere eksisterende notesbøger på startsiden for datavidenskab.

Skærmbillede af startsiden for datavidenskab.

Du ved måske, hvordan en typisk datavidenskabelig proces fungerer. Som en velkendt proces følger de fleste projekter til maskinel indlæring den.

På et højt niveau omfatter processen disse trin:

  • Problemformulering og -ideation
  • Registrering og forbehandling af data
  • Eksperimentering og modellering
  • Berige og driftsklargøre
  • Få indsigt

Diagram over datavidenskabelig proces.

I denne artikel beskrives Microsoft Fabric Data Science-funktionerne fra et datavidenskabelig procesperspektiv. For hvert trin i datavidenskabsprocessen opsummerer denne artikel de Microsoft Fabric-funktioner, der kan hjælpe.

Problemformulering og -ideation

Data Science-brugere i Microsoft Fabric arbejder på samme platform som virksomhedsbrugere og analytikere. Datadeling og -samarbejde bliver mere problemfrit på tværs af forskellige roller som følge heraf. Analytikere kan nemt dele Power BI-rapporter og -datasæt med dataspecialister. Det lette samarbejde på tværs af roller i Microsoft Fabric gør det meget nemmere at aftage i problemformuleringsfasen.

Registrering og forbehandling af data

Microsoft Fabric-brugere kan interagere med data i OneLake ved hjælp af Lakehouse-elementet. Lakehouse kan nemt knyttes til en notesbog for at gennemse og interagere med data.

Brugerne kan nemt læse data fra et Lakehouse direkte i en Pandas-dataramme. I forbindelse med udforskning gør det problemfrie datalæsninger fra OneLake mulige.

Der er et effektivt sæt værktøjer til dataindtagelses- og dataorkestreringspipelines med pipelines til dataintegration – en indbygget integreret del af Microsoft Fabric. Datapipelines, der er nemme at bygge, kan få adgang til og transformere dataene til et format, som maskinel indlæring kan forbruge.

Dataudforskning

En vigtig del af maskinel indlæringsprocessen er at forstå data via udforskning og visualisering.

Afhængigt af placeringen af datalageret tilbyder Microsoft Fabric et sæt forskellige værktøjer til at udforske og forberede dataene til analyse og maskinel indlæring. Notesbøger bliver en af de hurtigste måder at komme i gang med dataudforskning på.

Apache Spark og Python til dataforberedelse

Microsoft Fabric tilbyder funktioner til at transformere, forberede og udforske dine data i stor skala. Med Spark kan brugerne bruge Værktøjerne PySpark/Python, Scala og SparkR/SparklyR til forbehandling af data i stor skala. Effektive visualiseringsbiblioteker med åben kildekode kan forbedre dataudforskningsoplevelsen for at hjælpe med bedre at forstå dataene.

Data Wrangler til problemfri rensning af data

Microsoft Fabric Notebook-oplevelsen tilføjede en funktion til brug af Data Wrangler, et kodeværktøj, der forbereder data og genererer Python-kode. Denne oplevelse gør det nemt at fremskynde kedelige og verdslige opgaver – f.eks. datarensning og opbygning af repeterbarhed og automatisering via genereret kode. Få mere at vide om Data Wrangler i afsnittet Data Wrangler i dette dokument.

Eksperimentering og ml-modellering

Med værktøjer som PySpark/Python, SparklyR/R kan notesbøger håndtere oplæring af modeller til maskinel indlæring.

Ml-algoritmer og -biblioteker kan hjælpe med at oplære modeller til maskinel indlæring. Værktøjer til administration af biblioteker kan installere disse biblioteker og algoritmer. Brugerne har derfor mulighed for at udnytte en lang række populære biblioteker til maskinel indlæring for at fuldføre deres ml-modeltræning i Microsoft Fabric.

Derudover kan populære biblioteker som F.eks. Scikit Learn også udvikle modeller.

MLflow-eksperimenter og kørsler kan spore ml-modeltræningen. Microsoft Fabric tilbyder en indbygget MLflow-oplevelse, som brugerne kan interagere med, så de kan logge eksperimenter og modeller. Få mere at vide om, hvordan du bruger MLflow til at spore eksperimenter og administrere modeller i Microsoft Fabric.

SynapseML

Open source-biblioteket SynapseML (tidligere kendt som MMLSpark), som Microsoft ejer og vedligeholder, forenkler oprettelsen af en omfattende skalerbar maskinel indlæringspipeline. Som et værktøjsøkosystem udvider det Apache Spark-strukturen i flere nye retninger. SynapseML samler flere eksisterende strukturer til maskinel indlæring og nye Microsoft-algoritmer til en enkelt skalerbar API. SynapseML-biblioteket med åben kildekode indeholder et omfattende økosystem af ML-værktøjer til udvikling af forudsigende modeller samt udnyttelse af forududdannede AI-modeller fra Azure AI-tjenester. Få mere at vide om SynapseML.

Berige og driftsklargøre

Notesbøger kan håndtere batchscore for modeller til maskinel indlæring med biblioteker med åben kildekode til forudsigelse eller microsoft Fabric-skalerbar universel Spark Predict-funktion, som understøtter MLflow-pakkede modeller i Microsoft Fabric-modelregistreringsdatabasen.

Få indsigt

I Microsoft Fabric kan forudsagte værdier nemt skrives til OneLake og uden problemer bruges fra Power BI-rapporter med Tilstanden Power BI Direct Lake. Det gør det meget nemt for datavidenskabelige fagfolk at dele resultater fra deres arbejde med interessenter, og det forenkler også driften.

Notesbøger, der indeholder batchscore, kan planlægges til at køre ved hjælp af planlægningsfunktionerne for notesbogen. Batchscore kan også planlægges som en del af datapipelineaktiviteter eller Spark-job. Power BI henter automatisk de nyeste forudsigelser uden behov for indlæsning eller opdatering af dataene takket være direct lake-tilstanden i Microsoft Fabric.

Vigtigt

Denne funktion er en prøveversion.

Datateknikere og forretningsanalytikere bruger meget tid på at forstå, rense og transformere data, før de kan starte en meningsfuld analyse. Forretningsanalytikere arbejder typisk med semantiske modeller og koder deres domænekendskab og forretningslogik i Power BI-målinger. På den anden side kan dataforskere arbejde med de samme data, men typisk i et andet kodemiljø eller sprog.

Semantisk link (prøveversion) gør det muligt for dataforskere at etablere en forbindelse mellem semantiske Power BI-modeller og Synapse Data Science i Microsoft Fabric-oplevelsen via SemPy Python-biblioteket. SemPy forenkler dataanalyser ved at registrere og udnytte datasemantik, når brugerne udfører forskellige transformationer på de semantiske modeller. Ved at udnytte semantisk link kan dataforskere:

  • undgå behovet for at implementere forretningslogik og domænekendskab igen i deres kode
  • nemt få adgang til og bruge Power BI-målinger i deres kode
  • brug semantik til at styrke nye oplevelser, f.eks. semantiske funktioner
  • udforske og validere funktionelle afhængigheder og relationer mellem data

Ved hjælp af SemPy kan organisationer forvente at se:

  • øget produktivitet og hurtigere samarbejde på tværs af teams, der arbejder på de samme datasæt
  • øget samarbejde på tværs af business intelligence- og AI-teams
  • reduceret flertydighed og en nemmere læringskurve, når du onboarder til en ny model eller et datasæt

Du kan få flere oplysninger om semantisk link under Hvad er semantisk link (prøveversion)?.