Vad är Datavetenskap i Microsoft Fabric?

Microsoft Fabric erbjuder Datavetenskap funktioner för att ge användarna möjlighet att slutföra datavetenskapsarbetsflöden från slutpunkt till slutpunkt för databerikning och affärsinsikter. Du kan utföra en mängd olika aktiviteter i hela datavetenskapsprocessen, hela vägen från datautforskning, förberedelse och rensning till experimentering, modellering, modellbedömning och visning av förutsägelseinsikter till BI-rapporter.

Microsoft Fabric-användare kan komma åt en Datavetenskap startsida. Därifrån kan de identifiera och komma åt olika relevanta resurser. De kan till exempel skapa maskininlärningsexperiment, modeller och notebook-filer. De kan också importera befintliga notebook-filer på sidan Datavetenskap Start.

Skärmbild av startsidan för datavetenskap.

Du kanske vet hur en typisk datavetenskapsprocess fungerar. Som en välkänd process följer de flesta maskininlärningsprojekt den.

Processen omfattar följande steg på hög nivå:

  • Problemformulering och idé
  • Dataidentifiering och förbearbetning
  • Experimentering och modellering
  • Berika och operationalisera
  • Få insikter

Diagram över datavetenskapsprocessen.

Den här artikeln beskriver Microsoft Fabric-Datavetenskap funktioner ur ett datavetenskapsprocessperspektiv. För varje steg i datavetenskapsprocessen sammanfattar den här artikeln de Microsoft Fabric-funktioner som kan vara till hjälp.

Problemformulering och idé

Datavetenskap användare i Microsoft Fabric arbetar på samma plattform som företagsanvändare och analytiker. Datadelning och samarbete blir därför mer sömlöst mellan olika roller. Analytiker kan enkelt dela Power BI-rapporter och datauppsättningar med datavetenskapsutövare. Det enkla samarbetet mellan roller i Microsoft Fabric gör hand-offs under problemformuleringsfasen mycket enklare.

Dataidentifiering och förbearbetning

Microsoft Fabric-användare kan interagera med data i OneLake med hjälp av Lakehouse-objektet. Lakehouse kopplar enkelt till en notebook-fil för att bläddra och interagera med data.

Användare kan enkelt läsa data från en Lakehouse direkt till en Pandas-dataram. För utforskning gör detta sömlösa dataläsningar från OneLake möjliga.

Det finns en kraftfull uppsättning verktyg för datainmatning och dataorkestreringspipelines med dataintegreringspipelines – en inbyggt integrerad del av Microsoft Fabric. Lättbyggda datapipelines kan komma åt och omvandla data till ett format som maskininlärning kan använda.

Datautforskning

En viktig del av maskininlärningsprocessen är att förstå data genom utforskning och visualisering.

Beroende på platsen för datalagring erbjuder Microsoft Fabric en uppsättning olika verktyg för att utforska och förbereda data för analys och maskininlärning. Notebook-filer blir ett av de snabbaste sätten att komma igång med datautforskning.

Apache Spark och Python för förberedelse av data

Microsoft Fabric erbjuder funktioner för att transformera, förbereda och utforska dina data i stor skala. Med Spark kan användarna använda Verktygen PySpark/Python, Scala och SparkR/SparklyR för förbearbetning av data i stor skala. Kraftfulla visualiseringsbibliotek med öppen källkod kan förbättra datautforskningsupplevelsen för att bättre förstå data.

Data Wrangler för sömlös datarensning

Microsoft Fabric Notebook-upplevelsen har lagt till en funktion för att använda Data Wrangler, ett kodverktyg som förbereder data och genererar Python-kod. Den här upplevelsen gör det enkelt att påskynda omständliga och vardagliga uppgifter – till exempel datarensning och skapa repeterbarhet och automatisering via genererad kod. Läs mer om Data Wrangler i avsnittet Data Wrangler i det här dokumentet.

Experimentering och ML-modellering

Med verktyg som PySpark/Python, SparklyR/R kan notebook-filer hantera maskininlärningsmodellträning.

ML-algoritmer och -bibliotek kan hjälpa dig att träna maskininlärningsmodeller. Bibliotekshanteringsverktyg kan installera dessa bibliotek och algoritmer. Användarna har därför möjlighet att utnyttja ett stort antal populära maskininlärningsbibliotek för att slutföra ml-modellträningen i Microsoft Fabric.

Dessutom kan populära bibliotek som Scikit Learn även utveckla modeller.

MLflow-experiment och -körningar kan spåra ML-modellträningen. Microsoft Fabric erbjuder en inbyggd MLflow-upplevelse som användarna kan interagera med för att logga experiment och modeller. Läs mer om hur du använder MLflow för att spåra experiment och hantera modeller i Microsoft Fabric.

SynapseML

SynapseML-biblioteket (tidigare kallat MMLSpark) med öppen källkod, som Microsoft äger och underhåller, förenklar skapandet av en massivt skalbar maskininlärningspipeline. Som ett verktygsekosystem expanderar det Apache Spark-ramverket i flera nya riktningar. SynapseML förenar flera befintliga maskininlärningsramverk och nya Microsoft-algoritmer till ett enda skalbart API. SynapseML-biblioteket med öppen källkod innehåller ett omfattande ekosystem med ML-verktyg för utveckling av förutsägelsemodeller samt användning av förtränade AI-modeller från Azure AI-tjänster. Läs mer om SynapseML.

Berika och operationalisera

Notebook-filer kan hantera batchbedömning av maskininlärningsmodeller med bibliotek med öppen källkod för förutsägelse, eller microsoft fabric-skalbar universell Spark Predict-funktion, som stöder MLflow-paketerade modeller i Microsoft Fabric-modellregistret.

Få insikter

I Microsoft Fabric kan förutsagda värden enkelt skrivas till OneLake och sömlöst användas från Power BI-rapporter med Power BI Direct Lake-läget. Detta gör det mycket enkelt för datavetenskapsutövare att dela resultat från sitt arbete med intressenter och det förenklar även driftsättningen.

Notebook-filer som innehåller batchbedömning kan schemaläggas att köras med hjälp av funktionerna för schemaläggning av notebook-filer. Batchbedömning kan också schemaläggas som en del av datapipelineaktiviteter eller Spark-jobb. Power BI hämtar automatiskt de senaste förutsägelserna utan att behöva läsa in eller uppdatera data tack vare Direct Lake-läget i Microsoft Fabric.

Viktigt!

Den här funktionen är i förhandsversion.

Dataforskare och affärsanalytiker ägnar mycket tid åt att försöka förstå, rensa och transformera data innan de kan påbörja någon meningsfull analys. Affärsanalytiker arbetar vanligtvis med semantiska modeller och kodar sina domänkunskaper och affärslogik i Power BI-mått. Å andra sidan kan dataexperter arbeta med samma data, men vanligtvis i en annan kodmiljö eller ett annat språk.

Med semantisk länk (förhandsversion) kan dataforskare upprätta en anslutning mellan Power BI-semantiska modeller och Synapse-Datavetenskap i Microsoft Fabric-upplevelsen via SemPy Python-biblioteket. SemPy förenklar dataanalysen genom att samla in och utnyttja datasemantik när användare utför olika omvandlingar på semantiska modeller. Genom att utnyttja semantisk länk kan dataforskare:

  • undvika behovet av att implementera affärslogik och domänkunskap i sin kod
  • enkelt komma åt och använda Power BI-mått i sin kod
  • använda semantik för att skapa nya upplevelser, till exempel semantiska funktioner
  • utforska och validera funktionella beroenden och relationer mellan data

Med hjälp av SemPy kan organisationer förvänta sig att se:

  • ökad produktivitet och snabbare samarbete mellan team som arbetar med samma datauppsättningar
  • ökat samarbete mellan business intelligence- och AI-team
  • minskad tvetydighet och en enklare inlärningskurva vid registrering på en ny modell eller datauppsättning

Mer information om semantisk länk finns i Vad är semantisk länk (förhandsversion)?.