Använda R för Apache Spark

Microsoft Fabric har inbyggt R-stöd för Apache Spark. Detta inkluderar stöd för SparkR och sparklyr, vilket gör att användare kan interagera med Spark med hjälp av välbekanta Spark- eller R-gränssnitt. Du kan analysera data med R via Spark-batchjobbsdefinitioner eller med interaktiva Microsoft Fabric-notebook-filer.

Viktigt

Microsoft Fabric är för närvarande i förhandsversion. Den här informationen gäller en förhandsversionsprodukt som kan ändras avsevärt innan den släpps. Microsoft lämnar inga garantier, uttryckta eller underförstådda, med avseende på den information som tillhandahålls här.

Det här dokumentet innehåller en översikt över hur du utvecklar Spark-program i Synapse med hjälp av R-språket.

Förutsättningar

Skapa och köra notebook-sessioner

Microsoft Fabric Notebook är ett webbgränssnitt där du kan skapa filer som innehåller livekod, visualiseringar och berättande text. Notebook-filer är ett bra ställe att validera idéer och använda snabba experiment för att få insikter från dina data. Notebook-filer används också ofta för förberedelse av data, datavisualisering, maskininlärning och andra stordatascenarier.

Om du vill komma igång med R i Microsoft Fabric-notebook-filer ändrar du det primära språket överst i anteckningsboken genom att ställa in språkalternativet på SparkR (R).

Dessutom kan du använda flera språk i en notebook-fil genom att ange det magiska språket i början av en cell.

%%sparkr
# Enter your R code here

Mer information om notebook-filer i Microsoft Fabric Analytics finns i Så här använder du notebook-filer.

Installera paket

Bibliotek ger återanvändbar kod som du kanske vill inkludera i dina program eller projekt. Om du vill göra kod från tredje part eller lokalt skapad tillgänglig för dina program kan du installera ett bibliotek på en arbetsyta eller notebook-session.

Mer information om hur du hanterar R-bibliotek finns i Hantering av R-bibliotek.

Verktyg för notebook-filer

Microsoft Spark Utilities (MSSparkUtils) är ett inbyggt paket som hjälper dig att enkelt utföra vanliga uppgifter. Du kan använda MSSparkUtils för att arbeta med filsystem, hämta miljövariabler, länka ihop notebook-filer och arbeta med hemligheter. MSSparkUtils stöds för R-notebook-filer.

För att komma igång kan du köra följande kommandon:

library(notebookutils)
mssparkutils.fs.help()

Läs mer om MSSparkUtils-kommandon som stöds i Använda Microsoft Spark Utilities.

Använda SparkR

SparkR är ett R-paket som tillhandahåller en lätt klientdel för att använda Apache Spark från R. SparkR tillhandahåller en distribuerad implementering av dataramar som stöder åtgärder som val, filtrering, aggregering osv. SparkR stöder även distribuerad maskininlärning med MLlib.

Du kan lära dig mer om hur du använder SparkR genom att gå till Så här använder du SparkR.

Använda sparklyr

sparklyr är ett R-gränssnitt för Apache Spark. Den tillhandahåller en mekanism för att interagera med Spark med hjälp av välbekanta R-gränssnitt. Du kan använda sparklyr via Spark batch-jobbdefinitioner eller med interaktiva Microsoft Fabric-notebook-filer.

Mer information om hur du använder sparklyr finns i Använda sparklyr.

Anteckning

Det finns inte stöd för att använda SparkR och sparklyr i samma notebook-session än.

Använda Tidyverse

Tidyverse är en samling R-paket som dataexperter ofta använder i dagliga dataanalyser. Den innehåller paket för dataimport (readr), datavisualisering (ggplot2), datamanipulering (dplyr, tidyr), funktionell programmering (purrr) och modellskapande (tidymodels) osv. Paketen i tidyverse är utformade för att fungera sömlöst tillsammans och följa en konsekvent uppsättning designprinciper. Microsoft Fabric distribuerar den senaste stabila versionen av tidyverse med varje körningsversion.

Mer information om hur du använder Tidyverse finns i Använda Tidyverse.

R-visualisering

R-ekosystemet erbjuder flera grafbibliotek som är fullspäckade med många olika funktioner. Som standard innehåller varje Spark-instans i Microsoft Fabric en uppsättning utvalda och populära bibliotek med öppen källkod. Du kan också lägga till eller hantera extra bibliotek eller versioner med hjälp av microsoft Fabric-bibliotekshanteringsfunktionerna.

Läs mer om hur du skapar R-visualiseringar genom att besöka R-visualiseringen.

Nästa steg