Använda R för Apache Spark
Microsoft Fabric har inbyggt R-stöd för Apache Spark. Detta inkluderar stöd för SparkR och sparklyr, vilket gör att användare kan interagera med Spark med hjälp av välbekanta Spark- eller R-gränssnitt. Du kan analysera data med R via Spark-batchjobbsdefinitioner eller med interaktiva Microsoft Fabric-notebook-filer.
Viktigt
Microsoft Fabric är för närvarande i förhandsversion. Den här informationen gäller en förhandsversionsprodukt som kan ändras avsevärt innan den släpps. Microsoft lämnar inga garantier, uttryckta eller underförstådda, med avseende på den information som tillhandahålls här.
Det här dokumentet innehåller en översikt över hur du utvecklar Spark-program i Synapse med hjälp av R-språket.
Förutsättningar
En Power BI Premium prenumeration. Om du inte har någon läser du Så här köper du Power BI Premium.
En Power BI-arbetsyta med tilldelad Premium-kapacitet. Om du inte har en arbetsyta använder du stegen i Skapa en arbetsyta för att skapa en och tilldela den till en Premium-kapacitet.
Logga in på Microsoft Fabric.
Skapa och köra notebook-sessioner
Microsoft Fabric Notebook är ett webbgränssnitt där du kan skapa filer som innehåller livekod, visualiseringar och berättande text. Notebook-filer är ett bra ställe att validera idéer och använda snabba experiment för att få insikter från dina data. Notebook-filer används också ofta för förberedelse av data, datavisualisering, maskininlärning och andra stordatascenarier.
Om du vill komma igång med R i Microsoft Fabric-notebook-filer ändrar du det primära språket överst i anteckningsboken genom att ställa in språkalternativet på SparkR (R).
Dessutom kan du använda flera språk i en notebook-fil genom att ange det magiska språket i början av en cell.
%%sparkr
# Enter your R code here
Mer information om notebook-filer i Microsoft Fabric Analytics finns i Så här använder du notebook-filer.
Installera paket
Bibliotek ger återanvändbar kod som du kanske vill inkludera i dina program eller projekt. Om du vill göra kod från tredje part eller lokalt skapad tillgänglig för dina program kan du installera ett bibliotek på en arbetsyta eller notebook-session.
Mer information om hur du hanterar R-bibliotek finns i Hantering av R-bibliotek.
Verktyg för notebook-filer
Microsoft Spark Utilities (MSSparkUtils) är ett inbyggt paket som hjälper dig att enkelt utföra vanliga uppgifter. Du kan använda MSSparkUtils för att arbeta med filsystem, hämta miljövariabler, länka ihop notebook-filer och arbeta med hemligheter. MSSparkUtils stöds för R-notebook-filer.
För att komma igång kan du köra följande kommandon:
library(notebookutils)
mssparkutils.fs.help()
Läs mer om MSSparkUtils-kommandon som stöds i Använda Microsoft Spark Utilities.
Använda SparkR
SparkR är ett R-paket som tillhandahåller en lätt klientdel för att använda Apache Spark från R. SparkR tillhandahåller en distribuerad implementering av dataramar som stöder åtgärder som val, filtrering, aggregering osv. SparkR stöder även distribuerad maskininlärning med MLlib.
Du kan lära dig mer om hur du använder SparkR genom att gå till Så här använder du SparkR.
Använda sparklyr
sparklyr är ett R-gränssnitt för Apache Spark. Den tillhandahåller en mekanism för att interagera med Spark med hjälp av välbekanta R-gränssnitt. Du kan använda sparklyr via Spark batch-jobbdefinitioner eller med interaktiva Microsoft Fabric-notebook-filer.
Mer information om hur du använder sparklyr finns i Använda sparklyr.
Anteckning
Det finns inte stöd för att använda SparkR och sparklyr i samma notebook-session än.
Använda Tidyverse
Tidyverse är en samling R-paket som dataexperter ofta använder i dagliga dataanalyser. Den innehåller paket för dataimport (readr
), datavisualisering (ggplot2
), datamanipulering (dplyr
, tidyr
), funktionell programmering (purrr
) och modellskapande (tidymodels
) osv. Paketen i tidyverse
är utformade för att fungera sömlöst tillsammans och följa en konsekvent uppsättning designprinciper. Microsoft Fabric distribuerar den senaste stabila versionen av tidyverse
med varje körningsversion.
Mer information om hur du använder Tidyverse finns i Använda Tidyverse.
R-visualisering
R-ekosystemet erbjuder flera grafbibliotek som är fullspäckade med många olika funktioner. Som standard innehåller varje Spark-instans i Microsoft Fabric en uppsättning utvalda och populära bibliotek med öppen källkod. Du kan också lägga till eller hantera extra bibliotek eller versioner med hjälp av microsoft Fabric-bibliotekshanteringsfunktionerna.
Läs mer om hur du skapar R-visualiseringar genom att besöka R-visualiseringen.