Bruk R for Apache Spark
Microsoft Fabric gir innebygd R-støtte for Apache Spark. Dette inkluderer støtte for SparkR og sparklyr, som gjør det mulig for brukere å samhandle med Spark ved hjelp av kjente Spark- eller R-grensesnitt. Du kan analysere data ved hjelp av R via Spark-satsvise jobbdefinisjoner eller med interaktive Microsoft Fabric-notatblokker.
Dette dokumentet gir en oversikt over utvikling av Spark-programmer i Synapse ved hjelp av R-språket.
Få et Microsoft Fabric-abonnement. Eller registrer deg for en gratis prøveversjon av Microsoft Fabric.
Logg på Microsoft Fabric.
Bruk opplevelsesbryteren til venstre på hjemmesiden for å bytte til Synapse Data Science-opplevelsen.
Microsoft Fabric-notatblokken er et nettgrensesnitt som du kan bruke til å opprette filer som inneholder live-kode, visualiseringer og narrativ tekst. Notatblokker er et godt sted å validere ideer og bruke hurtigeksperimenter for å få innsikt fra dataene. Notatblokker brukes også mye i dataforberedelse, datavisualisering, maskinlæring og andre store datascenarioer.
Hvis du vil komme i gang med R i Microsoft Fabric-notatblokker, endrer du primærspråket øverst i notatblokken ved å angi språkalternativet til SparkR (R).
I tillegg kan du bruke flere språk i én notatblokk ved å angi den magiske språkkommandoen i begynnelsen av en celle.
%%sparkr
# Enter your R code here
Hvis du vil lære mer om notatblokker i Microsoft Fabric Analytics, kan du se Slik bruker du notatblokker.
Biblioteker gir gjenbrukbar kode som du kanskje vil inkludere i programmene eller prosjektene. Hvis du vil gjøre tredjepartskode eller lokalt bygget kode tilgjengelig for programmene dine, kan du installere et bibliotek på ett av arbeidsområdet eller notatblokkøkten.
Hvis du vil lære mer om hvordan du administrerer R-biblioteker, kan du se administrasjon av R-biblioteker.
Microsoft Spark Utilities (MSSparkUtils) er en innebygd pakke som hjelper deg med å utføre vanlige oppgaver på en enkel måte. Du kan bruke MSSparkUtils til å arbeide med filsystemer, få miljøvariabler, kjede notatblokker sammen og til å arbeide med hemmeligheter. MSSparkUtils støttes for R-notatblokker.
Du kan komme i gang ved å kjøre følgende kommandoer:
library(notebookutils)
mssparkutils.fs.help()
Mer informasjon om de støttede MSSparkUtils-kommandoene på Bruk Microsoft Spark Utilities.
SparkR er en R-pakke som gir en lett front for å bruke Apache Spark fra R. SparkR gir en distribuert implementering av datarammer som støtter operasjoner som valg, filtrering, aggregasjon osv. SparkR støtter også distribuert maskinlæring ved hjelp av MLlib.
Du kan lære mer om hvordan du bruker SparkR ved å gå til Slik bruker du SparkR.
sparklyr er et R-grensesnitt til Apache Spark. Det gir en mekanisme for å samhandle med Spark ved hjelp av kjente R-grensesnitt. Du kan bruke sparklyr gjennom spark batch jobbdefinisjoner eller med interaktive Microsoft Fabric notatblokker.
Hvis du vil lære mer om hvordan du bruker sparklyr, kan du gå til Slik bruker du sparklyr.
Tidyverse er en samling av R-pakker som dataforskere vanligvis bruker i daglige dataanalyser. Den inneholder pakker for dataimport (readr
), datavisualisering (ggplot2
), datamanipulering (dplyr
, tidyr
), funksjonell programmering (purrr
) og modellbygging (tidymodels
) osv. Pakkene i tidyverse
er utformet for å fungere sammen sømløst og følge et konsekvent sett med utformingsprinsipper. Microsoft Fabric distribuerer den nyeste stabile versjonen av tidyverse
med hver kjøretidsutgivelse.
Hvis du vil lære mer om hvordan du bruker Tidyverse, kan du gå til Slik bruker du Tidyverse.
R-økosystemet tilbyr flere grafbiblioteker som er fullpakket med mange forskjellige funksjoner. Som standard inneholder alle Spark-forekomster i Microsoft Fabric et sett med kuraterte og populære biblioteker med åpen kildekode. Du kan også legge til eller administrere ekstra biblioteker eller versjoner ved hjelp av administrasjonsfunksjonene for Microsoft Fabric-biblioteket.
Mer informasjon om hvordan du oppretter R-visualiseringer ved å gå tilR-visualisering.