Administrasjon av R-bibliotek
Biblioteker gir gjenbrukbar kode som du kanskje vil ta med i programmene eller prosjektene for Microsoft Fabric Spark.
Viktig
Microsoft Fabric er i forhåndsversjon.
Microsoft Fabric støtter en R-kjøretid med mange populære R-pakker med åpen kildekode, inkludert TidyVerse, forhåndsinstallert. Når en Spark-forekomst starter, inkluderes disse bibliotekene automatisk og kan brukes umiddelbart i notatblokker eller spark-jobbdefinisjoner.
Du må kanskje oppdatere R-bibliotekene av ulike årsaker. En av kjerneavhengighetene dine lanserte for eksempel en ny versjon, eller teamet ditt har utviklet en egendefinert pakke som du trenger tilgjengelig i Spark-klyngene.
Det finnes to typer biblioteker du kanskje vil inkludere, basert på scenarioet ditt:
Feedbiblioteker refererer til de som er bosatt i offentlige kilder eller repositorier, for eksempel CRAN eller GitHub.
Egendefinerte biblioteker er koden som er bygd av deg eller organisasjonen din. .tar.gz kan administreres gjennom bibliotekbehandlingsportaler.
Det er to nivåer av pakker installert på Microsoft Fabric:
Arbeidsområde: Installasjon på arbeidsområdenivå definerer arbeidsmiljøet for hele arbeidsområdet. Bibliotekene som er installert på arbeidsområdenivå, er tilgjengelige for alle notatblokker og SJD-er under dette arbeidsområdet. Oppdater bibliotekene for arbeidsområdet når du vil konfigurere det delte miljøet for alle elementer i et arbeidsområde.
Økt : En installasjon på øktnivå oppretter et miljø for en bestemt notatblokkøkt. Endringen av øktnivåbiblioteker beholdes ikke mellom økter.
Oppsummerer gjeldende tilgjengelige virkemåter for behandling av R-bibliotek:
Bibliotektype | Installasjon på arbeidsområdenivå | Installasjon på øktnivå |
---|---|---|
R-mating (CRAN) | Støttes ikke | Støttes |
Egendefinert R | Støttes | Støttes |
Forutsetninger
Et Power BI Premium abonnement. Hvis du ikke har en, kan du se Hvordan du kjøper Power BI Premium.
Et Power BI-arbeidsområde med tilordnet Premium-kapasitet. Hvis du ikke har et arbeidsområde, bruker du fremgangsmåten i Opprett et arbeidsområde for å opprette et og tilordne det til en Premium-kapasitet.
Logg på Microsoft Fabric.
Administrasjon av R-bibliotek på arbeidsområdenivå
Administrer egendefinerte biblioteker på arbeidsområdenivå i innstillinger for arbeidsområde. R støtter for øyeblikket bare egendefinerte biblioteker i innstillingene for arbeidsområdet.
Velg arbeidsområdet.
Velg Innstillinger for arbeidsområde øverst på siden.
Velg administrasjon av datateknikk/→bibliotek.
Velg fanen for egendefinerte biblioteker.
Obs!
- Bare administratoren for arbeidsområdet har tillatelse til å oppdatere innstillingene for arbeidsområdenivå.
- Administrasjon av R-feedbiblioteker i innstillinger for arbeidsområde støttes for øyeblikket ikke.
Installer og administrer egendefinerte R-pakker, dvs . .tar.gz i delen Egendefinerte biblioteker .
Last opp: Velg Last opp-knappen , og velg pakken fra den lokale katalogen. Velg deretter Bruk for å legge til pakken i arbeidsområdet. Bibliotekbehandlingsmodulen hjelper deg med å håndtere potensielle konflikter og nødvendige avhengigheter i de egendefinerte bibliotekene.
Fjern: Hvis et egendefinert bibliotek ikke lenger er nyttig for Spark-programmene, bruker du papirkurvknappen til å fjerne det.
Se gjennom og bruk endringer: Når endringene venter, går du til ventende endringer-panelet for å se gjennom dem eller avbryte en endring.
R-biblioteker på øktnivå
Når du utfører interaktiv dataanalyse eller maskinlæring, kan du prøve nyere pakker, eller du trenger kanskje pakker som for øyeblikket ikke er tilgjengelige på arbeidsområdet. I stedet for å oppdatere innstillingene for arbeidsområdet, kan du bruke øktomfangpakker til å legge til, administrere og oppdatere øktavhengigheter.
- Når du installerer biblioteker med øktomfang, er det bare gjeldende notatblokk som har tilgang til de angitte bibliotekene.
- Disse bibliotekene påvirker ikke andre økter eller jobber ved hjelp av samme Spark-utvalg.
- Disse bibliotekene installeres oppå bibliotekene for basiskjøring og utvalgsnivå.
- Notatblokkbiblioteker har høyest prioritet.
- Øktomfanget R-biblioteker beholdes ikke på tvers av økter. Disse bibliotekene installeres ved starten av hver økt når de relaterte installasjonskommandoene utføres.
- R-biblioteker med øktomfang installeres automatisk på tvers av både driver- og arbeidernoder.
Obs!
Kommandoene for administrasjon av R-biblioteker deaktiveres når du kjører datasamlebåndjobber. Hvis du vil installere en pakke i et samlebånd, må du bruke bibliotekbehandlingsfunksjonene på arbeidsområdenivå.
Installer R-pakker fra CRAN
Du kan enkelt installere et R-bibliotek fra CRAN.
# install a package from CRAN
install.packages(c("nycflights13", "Lahman"))
Du kan også bruke CRAN-øyeblikksbilder som repositorium for å sikre at du laster ned samme pakkeversjon hver gang.
# install a package from CRAN snapsho
install.packages("highcharter", repos = "https://cran.microsoft.com/snapshot/2021-07-16/")
Installere R-pakker ved hjelp av utviklerverktøy
Biblioteket devtools
forenkler pakkeutvikling for å fremskynde vanlige oppgaver. Dette biblioteket er installert i standard Microsoft Fabric-kjøretid.
Du kan bruke devtools
til å angi en bestemt versjon av et bibliotek som skal installeres. Disse bibliotekene installeres på tvers av alle noder i klyngen.
# Install a specific version.
install_version("caesar", version = "1.0.0")
På samme måte kan du installere et bibliotek direkte fra GitHub.
# Install a GitHub library.
install_github("jtilly/matchingR")
For øyeblikket støttes følgende devtools
funksjoner i Microsoft Fabric:
Kommando | Beskrivelse |
---|---|
install_github() | Installerer en R-pakke fra GitHub |
install_gitlab() | Installerer en R-pakke fra GitLab |
install_bitbucket() | Installerer en R-pakke fra BitBucket |
install_url() | Installerer en R-pakke fra en tilfeldig URL-adresse |
install_git() | Installerer fra et vilkårlig git-repositorium |
install_local() | Installerer fra en lokal fil på disken |
install_version() | Installerer fra en bestemt versjon på CRAN |
Installer egendefinerte R-biblioteker
Hvis du vil bruke et egendefinert bibliotek på øktnivå, må du først laste det opp til et vedlagt Lakehouse.
På venstre side velger du Legg til for å legge til et eksisterende innsjøhus eller opprette et innsjøhus.
Hvis du vil legge til filer i dette lakehouse, velger du arbeidsområdet og velger lakehouse.
Høyreklikk eller velg «...» ved siden av Filer for å laste opp .tar.gz-filen .
Når du har lastet opp, går du tilbake til notatblokken. Bruk følgende kommando for å installere det egendefinerte biblioteket i økten:
install.packages("filepath/filename.tar.gz", repos = NULL, type = "source")
Vis installerte biblioteker
Spør alle bibliotekene som er installert i økten, ved hjelp av library
kommandoen.
# query all the libraries installed in current session
library()
packageVersion
Bruk funksjonen til å kontrollere versjonen av biblioteket:
# check the package version
packageVersion("caesar")
Fjerne en R-pakke fra en økt
Du kan bruke detach
funksjonen til å fjerne et bibliotek fra navneområdet. Disse bibliotekene forblir på disken til de lastes inn på nytt.
# detach a library
detach("package: caesar")
Hvis du vil fjerne en pakke med øktomfang fra en notatblokk, bruker remove.packages()
du kommandoen. Denne bibliotekendringen har ingen innvirkning på andre økter på samme klynge. Brukere kan ikke avinstallere eller fjerne innebygde biblioteker for standard Microsoft Fabric-kjøretid.
Obs!
Du kan ikke fjerne kjernepakker som SparkR, SparklyR eller R.
remove.packages("caesar")
Øktomfanget R-biblioteker og SparkR
Biblioteker med notatblokkomfang er tilgjengelige for SparkR-arbeidere.
install.packages("stringr")
library(SparkR)
str_length_function <- function(x) {
library(stringr)
str_length(x)
}
docs <- c("Wow, I really like the new light sabers!",
"That book was excellent.",
"R is a fantastic language.",
"The service in this restaurant was miserable.",
"This is neither positive or negative.")
spark.lapply(docs, str_length_function)
Øktomfanget R-biblioteker og sparklyr
Med spark_apply()
sparklyr kan du bruke alle R-pakker i Spark. Som standard settes pakkeargumentet til USANN i sparklyr::spark_apply()
. Dette kopierer biblioteker i gjeldende libPaths til arbeiderne, slik at du kan importere og bruke dem på arbeidere. Du kan for eksempel kjøre følgende for å generere en cæsarkryptert melding med sparklyr::spark_apply()
:
install.packages("caesar", repos = "https://cran.microsoft.com/snapshot/2021-07-16/")
spark_version <- sparkR.version()
config <- spark_config()
sc <- spark_connect(master = "yarn", version = spark_version, spark_home = "/opt/spark", config = config)
apply_cases <- function(x) {
library(caesar)
caesar("hello world")
}
sdf_len(sc, 5) %>%
spark_apply(apply_cases, packages=FALSE)
Neste trinn
Mer informasjon om R-funksjonene: