Condividi tramite


Usare R per Apache Spark

Microsoft Fabric offre il supporto R predefinito per Apache Spark. Supporta SparkR e sparklyr, che consentono di usare interfacce Spark o R familiari per lavorare con Spark. Analizzare i dati usando R tramite definizioni di processi batch Spark o con notebook interattivi di Microsoft Fabric.

Questo documento offre una panoramica dello sviluppo di applicazioni Spark in Microsoft Fabric usando R.

Prerequisiti

Creare ed eseguire sessioni di notebook

Il notebook di Microsoft Fabric è un'interfaccia Web per creare file con codice live, visualizzazioni e testo narrativo. Usare i notebook per convalidare idee, eseguire esperimenti rapidi e ottenere informazioni dettagliate dai dati. Usare notebook per la preparazione dei dati, la visualizzazione dei dati, l'apprendimento automatico e altri scenari di Big Data.

Per iniziare a usare R nei notebook di Microsoft Fabric, modificare il linguaggio principale nella parte superiore del notebook in SparkR (R).To get started with R in Microsoft Fabric notebooks, change the primary language at the top of your notebook to SparkR (R).

Usare anche più lingue in un blocco appunti aggiungendo un comando magic del linguaggio all'inizio di una cella.

%%sparkr
# Enter your R code here

Per altre informazioni sui notebook in Microsoft Fabric Analytics, vedere Come usare i notebook.

Installare i pacchetti

I pacchetti forniscono codice riutilizzabile aggiunto ai progetti. Per usare pacchetti di terze parti o locali nei progetti, installarli in un'area di lavoro o in una sessione di notebook.

Per altre informazioni, vedere Gestione delle librerie R.

Utilità notebook

Microsoft Spark Utilities (MSSparkUtils) è un pacchetto predefinito che consente di eseguire attività comuni. Usare MSSparkUtils per lavorare con i file system, ottenere variabili di ambiente, concatenare notebook e usare i segreti. MSSparkUtils supporta i notebook R.

Per iniziare, eseguire i comandi seguenti:

library(notebookutils)
mssparkutils.fs.help()

Per altre informazioni, vedere Usare Utilità Microsoft Spark.

Usare SparkR

SparkR è un pacchetto R che fornisce un front-end leggero per l'uso di Apache Spark da R. SparkR fornisce un'implementazione di dataframe distribuita che supporta operazioni quali selezione, filtro e aggregazione. SparkR supporta anche Machine Learning distribuito con MLlib.

Per altre informazioni, vedere Come usare SparkR.

Usare sparklyr

sparklyr è un'interfaccia R per Apache Spark. Usare le interfacce R familiari per interagire con Spark. Usare sparklyr nelle definizioni di processi batch Spark o nei notebook interattivi di Microsoft Fabric.

Per altre informazioni, vedere Come usare sparklyr.

Usare Tidyverse

Tidyverse è una raccolta di pacchetti R usati dai data scientist per l'analisi dei dati quotidiana. Include pacchetti per l'importazione dei dati (readr), la visualizzazione dei dati (ggplot2), la manipolazione dei dati (dplyr, tidyr) e la programmazione funzionale (purrr). I pacchetti Tidyverse interagiscono e seguono principi di progettazione coerenti. Microsoft Fabric distribuisce la versione stabile più recente di tidyverse con ogni pubblicazione di runtime.

Per altre informazioni, vedere Come usare Tidyverse.

Visualizzazione R

L'ecosistema R include molte librerie di grafici. Per impostazione predefinita, ogni istanza di Spark in Microsoft Fabric include librerie open source curate. Usare le funzionalità di gestione delle librerie di Microsoft Fabric per aggiungere o gestire librerie e versioni.

Informazioni su come creare visualizzazioni R nella visualizzazione R.