Databricks Connect per R
Nota
Questo articolo illustra sparklyr
l'integrazione con Databricks Connect per Databricks Runtime 13.0 e versioni successive. Questa integrazione non è fornita né da Databricks né direttamente supportata da Databricks.
Per domande, visitare la community posit.
Per segnalare i problemi, passare alla sezione Problemi del sparklyr
repository in GitHub.
Per altre informazioni, vedere Databricks Connect v2 nella sparklyr
documentazione.
Questo articolo illustra come iniziare rapidamente a usare Databricks Connect usando R, sparklyr
e RStudio Desktop.
- Per la versione Python di questo articolo, vedere Databricks Connect for Python ( Connettersi a Databricks per Python).
- Per la versione scala di questo articolo, vedere Databricks Connect for Scala.
Databricks Connect consente di connettere gli IDE più diffusi, ad esempio RStudio Desktop, i server notebook e altre applicazioni personalizzate ai cluster Di Azure Databricks. Vedere Che cos'è Databricks Connect?.
Esercitazione
Questa esercitazione usa RStudio Desktop e Python 3.10. Se non sono già installati, installare R e RStudio Desktop e Python 3.10.
Per informazioni supplementari su questa esercitazione, vedere la sezione "Databricks Connect" di Spark Connect e Databricks Connect v2 nel sparklyr
sito Web.
Requisiti
Per completare questa esercitazione, è necessario soddisfare i requisiti seguenti:
- L'area di lavoro e il cluster di Azure Databricks di destinazione devono soddisfare i requisiti per la configurazione del cluster per Databricks Connect.
- È necessario disporre dell'ID cluster disponibile. Per ottenere l'ID cluster, nell'area di lavoro fare clic su Calcolo sulla barra laterale e quindi sul nome del cluster. Nella barra degli indirizzi del Web browser copiare la stringa di caratteri tra
clusters
econfiguration
nell'URL.
Passaggio 1: Creare un token di accesso personale
Nota
Databricks Connect per l'autenticazione R attualmente supporta solo i token di accesso personali di Azure Databricks.
Questa esercitazione usa l'autenticazione del token di accesso personale di Azure Databricks per l'autenticazione con l'area di lavoro di Azure Databricks.
Se si ha già un token di accesso personale di Azure Databricks, passare al passaggio 2. Se non si è certi di avere già un token di accesso personale di Azure Databricks, è possibile seguire questo passaggio senza influire sugli altri token di accesso personali di Azure Databricks nell'account utente.
Per creare un token di accesso personale:
- Nell'area di lavoro di Azure Databricks fare clic sul nome utente di Azure Databricks nella barra superiore e quindi selezionare Impostazioni nell'elenco a discesa.
- Fare clic su Sviluppatore.
- Accanto a Token di accesso fare clic su Gestisci.
- Fare clic su Generare nuovi token.
- (Facoltativo) Immettere un commento che consente di identificare questo token in futuro e modificare la durata predefinita del token di 90 giorni. Per creare un token senza durata (scelta non consigliata), lasciare vuota la casella Durata (giorni) (vuota).
- Fare clic su Genera.
- Copiare il token visualizzato in un percorso sicuro e quindi fare clic su Fine.
Nota
Assicurarsi di salvare il token copiato in un percorso sicuro. Non condividere il token copiato con altri utenti. Se si perde il token copiato, non è possibile rigenerare lo stesso token esatto. È invece necessario ripetere questa procedura per creare un nuovo token. Se si perde il token copiato o si ritiene che il token sia stato compromesso, Databricks consiglia vivamente di eliminare immediatamente il token dall'area di lavoro facendo clic sull'icona del cestino (Revoca) accanto al token nella pagina Token di accesso.
Se non è possibile creare o usare token nell'area di lavoro, questo potrebbe essere dovuto al fatto che l'amministratore dell'area di lavoro ha disabilitato i token o non ha concesso l'autorizzazione per creare o usare token. Vedere l'amministratore dell'area di lavoro o quanto segue:
Passaggio 2: Creare il progetto
- Avviare RStudio Desktop.
- Scegliere File > Nuovo progetto dal menu principale.
- Selezionare Nuova directory.
- Selezionare Nuovo progetto.
- Per Nome directory e Crea progetto come sottodirectory di , immettere il nome della nuova directory del progetto e dove creare questa nuova directory del progetto.
- Selezionare Usa renv con questo progetto. Se viene richiesto di installare una versione aggiornata del
renv
pacchetto, fare clic su Sì. - Fare clic su Crea progetto.
Passaggio 3: Aggiungere il pacchetto Databricks Connect e altre dipendenze
Nel menu principale di RStudio Desktop fare clic su Strumenti > Installa pacchetti.
Lasciare Install (Install) (Installa) impostato su Repository (CRAN).
Per Pacchetti immettere l'elenco seguente di pacchetti che sono prerequisiti per il pacchetto Databricks Connect e questa esercitazione:
sparklyr,pysparklyr,reticulate,usethis,dplyr,dbplyr
Lasciare Install to Library (Installa nella libreria ) impostato sul proprio ambiente virtuale R.
Assicurarsi che l'opzione Install dependencies (Installa dipendenze ) sia selezionata.
Fare clic su Installa.
Quando viene richiesto nella visualizzazione Console (Visualizza > Sposta stato attivo nella console) per procedere con l'installazione, immettere
Y
. Isparklyr
pacchetti epysparklyr
e le relative dipendenze vengono installati nell'ambiente virtuale R.Nel riquadro Console usare
reticulate
per installare Python eseguendo il comando seguente. Databricks Connect per R richiedereticulate
e Python deve essere installato per primo. Nel comando seguente sostituire3.10
con la versione principale e secondaria della versione di Python installata nel cluster Azure Databricks. Per trovare questa versione principale e secondaria, vedere la sezione "Ambiente di sistema" delle note sulla versione per la versione di Databricks Runtime del cluster in Versioni e compatibilità delle note sulla versione di Databricks Runtime.reticulate::install_python(version = "3.10")
Nel riquadro Console installare il pacchetto Databricks Connect eseguendo il comando seguente. Nel comando seguente sostituire
13.3
con la versione di Databricks Runtime installata nel cluster Azure Databricks. Per trovare questa versione, nella pagina dei dettagli del cluster nell'area di lavoro di Azure Databricks, nella scheda Configurazione vedere la casella Versione di Databricks Runtime.pysparklyr::install_databricks(version = "13.3")
Se non si conosce la versione di Databricks Runtime per il cluster o non si vuole cercarla, è invece possibile eseguire il comando seguente ed
pysparklyr
eseguire una query sul cluster per determinare la versione corretta di Databricks Runtime da usare:pysparklyr::install_databricks(cluster_id = "<cluster-id>")
Se si vuole che il progetto si connetta in un secondo momento a un cluster diverso con la stessa versione di Databricks Runtime rispetto a quella appena specificata,
pysparklyr
userà lo stesso ambiente Python. Se il nuovo cluster ha una versione diversa di Databricks Runtime, è necessario eseguire di nuovo il comando con lapysparklyr::install_databricks
nuova versione di Databricks Runtime o l'ID cluster.
Passaggio 4: Impostare le variabili di ambiente per l'URL dell'area di lavoro, il token di accesso e l'ID cluster
Databricks non consiglia di impostare come hardcoded valori sensibili o di modifica, ad esempio l'URL dell'area di lavoro di Azure Databricks, il token di accesso personale di Azure Databricks o l'ID cluster di Azure Databricks agli script R. Archiviare invece questi valori separatamente, ad esempio nelle variabili di ambiente locali. Questa esercitazione usa il supporto predefinito di RStudio Desktop per l'archiviazione delle variabili di ambiente in un .Renviron
file.
Creare un
.Renviron
file per archiviare le variabili di ambiente, se questo file non esiste già e quindi aprire questo file per la modifica: nella console di RStudio Desktop eseguire il comando seguente:usethis::edit_r_environ()
.Renviron
Nel file visualizzato (Visualizza > Sposta stato attivo su origine) immettere il contenuto seguente. In questo contenuto sostituire i segnaposto seguenti:- Sostituire
<workspace-url>
con l'URL per area di lavoro, ad esempiohttps://adb-1234567890123456.7.azuredatabricks.net
. - Sostituire
<personal-access-token>
con il token di accesso personale di Azure Databricks del passaggio 1. - Sostituire
<cluster-id>
con l'ID cluster in base ai requisiti di questa esercitazione.
DATABRICKS_HOST=<workspace-url> DATABRICKS_TOKEN=<personal-access-token> DATABRICKS_CLUSTER_ID=<cluster-id>
- Sostituire
Salvare il file
.Renviron
.Caricare le variabili di ambiente in R: nel menu principale fare clic su Riavvio sessione > R.
Passaggio 5: Aggiungere codice
Nel menu principale di RStudio Desktop fare clic su File nuovo file > > R Script.
Immettere il codice seguente nel file e quindi salvare il file (File > Save) come
demo.R
:library(sparklyr) library(dplyr) library(dbplyr) sc <- sparklyr::spark_connect( master = Sys.getenv("DATABRICKS_HOST"), cluster_id = Sys.getenv("DATABRICKS_CLUSTER_ID"), token = Sys.getenv("DATABRICKS_TOKEN"), method = "databricks_connect", envname = "r-reticulate" ) trips <- dplyr::tbl( sc, dbplyr::in_catalog("samples", "nyctaxi", "trips") ) print(trips, n = 5)
Passaggio 6: Eseguire il codice
Sulla barra degli strumenti
demo.R
del file di RStudio Desktop fare clic su Origine.Nella console vengono visualizzate le prime cinque righe della
trips
tabella.Nella visualizzazione Connessioni (Visualizza > mostra connessioni) è possibile esplorare i cataloghi, gli schemi, le tabelle e le viste disponibili.
Passaggio 7: Eseguire il debug del codice
demo.R
Nel file fare clic sulla barra accanto aprint(trips, n = 5)
per impostare un punto di interruzione.- Nella barra degli strumenti del
demo.R
file fare clic su Origine. - Quando il codice viene sospeso in esecuzione nel punto di interruzione, è possibile esaminare la variabile nella visualizzazione Ambiente (Visualizza ambiente>).
- Scegliere Debug Continue (Continua debug>) dal menu principale.
- Nella console vengono visualizzate le prime cinque righe della
trips
tabella.
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per