Partager via


RStudio sur Azure Databricks

Vous pouvez utiliser RStudio, un environnement de développement intégré (IDE) populaire pour R, pour vous connecter aux ressources de calcul Azure Databricks au sein d’espaces de travail Azure Databricks à partir de votre ordinateur de développement local.

Configurer RStudio Desktop

Pour configurer RStudio Desktop sur votre ordinateur de développement local :

  1. Téléchargez et installez R 3.3.0 ou une version ultérieure.
  2. Téléchargez et installez RStudio Desktop.
  3. Démarrez RStudio Desktop.

(Facultatif) Pour créer un projet RStudio :

  1. Démarrez RStudio Desktop.
  2. Cliquez sur Fichier > Nouveau projet.
  3. Sélectionnez Nouveau répertoire > Nouveau projet.
  4. Choisissez un nouveau répertoire pour le projet, puis cliquez sur Créer un projet.

Pour créer un script R :

  1. Une fois le projet ouvert, cliquez sur Fichier > Nouveau fichier > Script R.
  2. Cliquez sur Fichier > Enregistrer sous.
  3. Nommez le fichier, puis cliquez sur Enregistrer.

Se connecter à Databricks

Pour utiliser RStudio Desktop pour vous connecter à un cluster Azure Databricks distant ou à un entrepôt SQL à partir de votre ordinateur de développement local, utilisez une connexion ODBC et appelez des fonctions de package ODBC pour R.

Notes

Vous ne pouvez pas utiliser de packages tels que SparkR ou sparklyr dans ce scénario RStudio Desktop, sauf si vous utilisez également Databricks Connect.

Pour vous connecter au cluster Azure Databricks ou à l’entrepôt SQL distant via ODBC pour R :

  1. Obtenez le nom d’hôte du serveur, le port et les valeurs de chemin HTTP pour votre cluster distant ou votre entrepôt SQL Pour un cluster, ces valeurs se trouvent sous l’onglet JDBC/ODBC des options avancées. Pour un entrepôt SQL, ces valeurs se trouvent sous l’onglet Détails de la connexion.

  2. Obtenez un jeton d’accès personnel Azure Databricks.

    Notes

    En guise de bonne pratique de sécurité, quand vous vous authentifiez avec des outils, systèmes, scripts et applications automatisés, Databricks recommande d’utiliser des jetons d’accès personnels appartenant à des principaux de service et non des utilisateurs de l’espace de travail. Pour créer des jetons d’accès pour des principaux de service, consultez la section Gérer les jetons pour un principal de service.

  3. Installez et configurez le pilote ODBC Databricks pour votre système d’exploitation.

  4. Configurez un nom de source de données ODBC (DSN) sur votre cluster distant ou votre entrepôt SQL pour Windows, macOS ou Linux, en fonction du système d’exploitation de votre ordinateur local.

  5. À partir de la console RStudio (Afficher > Déplacer le focus sur la console), installez les packages ODBC et DBI à partir de CRAN :

    require(devtools)
    
    install_version(
      package = "odbc",
      repos   = "http://cran.us.r-project.org"
    )
    
    install_version(
      package = "DBI",
      repos   = "http://cran.us.r-project.org"
    )
    
  6. Dans votre script R (Afficher > le focus de déplacement vers la source), chargez les packages installés odbc et DBI packages :

    library(odbc)
    library(DBI)
    
  7. Appelez la version ODBC de la fonction dbConnect dans le DBI package, en spécifiant le odbc pilote dans le odbc package et le DSN ODBC que vous avez créés, par exemple, un DSN ODBC de Databricks.

    conn = dbConnect(
      drv = odbc(),
      dsn = "Databricks"
    )
    
  8. Appelez une opération via le DSN ODBC, par exemple une SELECT instruction via la fonction dbGetQuery dans le DBI package, en spécifiant le nom de la variable de connexion et l’instruction SELECT elle-même, par exemple à partir d’une table nommée diamonds dans un schéma (base de données) nommé default:

    print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))
    

Le script R complet est le suivant :

library(odbc)
library(DBI)

conn = dbConnect(
  drv = odbc(),
  dsn = "Databricks"
)

print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))

Pour exécuter le script, en mode source, cliquez sur Source. Les résultats du script R précédent sont les suivants :

  _c0 carat     cut color clarity depth table price    x    y    z
1   1  0.23   Ideal     E     SI2  61.5    55   326 3.95 3.98 2.43
2   2  0.21 Premium     E     SI1  59.8    61   326 3.89 3.84 2.31