Partekatu honen bidez:


RStudio en Azure Databricks

Puede usar RStudio, un conocido entorno de desarrollo integrado (IDE) para R, para conectarse a los recursos de proceso de Azure Databricks dentro de las áreas de trabajo de Azure Databricks desde la máquina de desarrollo local.

Configuración de RStudio Desktop

Para configurar RStudio Desktop en la máquina de desarrollo local:

  1. Descargue e instale R 3.3.0 o una versión posterior.
  2. Descargue e instale RStudio Desktop.
  3. Inicie RStudio Desktop.

(Opcional) Para crear un proyecto de RStudio:

  1. Inicie RStudio Desktop.
  2. Haga clic en Archivo > Nuevo proyecto.
  3. Seleccione Nuevo directorio> Nuevo proyecto.
  4. Elija un nuevo directorio para el proyecto y, a continuación, haga clic en Crear proyecto.

Para crear un script de R:

  1. Con el proyecto abierto, haga clic en Archivo > Nuevo archivo > Script de R.
  2. Seleccione Archivo > Guardar como.
  3. Asigne un nombre al archivo y, a continuación, haga clic en Guardar.

Conexión a Databricks

Para usar RStudio Desktop para conectarse a un clúster remoto de Azure Databricks o SQL Warehouse desde la máquina de desarrollo local, use una conexión ODBC y llame a funciones de paquete ODBC para R.

Nota:

No puede usar paquetes como SparkR o sparklyr en este escenario de RStudio Desktop, a menos que también use Databricks Connect.

Para conectarse al clúster remoto de Azure Databricks o al almacén de SQL mediante ODBC para R:

  1. Obtenga los valores de nombre de host, puerto y ruta de acceso HTTP del clúster remoto o de SQL Warehouse Para un clúster, estos valores se encuentran en la pestaña JDBC/ODBC de opciones avanzadas. Para un almacén de SQL, estos valores se encuentran en la pestaña Detalles de conexión.

  2. Obtenga un token de acceso personal de Azure Databricks.

    Nota:

    Como procedimiento recomendado de seguridad, cuando se autentique con herramientas, sistemas, scripts y aplicaciones automatizados, Databricks recomienda usar los tokens de acceso personal pertenecientes a las entidades de servicio en lugar de a los usuarios del área de trabajo. Para crear tokens para entidades de servicio, consulte Administrar tokens para una entidad de servicio.

  3. Instale y configure el controlador ODBC de Databricks para el sistema operativo.

  4. Configure un nombre de origen de datos ODBC (DSN) en el clúster remoto o en SQL Warehouse para Windows, macOS o Linux, en función del sistema operativo del equipo local.

  5. Desde la consola de RStudio (Ver > Mover el cursor a la consola), instala los paquetes odbc y DBI desde CRAN:

    require(devtools)
    
    install_version(
      package = "odbc",
      repos   = "http://cran.us.r-project.org"
    )
    
    install_version(
      package = "DBI",
      repos   = "http://cran.us.r-project.org"
    )
    
  6. En su script de R (Ver > Mover el foco al origen), cargue los paquetes instalados: odbc y DBI.

    library(odbc)
    library(DBI)
    
  7. Llame a la versión ODBC de la función dbConnect en el DBI paquete, especificando el odbc controlador en el odbc paquete y el DSN ODBC que creó, por ejemplo, un DSN ODBC de Databricks.

    conn = dbConnect(
      drv = odbc(),
      dsn = "Databricks"
    )
    
  8. Llame a una operación a través del DSN ODBC, por ejemplo, una SELECT instrucción mediante la función dbGetQuery del paquete DBI, especificando el nombre de la variable de conexión y la instrucción SELECT, por ejemplo, de una tabla denominada diamonds en un esquema (base de datos) denominado default.

    print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))
    

El script de R completo es el siguiente:

library(odbc)
library(DBI)

conn = dbConnect(
  drv = odbc(),
  dsn = "Databricks"
)

print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))

Para ejecutar el script, en la vista de origen, haga clic en Origen. Los resultados del script de R anterior son los siguientes:

  _c0 carat     cut color clarity depth table price    x    y    z
1   1  0.23   Ideal     E     SI2  61.5    55   326 3.95 3.98 2.43
2   2  0.21 Premium     E     SI1  59.8    61   326 3.89 3.84 2.31