Oharra
Baimena behar duzu orria atzitzeko. Direktorioetan saioa has dezakezu edo haiek alda ditzakezu.
Baimena behar duzu orria atzitzeko. Direktorioak alda ditzakezu.
Puede usar RStudio, un conocido entorno de desarrollo integrado (IDE) para R, para conectarse a los recursos de proceso de Azure Databricks dentro de las áreas de trabajo de Azure Databricks desde la máquina de desarrollo local.
Configuración de RStudio Desktop
Para configurar RStudio Desktop en la máquina de desarrollo local:
- Descargue e instale R 3.3.0 o una versión posterior.
- Descargue e instale RStudio Desktop.
- Inicie RStudio Desktop.
(Opcional) Para crear un proyecto de RStudio:
- Inicie RStudio Desktop.
- Haga clic en Archivo > Nuevo proyecto.
- Seleccione Nuevo directorio> Nuevo proyecto.
- Elija un nuevo directorio para el proyecto y, a continuación, haga clic en Crear proyecto.
Para crear un script de R:
- Con el proyecto abierto, haga clic en Archivo > Nuevo archivo > Script de R.
- Seleccione Archivo > Guardar como.
- Asigne un nombre al archivo y, a continuación, haga clic en Guardar.
Conexión a Databricks
Para usar RStudio Desktop para conectarse a un clúster remoto de Azure Databricks o SQL Warehouse desde la máquina de desarrollo local, use una conexión ODBC y llame a funciones de paquete ODBC para R.
Nota:
No puede usar paquetes como SparkR o sparklyr en este escenario de RStudio Desktop, a menos que también use Databricks Connect.
Para conectarse al clúster remoto de Azure Databricks o al almacén de SQL mediante ODBC para R:
Obtenga los valores de nombre de host, puerto y ruta de acceso HTTP del clúster remoto o de SQL Warehouse Para un clúster, estos valores se encuentran en la pestaña JDBC/ODBC de opciones avanzadas. Para un almacén de SQL, estos valores se encuentran en la pestaña Detalles de conexión.
Obtenga un token de acceso personal de Azure Databricks.
Nota:
Como procedimiento recomendado de seguridad, cuando se autentique con herramientas, sistemas, scripts y aplicaciones automatizados, Databricks recomienda usar los tokens de acceso personal pertenecientes a las entidades de servicio en lugar de a los usuarios del área de trabajo. Para crear tokens para entidades de servicio, consulte Administrar tokens para una entidad de servicio.
Instale y configure el controlador ODBC de Databricks para el sistema operativo.
Configure un nombre de origen de datos ODBC (DSN) en el clúster remoto o en SQL Warehouse para Windows, macOS o Linux, en función del sistema operativo del equipo local.
Desde la consola de RStudio (Ver > Mover el cursor a la consola), instala los paquetes odbc y DBI desde CRAN:
require(devtools) install_version( package = "odbc", repos = "http://cran.us.r-project.org" ) install_version( package = "DBI", repos = "http://cran.us.r-project.org" )En su script de R (Ver > Mover el foco al origen), cargue los paquetes instalados:
odbcyDBI.library(odbc) library(DBI)Llame a la versión ODBC de la función dbConnect en el
DBIpaquete, especificando elodbccontrolador en elodbcpaquete y el DSN ODBC que creó, por ejemplo, un DSN ODBC deDatabricks.conn = dbConnect( drv = odbc(), dsn = "Databricks" )Llame a una operación a través del DSN ODBC, por ejemplo, una
SELECTinstrucción mediante la función dbGetQuery del paqueteDBI, especificando el nombre de la variable de conexión y la instrucciónSELECT, por ejemplo, de una tabla denominadadiamondsen un esquema (base de datos) denominadodefault.print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))
El script de R completo es el siguiente:
library(odbc)
library(DBI)
conn = dbConnect(
drv = odbc(),
dsn = "Databricks"
)
print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))
Para ejecutar el script, en la vista de origen, haga clic en Origen. Los resultados del script de R anterior son los siguientes:
_c0 carat cut color clarity depth table price x y z
1 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
2 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31