Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo, aprenderá a usar el controlador ODBC de Databricks para conectar Azure Databricks con lenguaje Python o R. Una vez que establezca la conexión, puede acceder a los datos de Azure Databricks desde los clientes de Python o R. También puede usar los clientes para analizar aún más los datos.
Prerrequisitos
Debe tener un área de trabajo de Azure Databricks, un clúster de Spark y datos de ejemplo asociados al clúster. Si aún no tiene estos requisitos previos, complete el inicio rápido en Introducción.
Descargue el controlador ODBC de Databricks desde la página de descarga de controladores de Databricks. Instale la versión de 64 bits del controlador.
Configure un token de acceso personal en Databricks. Para obtener instrucciones, consulte administración de tokens.
Configuración de un DSN
Un nombre de origen de datos (DSN) contiene la información sobre un origen de datos específico. Un controlador ODBC necesita este DSN para conectarse a un origen de datos. En esta sección, configurará un DSN que se puede usar con el controlador ODBC de Databricks para conectarse a Azure Databricks desde clientes como Python o R.
En el área de trabajo de Azure Databricks, vaya al clúster de Databricks.
open Databricks
En la pestaña Configuración, haga clic en la pestaña JDBC/ODBC y copie los valores de Nombre de host del servidor y Ruta de acceso HTTP. Necesita estos valores para completar los pasos descritos en este artículo.
En el equipo, inicie la aplicación Orígenes de datos ODBC de 64 bits.
En la pestaña DSN de usuario, haga clic en Agregar. En el cuadro de diálogo Crear un nuevo origen de datos, seleccione Simba Spark ODBC Driver (Controlador ODBC de Simba Spark) y haga clic en Finalizar.
En el cuadro de diálogo Simba Spark ODBC Driver, introduzca los siguientes valores:
En la tabla siguiente se proporciona información sobre los valores que se van a proporcionar en el cuadro de diálogo.
Campo Valor nombre del origen de datos Proporcione un nombre para el origen de datos. Anfitrión(es) Proporcione el valor que copió del área de trabajo de Databricks en Nombre de host del servidor. Puerto Escriba 443. mecanismo de autenticación> Seleccione Nombre de usuario y contraseña. Nombre de usuario Escriba token. Contraseña Escriba el valor del token que copió del área de trabajo de Databricks. Realice los pasos adicionales siguientes en el cuadro de diálogo Configuración de DSN.
- Haga clic en Opciones de HTTP. En el cuadro de diálogo que se abre, pegue el valor para HTTP Path que copió del espacio de trabajo de Databricks. Haz clic en Aceptar.
- Haga clic en Opciones SSL. En el cuadro de diálogo que se abre, active la casilla Habilitar SSL. Haz clic en Aceptar.
- Haga clic en test para probar la conexión a Azure Databricks. Haga clic en Aceptar para guardar la configuración.
- En el cuadro de diálogo Administrador de orígenes de datos ODBC, haga clic en Aceptar.
Ya tiene el DSN configurado. En las secciones siguientes, usará este DSN para conectarse a Azure Databricks desde Python o R.
Conexión desde R
Nota:
En esta sección se proporciona información sobre cómo integrar un cliente de R Studio que se ejecuta en el escritorio con Azure Databricks. Para obtener instrucciones sobre cómo usar R Studio en el propio clúster de Azure Databricks, consulte R Studio en Azure Databricks.
En esta sección, usará un IDE de lenguaje R para hacer referencia a los datos disponibles en Azure Databricks. Antes de comenzar, debe tener instalado lo siguiente en el equipo.
- Un IDE para el lenguaje R. En este artículo se usa RStudio for Desktop. Puede instalarlo desde las descargas de R Studio.
- Si usa RStudio para escritorio como IDE, instale también Microsoft R Client desde https://aka.ms/rclient/.
Abra RStudio y siga estos pasos:
- Haga referencia al paquete
RODBC
. Esto le permite conectarse a Azure Databricks mediante el DSN que creó anteriormente. - Establezca una conexión mediante el DSN.
- Ejecute una consulta SQL en los datos de Azure Databricks. En el fragmento de código siguiente, radio_sample_data es una tabla que ya existe en Azure Databricks.
- Realice algunas operaciones en la consulta para comprobar la salida.
El siguiente fragmento de código realiza estas tareas:
# reference the 'RODBC' package
require(RODBC)
# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")
# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")
# print out the column names in the query output
names(res)
# print out the number of rows in the query output
nrow (res)
Conexión desde Python
En esta sección, usará un IDE de Python (como IDLE) para hacer referencia a los datos disponibles en Azure Databricks. Antes de comenzar, complete los siguientes requisitos previos:
Instale Python desde aquí. La instalación de Python desde este vínculo también instala IDLE.
Desde una ventana de comandos en el equipo, instale el paquete
pyodbc
. Ejecute el siguiente comando:pip install pyodbc
Abra IDLE y siga estos pasos:
- Importe el paquete
pyodbc
. Esto le permite conectarse a Azure Databricks mediante el DSN que creó anteriormente. - Establezca una conexión mediante el DSN que creó anteriormente.
- Ejecute una consulta SQL mediante la conexión que creó. En el fragmento de código siguiente, radio_sample_data es una tabla que ya existe en Azure Databricks.
- Realice operaciones en la consulta para comprobar la salida.
El siguiente fragmento de código realiza estas tareas:
# import the `pyodbc` package:
import pyodbc
# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)
# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")
# print the rows retrieved by the query.
for row in cursor.fetchall():
print(row)
Pasos siguientes
- Para más información acerca de los orígenes desde donde se pueden importar datos a Azure Databricks, consulte los orígenes de datos de Azure Databricks.