Ejecución de archivo en un clúster o un archivo o cuaderno como trabajo en Azure Databricks mediante la extensión Databricks para Visual Studio Code
La extensión Databricks para Visual Studio Code permite ejecutar el código de Python en un clúster o en el código de Python, R, Scala o SQL como trabajo en Azure Databricks.
En esta información, se asume que ya ha instalado y configurado la extensión de Databricks para Visual Studio Code. Consulte Instalación de la extensión de Databricks para Visual Studio Code.
Nota:
Para depurar código o cuadernos desde Visual Studio Code, use Databricks Connect. Vea Depuración de código mediante Databricks Connect para la extensión Databricks para Visual Studio Code y Ejecución y depuración de celdas de cuadernos con Databricks Connect mediante la extensión Databricks para Visual Studio Code.
Ejecución de un archivo de Python en un clúster
Para ejecutar un archivo de Python en un clúster de Azure Databricks mediante la extensión Databricks para Visual Studio Code, con la extensión y el proyecto abiertos:
- Abra el archivo de Python que quiere ejecutar en el clúster.
- Realice una de las siguientes acciones:
En la barra de título del editor de archivos, haga clic en el icono Ejecutar en Databricks y después en Cargar y ejecutar archivo.
En la vista del Explorador (Ver > Explorador), haga clic con el botón derecho en el archivo y, después, seleccione Ejecutar en Databricks>Cargar y ejecutar archivo en el menú contextual.
El archivo se ejecuta en el clúster y la salida está disponible en la Consola de depuración (Ver > Consola de depuración).
Ejecución de un archivo de Python como un trabajo
Para ejecutar un archivo de Python como trabajo de Azure Databricks mediante la extensión Databricks para Visual Studio Code, con la extensión y el proyecto abiertos:
- Abra el archivo de Python que quiere ejecutar como un trabajo.
- Realice una de las siguientes acciones:
En la barra de título del editor de archivos, haga clic en el icono Ejecutar en Databricks y después en Ejecutar archivo como flujo de trabajo.
En la vista del Explorador (Ver > Explorador), haga clic con el botón derecho en el archivo y, desùés, seleccione Ejecutar en Databricks>Ejecutar archivo como flujo de trabajo en el menú contextual.
Aparece una nueva pestaña del editor, titulada Ejecución de trabajo de Databricks. El archivo se ejecuta como un trabajo en el área de trabajo y cualquier salida se imprime en el área Salida de la nueva pestaña del editor.
Para ver información sobre la ejecución del trabajo, haga clic en el vínculo Id. de ejecución de tareas en la nueva pestaña del editor de Ejecución de trabajos de Databricks. El área de trabajo se abre y los detalles de la ejecución del trabajo se muestran en el área de trabajo.
Ejecución de un cuaderno de Python, R, Scala o SQL como un trabajo
Para ejecutar un cuaderno como trabajo de Azure Databricks mediante la extensión Databricks para Visual Studio Code, con la extensión y el proyecto abiertos:
Abra el cuaderno que quiere ejecutar como un trabajo.
Sugerencia
Para convertir un archivo de Python, R, Scala o SQL en un cuaderno de Azure Databricks, agregue el comentario
# Databricks notebook source
al principio del archivo y agregue el comentario# COMMAND ----------
antes de cada celda. Para obtener más información, consulte Importación de un archivo y conversión del archivo en un cuaderno.Realice una de las siguientes acciones:
- En la barra de título del editor de archivos del cuaderno, haga clic en el icono Ejecutar en Databricks y después en Ejecutar archivo como flujo de trabajo.
Nota:
Si Ejecutar en Databricks como flujo de trabajo no está disponible, consulte Crear una configuración de ejecución personalizada.
- En la vista del Explorador (Ver > Explorador), haga clic con el botón derecho en el archivo de cuaderno y, después, seleccione Ejecutar archivo en Databricks>Ejecutar como flujo de trabajo en el menú contextual.
Aparece una nueva pestaña del editor, titulada Ejecución de trabajo de Databricks. El cuaderno se ejecuta como un trabajo en el área de trabajo. El cuaderno y su salida se muestran en el área Salida de la nueva pestaña del editor.
Para ver información sobre la ejecución del trabajo, haga clic en el vínculo Id. de ejecución de tareas en la pestaña del editor de Ejecución de trabajos de Databricks. El área de trabajo se abre y los detalles de la ejecución del trabajo se muestran en el área de trabajo.
Creación de una configuración de ejecución personalizada
Una configuración de ejecución personalizada en la extensión Databricks para Visual Studio Code le permite pasar argumentos personalizados a un trabajo o a un cuaderno, o crear otros parámetros de ejecución para otros archivos.
Para crear una configuración de ejecución personalizada, haga clic en Ejecutar > Agregar configuración en el menú principal de Visual Studio Code. A continuación, seleccione Databricks para una configuración de ejecución basada en clústeres o Databricks: Flujo de trabajo para una configuración de ejecución basada en trabajos.
Por ejemplo, la siguiente configuración de ejecución personalizada modifica el comando de inicio Ejecutar archivo como flujo de trabajo para pasar el argumento --prod
al trabajo:
{
"version": "0.2.0",
"configurations": [
{
"type": "databricks-workflow",
"request": "launch",
"name": "Run on Databricks as Workflow",
"program": "${file}",
"parameters": {},
"args": ["--prod"]
}
]
}
Sugerencia
Agregue "databricks": true
a la configuración "type": "python"
si quiere usar la configuración de Python, pero aproveche la autenticación de Databricks Connect que forma parte de la configuración de la extensión.
Mediante configuraciones de ejecución personalizadas, también puede pasar argumentos de línea de comandos y ejecutar el código con tan solo presionar F5. Para obtener más información, consulte Configuraciones de inicio en la documentación de Visual Studio Code.