Configuración de un proyecto de Databricks con la extensión de Databricks para Visual Studio Code
La extensión de Databricks para Visual Studio Code ofrece una vista de configuración en el panel de extensión que permite configurar y actualizar fácilmente las opciones del proyecto de Databricks. Estas características incluyen un selector de implementación del área de trabajo de destino, una configuración sencilla de autenticación y proceso, sincronización de carpetas del área de trabajo y pasos sencillos para activar el entorno virtual de Python necesario para la depuración.
La vista Configuración de la extensión de Databricks para Visual Studio Code está disponible una vez que haya creado o migrado un proyecto a un proyecto de Databricks. Vea Creación de un proyecto de Databricks.
Nota:
En el terminal se establecieron versiones anteriores de la extensión Databricks para Visual Studio Code y se definieron tanto las opciones de configuración en un archivo JSON del proyecto como las variables de entorno. En la versión de lanzamiento, la configuración del proyecto y del entorno se encuentra en los archivos databricks.yml
y databricks.env
.
Si el proyecto es un conjunto de recursos de Databricks, la interfaz de usuario de extensión de Databricks también proporciona un Explorador de recursos de agrupación y una vista Variables de agrupación para administrar los recursos y las variables de la agrupación. Vea Características de extensión de agrupaciones de recursos de Databricks.
Cambio del área de trabajo de implementación de destino
Para seleccionar o cambiar el destino de implementación del proyecto de Databricks (por ejemplo, para cambiar de un destino de dev
a un destino de prod
):
En la vista Configuración del panel de extensión de Databricks, haga clic en el icono de engranaje (Seleccionar un destino de conjunto de recursos de Databricks) asociado a Destino.
En la Paleta de comandos, seleccione el destino de implementación deseado.
Una vez configurado un destino, se muestran el host y el modo de implementación. Para obtener información sobre los modos de implementación de conjunto de activos de Databricks, vea Modos de implementación de agrupaciones de recursos de Databricks.
El host del área de trabajo se puede cambiar modificando la configuración de destino workspace
en el archivo de configuración de databricks.yml
asociado al proyecto. Consulte destinos.
Nota:
La siguiente extensión de Databricks para las características de Visual Studio Code solo está disponible cuando el modo de implementación de destino es desarrollo:
- Uso del clúster de desarrollo asociado para trabajos de agrupación
- Sincronización de archivos de carpeta del área de trabajo
- Selección de un clúster de desarrollo interactivo
Configuración del perfil de Databricks para el proyecto
Al crear un proyecto de Databricks o migrar un proyecto para que sea un proyecto de Databricks, configure un perfil que incluya la configuración de autenticación que se usa para conectarse a Databricks. Si quiere cambiar el perfil de autenticación usado, haga clic en el icono de engranaje asociado a AuthType en la vista Configuración.
A fin de obtener más información sobre la extensión de Databricks para la autenticación de Visual Studio Code, vea Configuración de autenticación para la extensión de Databricks para Visual Studio Code.
Selección de un clúster para ejecutar código y trabajos
Con la extensión Databricks para Visual Studio Code, puede seleccionar un clúster de Azure Databricks existente o crear un clúster de Azure Databricks para ejecutar el código y los trabajos. Una vez que se haya conectado al proceso, se muestran el identificador del clúster, la versión de Databricks Runtime, el creador, el estado y el modo de acceso. También puede iniciar y detener el clúster y navegar directamente a los detalles de la página del clúster.
Sugerencia
Si no quiere esperar a que se inicie el clúster de trabajos, compruebe Invalidar clúster de trabajos en agrupación justo debajo de la selección de clúster para usar el clúster seleccionado a fin de ejecutar trabajos de agrupación en modo de desarrollo.
Uso de un clúster existente
Si tiene un clúster de Azure Databricks existente que quiere usar, haga lo siguiente:
En el panel Configuración, junto a Clúster, haga clic en Seleccionar un clúster o en el icono de engranaje (Configurar clúster).
En la Paleta de comandos, seleccione el clúster que quiere usar.
Creación de un clúster
Si no tiene un clúster de Azure Databricks existente o quiere crear uno y usarlo:
En la vista Configuración, junto a Clúster, haga clic en el icono de engranaje (Configurar clúster).
En la paleta de comandos, haga clic en Crear nuevo clúster.
Cuando se le pida que abra el sitio web externo (el área de trabajo de Azure Databricks), haga clic en Abrir.
Si se le solicita, inicie sesión en el área de trabajo de Azure Databricks.
Siga las instrucciones para crear un clúster.
Nota:
Databricks recomienda crear un clúster de proceso personal. Esto le permite empezar a ejecutar cargas de trabajo inmediatamente, lo que minimiza la sobrecarga de administración de procesos.
Una vez creado el clúster y en ejecución, vuelva a Visual Studio Code.
En la vista Configuración, junto a Clúster, haga clic en el icono de engranaje (Configurar clúster).
En la paleta de comandos, haga clic en el clúster que quiere usar.
Sincronización de la carpeta del área de trabajo con Databricks
Puede sincronizar la carpeta remota del área de trabajo de Databricks asociada al proyecto de Databricks haciendo clic en el icono de sincronización (Iniciar sincronización) asociado a la carpeta Área de trabajo en la vista Configuración del panel de extensión de Databricks.
Nota:
La extensión de Databricks para Visual Studio Code solo funciona con los directorios del área de trabajo que crea. No se puede usar un directorio del área de trabajo existente en el proyecto a menos que la extensión la cree.
Para navegar a la vista del área de trabajo en Databricks, haga clic en el icono de vínculo externo (Abrir vínculo externamente) asociado a la carpeta Área de trabajo.
La extensión determina la carpeta del área de trabajo de Azure Databricks que se va a usar en función de la configuración file_path
de la asignación workspace
del conjunto de recursos de Databricks asociado del proyecto. Vea Área de trabajo.
Nota:
La extensión de Databricks para Visual Studio Code solo hace la sincronización automática unidireccional de los cambios de archivos desde el proyecto local de Visual Studio Code la carpeta del área de trabajo relacionado en el área de trabajo remota de Azure Databricks. Los archivos de este directorio del área de trabajo remota están diseñados para ser transitorios. No inicie los cambios en estos archivos desde el área de trabajo remota, ya que estos cambios no se sincronizarán con el proyecto local.
Para más información sobre el uso de la característica de sincronización de directorios del área de trabajo para versiones anteriores de la extensión de Databricks para Visual Studio Code, consulte Selección de un directorio de área de trabajo para la extensión de Databricks para Visual Studio Code.
Configuración del entorno de Python y Databricks Connect
La sección Entorno de Python de la vista de la Configuración permite configurar fácilmente el entorno de desarrollo virtual de Python y la instalación de Databricks Connect para ejecutar y depurar código y celdas de cuaderno. Los entornos virtuales de Python se aseguran de que el proyecto usa versiones compatibles de paquetes de Python y Python (en este caso, el paquete Databricks Connect).
A fin de configurar el entorno virtual de Python para el proyecto, en la vista de la Configuración del panel de extensión:
- Haga clic en el elemento rojo Activar entorno virtual en Entorno de Python.
- En la Paleta de comandos, seleccione Venv o Conda.
- Seleccione las dependencias que quiere instalar, en caso de que corresponda.
Para cambiar los entornos, haga clic en el icono de engranaje (Cambiar entorno virtual) asociado al Entorno activo.
A fin de obtener información sobre cómo instalar Databricks Connect, que permite ejecutar y depurar código y cuadernos en Visual Studio Code, vea Depuración de código mediante Databricks Connect para la extensión de Databricks para Visual Studio Code.