Tutorial sobre la extensión de VSCode para Databricks: Ejecución de Python en un clúster y como un trabajo

Artículo
03/18/2024

Este tutorial muestra cómo empezar rápidamente con la extensión Databricks para Visual Studio Code ejecutando un archivo de código Python básico en un clúster de Azure Databricks y como un trabajo de Azur Databricks ejecutado en su área de trabajo remota. Consulte ¿Qué es la extensión de Databricks para Visual Studio Code?.

¿Qué hará en este tutorial?

En este tutorial práctico, hará lo siguiente:

Cree un clúster de Azure Databricks para ejecutar el código de Python local.
Instale Visual Studio Code y la extensión de Databricks para Visual Studio Code.
Configure la autenticación de Azure Databricks y configure la extensión de Databricks para Visual Studio Code con esta información.
Configure la extensión de Databricks para Visual Studio Code con información sobre el clúster remoto y disponga de la extensión para iniciar el clúster.
Configure la extensión de Databricks para Visual Studio Code con la ubicación del área de trabajo remota de Azure Databricks para cargar el código Python local y haga que la extensión empiece a escuchar eventos de carga de código.
Escriba y guarde código de Python, que desencadena un evento de carga de código.
Use la extensión de Databricks para Visual Studio Code para ejecutar el código cargado en el clúster remoto y, a continuación, ejecutarlo con el clúster como una ejecución de trabajo remoto.

En este tutorial solo se muestra cómo ejecutar un archivo de código de Python y este tutorial muestra solo cómo configurar la autenticación de usuario a máquina (U2M) de OAuth. Para obtener información acerca de cómo depurar archivos de código de Python, ejecutar y depurar cuadernos y configurar otros tipos de autenticación, consulte Pasos siguientes.

Paso 1: creación de un clúster

Si ya tiene un clúster remoto de Azure Databricks que desea usar, anote el nombre del clúster y vaya al paso 2 para instalar Visual Studio Code. Para ver los clústeres disponibles, en la barra lateral del área de trabajo, haga clic en Proceso.

Databricks recomienda crear un clúster de Proceso personal para empezar a trabajar rápidamente. Para crear este clúster, haga lo siguiente:

En el área de trabajo de Azure Databricks, en la barra lateral, haga clic en Proceso.
Haga clic en Crear con Proceso personal.
Haga clic en Crear proceso.
Anote el nombre del clúster, ya que lo necesitará más adelante en el paso 5 al agregar información del clúster a la extensión.

Paso 2: Instalar Visual Studio Code

Para instalar Visual Studio Code, siga las instrucciones para macOS, Linux o Windows.

Si ya tiene Visual Studio Code instalado, compruebe si es la versión 1.69.1 o posterior. Para ello, en Visual Studio Code, en el menú principal, haga clic en Código > Acerca de Visual Studio Code para macOS o Ayuda > Acerca de para Linux o Windows.

Para actualizar Visual Studio Code, en el menú principal, haga clic en Código > Buscar actualizaciones para macOS o Ayuda > Buscar actualizaciones para Linux o Windows.

Paso 3: Instalar la extensión de Databricks

Instale la extensión de Visual Studio Code

En la barra lateral de Visual Studio Code, haga clic en el icono Extensiones.
En Extensiones de búsqueda en Marketplace, escriba Databricks.
En la entrada etiquetada Databricks con el subtítulo Compatibilidad de IDE para Databricks de Databricks, haga clic en Instalar.

Paso 4: Configurar la autenticación de Azure Databricks

En este paso, habilitará la autenticación entre la extensión de Databricks para Visual Studio Code y el área de trabajo remota de Azure Databricks, como se indica a continuación:

En Visual Studio Code, abra una carpeta vacía en la máquina de desarrollo local que usará para contener el código de Python que creará y ejecutará más adelante en el paso 7. Para ello, en el menú principal, haga clic en Archivo > Abrir carpeta y siga las instrucciones en pantalla.
En la barra lateral de Visual Studio Code, haga clic en el icono del logotipo Databricks.
En el panel Configuración, haga clic en Configurar Databricks.
En la Paleta de comandos, en Host de Databricks, escriba la dirección URL del área de trabajo, por ejemplo https://adb-1234567890123456.7.azuredatabricks.net. A continuación, presione Entrar.
Seleccione OAuth (usuario a máquina).
Complete las instrucciones en pantalla del explorador web para terminar de autenticarse con Azure Databricks. Si se le solicita, permita acceso a todas las API.

Paso 5: Agregar información de clúster a la extensión de Databricks e iniciar el clúster

Con el panel Configuración ya abierto desde el paso anterior donde ha configurado la autenticación, junto a Clúster, haga clic en el icono de engranaje (Configurar clúster).
En la paleta de comandos, seleccione el nombre del clúster que creó en el Paso 1.
Inicie el clúster, si aún no se ha iniciado: junto a Clúster, si el icono reproducir (Iniciar clúster) está visible, haga clic en él.

Inicie el clúster

Paso 6: Agregar la ubicación de carga de código a la extensión de Databricks e iniciar el agente de escucha de carga

Con el panel Configuración ya abierto desde el paso anterior donde ha agregado información del clúster, junto a Destino de sincronización, haga clic en el icono de engranaje (Configurar el destino de sincronización).
En la paleta de comandos, seleccione Crear nuevo destino de sincronización.
Presione Enter para confirmar el nombre del directorio de carga remota generado.
Inicie el cliente de escucha de carga, si aún no está iniciado: junto a Destino de sincronización, si el icono del círculo flechado está visible (Iniciar sincronización), haga clic en él.

Inicie el cliente de escucha de carga

Paso 7: Crear y ejecutar código de Python

Cree un archivo de código de Python local: en la barra lateral, haga clic en el icono de carpeta (Explorador).
En el menú principal, haga clic en Archivo > Nuevo archivo. Nombre el archivo como demo.py y guárdelo en la raíz del proyecto.

Agregue el siguiente código al archivo y guárdelo. Este código crea y muestra los contenidos de un DataFrame de PySpark básico:

from pyspark.sql import SparkSession
from pyspark.sql.types import *

spark = SparkSession.builder.getOrCreate()

schema = StructType([
   StructField('CustomerID', IntegerType(), False),
   StructField('FirstName',  StringType(),  False),
   StructField('LastName',   StringType(),  False)
])

data = [
   [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
   [ 1001, 'Joost',   'van Brunswijk' ],
   [ 1002, 'Stan',    'Bokenkamp' ]
]

customers = spark.createDataFrame(data, schema)
customers.show()

# Output:
#
# +----------+---------+-------------------+
# |CustomerID|FirstName|           LastName|
# +----------+---------+-------------------+
# |      1000|  Mathijs|Oosterhout-Rijntjes|
# |      1001|    Joost|      van Brunswijk|
# |      1002|     Stan|          Bokenkamp|
# +----------+---------+-------------------+

En la vista Explorer, haga clic en el archivo demo.py y después en Cargar y ejecutar archivo en Databricks. La salida aparece en el panel Consola de depuración.

Cargue y ejecute archivos en Databricks

Paso 8: Ejecutar el código como un trabajo

En el paso anterior, ejecutó el código de Python directamente en el clúster remoto. En este paso, iniciará un flujo de trabajo que usa el clúster para ejecutar el código como un trabajo de Azure Databricks en su lugar. Consulte ¿Qué son los trabajos de Azure Databricks?

Para ejecutar este código como trabajo, en la vista Explorer, haga clic con el botón derecho en el archivo demo.py y, a continuación, haga clic en Ejecutar archivo como flujo de trabajo en Databricks. La salida aparece en una pestaña del editor independiente junto al editor de archivos demo.py.

Ejecute archivo como flujo de trabajo en Databricks

Ha llegado al final de este tutorial.

Pasos siguientes

Ahora que ha usado satisfactoriamente la extensión de Databricks para Visual Studio Code para cargar un archivo de Python local y ejecutarlo de forma remota, obtenga más información sobre cómo usar la extensión:

Obtenga información acerca de otras formas de configurar la autenticación para la extensión. Consulte Configuración de autenticación para la extensión de Databricks para VS Code.
Aprenda a habilitar la finalización de código de PySpark y Databricks Utilities, ejecutar o depurar código de Python con Databricks Connect, ejecutar un archivo o un cuaderno como un trabajo de Azure Databricks, ejecutar pruebas con pytest, usar archivos de definiciones de variables de entorno, crear configuraciones de ejecución personalizadas, etc. Consulte Tareas de desarrollo para la extensión de Databricks para Visual Studio Code.

Compartir a través de