Compartir vía


Tutorial: Crear e implementar un paquete en el área de trabajo

Para ayudarle a empezar a usar Conjuntos de recursos de Databricks en el área de trabajo, este tutorial le guiará a través de la creación de una agrupación con un trabajo, su implementación y la ejecución del trabajo en la agrupación, todo desde el área de trabajo.

Para conocer los requisitos para utilizar paquetes en el área de trabajo, consulte Paquetes de Recursos de Databricks en los requisitos del área de trabajo.

Para obtener más información sobre las agrupaciones, consulte ¿Qué son los conjuntos de recursos de Databricks?.

Crear un paquete

En primer lugar, crea un paquete en el área de trabajo de Databricks.

  1. Diríjase a la carpeta git donde desea crear su paquete.

    Sugerencia

    Si ha abierto previamente la carpeta Git en el editor del área de trabajo, puede usar el menú contextuales de creación del explorador del área de trabajo para navegar rápidamente a la carpeta Git. Consulte Contextos de creación.

  2. Haga clic en el botón Crear y, a continuación, haga clic en Agrupación de recursos. Como alternativa, haga clic con el botón derecho en la carpeta Git o en su kebab asociado en el árbol del área de trabajo y haga clic en Crear>agrupación de recursos:

    Creación de una agrupación de recursos

  3. En el cuadro de diálogo Crear un lote de recursos , asigne un nombre al conjunto de recursos, como un paquete totalmente impresionante. El nombre del lote solo puede contener letras, números, guiones y caracteres de subrayado. Seleccione Proyecto vacío y haga clic en Crear e implementar .

    Cuadro de diálogo para crear conjunto de recursos nuevo

Esto crea una agrupación inicial en la carpeta Git, que incluye un .gitignore archivo de configuración de Git y el archivo de conjuntos databricks.yml de recursos de Databricks necesario. El databricks.yml archivo contiene la configuración principal de la agrupación. Para obtener más información, consulte Configuración del conjunto de recursos de Databricks.

Nuevo conjunto de recursos

Agregar un cuaderno

A continuación, agregue un cuaderno al paquete. El cuaderno del ejemplo siguiente imprime "Hello World!".

  1. Haga clic en el icono Agregar proyecto de agrupación de cuadernos . Como alternativa, haga clic en el kebab para la agrupación en la tabla de contenido y, a continuación, haga clic en Crear>cuaderno.

  2. Cambie el nombre del bloc de notas a helloworld.

  3. Establezca el lenguaje del cuaderno en Python y pegue lo siguiente en la celda del cuaderno:

    print("Hello World!")
    

Definición de un trabajo

Ahora defina un trabajo que ejecute el cuaderno.

  1. Haga clic en el icono de implementación del paquete para cambiar al panel Implementaciones .

    Icono del panel Implementaciones

  2. En la sección Agrupación de recursos , haga clic en Agregar y, a continuación, en Nueva definición de trabajo.

    Creación de una definición de trabajo

  3. Escriba run-notebook en el campo Nombre del trabajo del cuadro de diálogo Agregar trabajo a la agrupación existente. Haga clic en Agregar e implementar.

  4. Aparece un cuadro de diálogo de confirmación Implementar en desarrollo con información sobre el recurso de tarea que se creará en el espacio de trabajo de destino en desarrollo. Haga clic en Implementar.

  5. Vuelva a los archivos de la agrupación haciendo clic en el icono de carpeta situado encima del icono de implementaciones. Se creó un recurso de trabajo run-notebook.job.yml con YAML básico para el trabajo y un YAML de ejemplo de tarea de trabajo adicional comentado.

  6. Agregue una tarea de cuaderno a la definición del trabajo. Reemplace el código YAML de ejemplo en el run-notebook.job.yml archivo por lo siguiente:

    resources:
      jobs:
        run_notebook:
          name: run-notebook
          queue:
            enabled: true
          tasks:
            - task_key: my-notebook-task
              notebook_task:
                notebook_path: ../helloworld.ipynb
    

    YAML de configuración de tareas del cuaderno de trabajos

Para más información sobre cómo definir un trabajo en YAML, consulte trabajo. Para ver la sintaxis de YAML para otros tipos de tareas de trabajo admitidos, consulte Incorporación de tareas a trabajos en Conjuntos de recursos de Databricks.

Desplegar el paquete

A continuación, despliegue el paquete y ejecute el trabajo que contiene la tarea del helloworld notebook.

  1. En el panel de Implementaciones para el paquete, bajo Destinos, haga clic en la lista desplegable para seleccionar el dev área de trabajo de destino si aún no está seleccionada. Los espacios de trabajo destinados se definen en la targets asignación del conjunto databricks.yml. Consulte Modos de implementación de Conjunto de recursos de Databricks.

    Seleccionar destino de implementación

  2. Haga clic en el botón Implementar . La agrupación se valida y los detalles de la validación aparecen en un cuadro de diálogo.

  3. Revise los detalles de implementación en este cuadro de diálogo de confirmación Desplegar en desarrollo y, a continuación, haga clic en Desplegar.

    Cuadro de diálogo Desplegar en entorno de desarrollo

    Importante

    La implementación de paquetes y la ejecución de recursos de paquetes ejecuta el código como el usuario actual. Asegúrese de confiar en el código de la agrupación, incluido YAML, que puede contener opciones de configuración que ejecutan comandos.

El estado de la implementación se genera en la ventana Salida del proyecto .

Ejecutar el trabajo

Los recursos de agrupación implementados aparecen en Recursos de agrupación. Haga clic en el icono de reproducción asociado al recurso de trabajo para ejecutarlo.

Enumerar los recursos implementados

Vaya a Ejecuciones de trabajo desde la barra de navegación izquierda para ver la ejecución del lote. El nombre de la ejecución del trabajo agrupado tiene un prefijo, por ejemplo [dev someone] run-notebook.

Pasos siguientes