Creación de una plantilla de agrupación personalizada

En este tutorial, creará una plantilla personalizada para crear agrupaciones de Automatización declarativa que ejecutan un trabajo con una tarea de Python en un clúster mediante una imagen de contenedor de Docker específica.

Para obtener información sobre las plantillas de agrupación personalizadas, consulte Plantillas de agrupación personalizadas.

Requisitos

Instale la CLI de Databricks versión 0.218.0 o posterior. Si ya lo ha instalado, confirme que la versión es 0.218.0 o posterior mediante la ejecución databricks -version desde la línea de comandos.

Definición de variables de solicitud de usuario

En primer lugar, defina las variables del indicador de usuario databricks bundle init. Desde la línea de comandos:

Cree una carpeta vacía denominada dab-container-template:
```
mkdir dab-container-template
```
En la raíz de la carpeta, cree un archivo denominado databricks_template_schema.json:
```
cd dab-container-template
touch databricks_template_schema.json
```

Agregue el siguiente json al databricks_template_schema.json archivo para definir un mensaje de usuario para el nombre del proyecto de agrupación:

{
  "properties": {
    "project_name": {
      "type": "string",
      "default": "project_name",
      "description": "Project name",
      "order": 1
    }
  }
}

Crea la estructura de carpetas del paquete

A continuación, cree una template carpeta para que contenga la estructura de carpetas de los conjuntos generados. Los nombres de los subdirectorios y archivos siguen la sintaxis de la plantilla de paquete de Go.

Esta plantilla crea la carpeta del proyecto de empaquetamiento basada en el aviso para el nombre del proyecto.

mkdir -p "template/{{.project_name}}"

Ahora cree los subdirectorios resources y src para los archivos de agrupación:

mkdir -p "template/{{.project_name}}/resources"
mkdir -p "template/{{.project_name}}/src"

Adición de plantillas de configuración de YAML

En la template/{{.project_name}} carpeta , cree un archivo denominado databricks.yml.tmpl:

touch template/{{.project_name}}/databricks.yml.tmpl

Agregue el siguiente código YAML a databricks.yml.tmpl. En este ejemplo se usan asistentes de plantillas de agrupación.

# This is a bundle definition for {{.project_name}}.
# See https://docs.databricks.com/dev-tools/bundles/index.html for documentation.
bundle:
  name: {{.project_name}}

include:
  - resources/*.yml

targets:
  # The 'dev' target, used for development purposes.
  # Whenever a developer deploys using 'dev', they get their own copy.
  dev:
    # We use 'mode: development' to make sure everything deployed to this target gets a prefix
    # like '[dev my_user_name]'. Setting this mode also disables any schedules and
    # automatic triggers for jobs and enables the 'development' mode for :re[LDP].
    mode: development
    default: true
    workspace:
      host: {{workspace_host}}

  # The 'prod' target, used for production deployment.
  prod:
    # For production deployments, we only have a single copy, so we override the
    # workspace.root_path default of
    # /Workspace/Users/${workspace.current_user.userName}/.bundle/${bundle.target}/${bundle.name}
    # to a path that is not specific to the current user.
    #
    # By making use of 'mode: production' we enable strict checks
    # to make sure we have correctly configured this target.
    mode: production
    workspace:
      host: {{workspace_host}}
      root_path: /Shared/.bundle/prod/${bundle.name}
    {{- if not is_service_principal}}
    run_as:
      # This runs as {{user_name}} in production. Alternatively,
      # a service principal could be used here using service_principal_name
      # (see Databricks documentation).
      user_name: {{user_name}}
    {{end -}}

Cree otro archivo YAML denominado {{.project_name}}_job.yml.tmpl en la template/{{.project_name}}/resources carpeta . Este nuevo archivo YAML contiene la definición del trabajo.

touch template/{{.project_name}}/resources/{{.project_name}}_job.yml.tmpl

Agregue el siguiente CÓDIGO YAML a este archivo para describir el trabajo de plantilla, que contiene una tarea de Python para ejecutarse en un clúster de trabajos mediante una imagen de contenedor de Docker específica. ** En este ejemplo se utiliza una imagen base de contenedor de Docker predeterminada de Databricks, pero puede especificar su propia imagen personalizada.

# The main job for {{.project_name}}
resources:
  jobs:
    {{.project_name}}_job:
      name: {{.project_name}}_job
      tasks:
        - task_key: python_task
          job_cluster_key: job_cluster
          spark_python_task:
            python_file: ../src/task.py

      job_clusters:
        - job_cluster_key: job_cluster
          new_cluster:
            docker_image:
              url: databricksruntime/python:10.4-LTS
            node_type_id: i3.xlarge
            spark_version: 13.3.x-scala2.12

Agregar archivos a los que se hace referencia en la configuración

A continuación, cree el archivo de tareas de Python al que hace referencia el trabajo en la plantilla:

touch template/{{.project_name}}/src/task.py

Ahora, agregue lo siguiente a task.py:

print(f'Spark version{spark.version}')

Comprobación de la estructura de la plantilla de agrupación

Revise la estructura de carpetas del proyecto de plantilla de agrupación. Debería tener este aspecto:

dab-container-template
├── databricks_template_schema.json
└── template
    ├── {{.project_name}}
        ├── databricks.yml.tmpl
        ├── resources
        │   └── {{.project_name}}_job.yml.tmpl
        └── src
            └── task.py

Prueba de la plantilla

Por último, pruebe la plantilla de agrupación. Para generar una agrupación basada en la nueva plantilla personalizada, use el comando databricks bundle init y especifique la nueva ubicación de plantilla. Desde la carpeta raíz de tus paquetes de proyectos:

databricks bundle init dab-container-template

Pasos siguientes

Cree una agrupación que implemente un cuaderno en un área de trabajo de Azure Databricks y, a continuación, ejecute ese cuaderno implementado como trabajo de Azure Databricks. Ver Desarrolle un trabajo con paquetes de Automatización Declarativa.
Cree una agrupación que implemente un cuaderno en un área de trabajo de Azure Databricks y, a continuación, ejecute ese cuaderno implementado como una canalización de ETL. Consulte Desarrollar canalizaciones con paquetes de automatización declarativa.
Cree una agrupación que implemente y ejecute una pila de MLOps. Consulte Paquetes de Automatización Declarativa para Infraestructuras MLOps.
Agregue un paquete a un flujo de trabajo de CI/CD (integración continua y desarrollo/despliegue continuo) en GitHub. Consulte Acciones de GitHub.

Recursos

repositorio de ejemplos de Bundle en GitHub

Comentarios

¿Le resultó útil esta página?

Last updated on 2026-03-21