Crie um modelo personalizado de bundle

Neste tutorial, vais criar um modelo personalizado para criar Declarative Automation Bundles que executam um trabalho com uma tarefa Python num cluster usando uma imagem específica de contentor Docker.

Para obter informações sobre modelos de pacote personalizados, consulte Modelos de pacote personalizados.

Requerimentos

Instale a versão 0.218.0 ou superior da CLI do Databricks. Se já o tiver instalado, confirme se a versão é 0.218.0 ou superior executando databricks -version a partir da linha de comandos.

Definir variáveis de prompt do usuário

Primeiro, defina as databricks bundle init variáveis de prompt do utilizador. Na linha de comando:

Crie uma pasta vazia chamada dab-container-template:
```
mkdir dab-container-template
```
Na raiz da pasta, crie um ficheiro chamado databricks_template_schema.json:
```
cd dab-container-template
touch databricks_template_schema.json
```

Adicione o seguinte JSON ao ficheiro databricks_template_schema.json para definir um prompt de utilizador para o nome do projeto bundle:

{
  "properties": {
    "project_name": {
      "type": "string",
      "default": "project_name",
      "description": "Project name",
      "order": 1
    }
  }
}

Criar a estrutura de pastas do pacote

De seguida, crie uma template pasta para conter a estrutura de pastas dos pacotes gerados. Os nomes dos subdiretórios e ficheiros seguem a sintaxe do modelo de pacote Go.

Este modelo cria a pasta do projeto agrupado com base na sugestão de nome do projeto:

mkdir -p "template/{{.project_name}}"

Agora crie os subdiretórios resources e src para os ficheiros bundle:

mkdir -p "template/{{.project_name}}/resources"
mkdir -p "template/{{.project_name}}/src"

Adicionar modelos de configuração YAML

Na template/{{.project_name}} pasta, crie um ficheiro chamado databricks.yml.tmpl:

touch template/{{.project_name}}/databricks.yml.tmpl

Adicione o seguinte YAML a databricks.yml.tmpl. Este exemplo usa os auxiliares de modelo de pacote .

# This is a bundle definition for {{.project_name}}.
# See https://docs.databricks.com/dev-tools/bundles/index.html for documentation.
bundle:
  name: {{.project_name}}

include:
  - resources/*.yml

targets:
  # The 'dev' target, used for development purposes.
  # Whenever a developer deploys using 'dev', they get their own copy.
  dev:
    # We use 'mode: development' to make sure everything deployed to this target gets a prefix
    # like '[dev my_user_name]'. Setting this mode also disables any schedules and
    # automatic triggers for jobs and enables the 'development' mode for :re[LDP].
    mode: development
    default: true
    workspace:
      host: {{workspace_host}}

  # The 'prod' target, used for production deployment.
  prod:
    # For production deployments, we only have a single copy, so we override the
    # workspace.root_path default of
    # /Workspace/Users/${workspace.current_user.userName}/.bundle/${bundle.target}/${bundle.name}
    # to a path that is not specific to the current user.
    #
    # By making use of 'mode: production' we enable strict checks
    # to make sure we have correctly configured this target.
    mode: production
    workspace:
      host: {{workspace_host}}
      root_path: /Shared/.bundle/prod/${bundle.name}
    {{- if not is_service_principal}}
    run_as:
      # This runs as {{user_name}} in production. Alternatively,
      # a service principal could be used here using service_principal_name
      # (see Databricks documentation).
      user_name: {{user_name}}
    {{end -}}

Crie outro ficheiro YAML nomeado {{.project_name}}_job.yml.tmpl na template/{{.project_name}}/resources pasta. Este novo ficheiro YAML contém a definição do trabalho.

touch template/{{.project_name}}/resources/{{.project_name}}_job.yml.tmpl

Adicione o seguinte YAML a este ficheiro para descrever o template job, que contém uma tarefa Python para executar num cluster de jobs usando uma imagem de contentor Docker específica. Este exemplo usa uma imagem padrão de contentor base do Databricks no Docker, mas pode especificar a sua própria imagem personalizada.

# The main job for {{.project_name}}
resources:
  jobs:
    {{.project_name}}_job:
      name: {{.project_name}}_job
      tasks:
        - task_key: python_task
          job_cluster_key: job_cluster
          spark_python_task:
            python_file: ../src/task.py

      job_clusters:
        - job_cluster_key: job_cluster
          new_cluster:
            docker_image:
              url: databricksruntime/python:10.4-LTS
            node_type_id: i3.xlarge
            spark_version: 13.3.x-scala2.12

Adicionar arquivos referenciados em sua configuração

De seguida, crie o ficheiro de tarefa em Python referenciado pelo trabalho no modelo:

touch template/{{.project_name}}/src/task.py

Agora, adicione o seguinte a task.py:

print(f'Spark version{spark.version}')

Verificar a estrutura do modelo de pacote

Analise a estrutura de pastas do seu projeto de modelo de pacote. Deve ter a seguinte aparência:

dab-container-template
├── databricks_template_schema.json
└── template
    ├── {{.project_name}}
        ├── databricks.yml.tmpl
        ├── resources
        │   └── {{.project_name}}_job.yml.tmpl
        └── src
            └── task.py

Teste o seu modelo

Por fim, teste o seu modelo de agrupamento. Para gerar um pacote com base em seu novo modelo personalizado, use o comando databricks bundle init, especificando o novo local do modelo. A partir da pasta raiz do conjunto de projetos:

databricks bundle init dab-container-template

Próximos passos

Crie um pacote que implante um bloco de anotações em um espaço de trabalho do Azure Databricks e, em seguida, execute esse bloco de anotações implantado como um trabalho do Azure Databricks. Veja Desenvolver um trabalho com Pacotes de Automação Declarativa.
Crie um pacote que implante um notebook em um espaço de trabalho do Azure Databricks e, em seguida, execute esse notebook implantado como um pipeline de ETL. Veja Desenvolver pipelines com Pacotes de Automação Declarativa.
Crie um pacote que instale e execute uma stack de MLOps. Ver Pacotes de Automação Declarativa para Pilhas MLOps.
Adicione um pacote a um fluxo de trabalho de CI/CD (integração contínua/implantação contínua) no GitHub. Consulte Ações do GitHub.

Recursos

repositório de exemplos em conjunto no GitHub

Comentários

Esta página foi útil?

Last updated on 2026-03-21