O que são Databricks Asset Bundles?

Os Databricks Asset Bundles são uma ferramenta para facilitar a adoção das melhores práticas de engenharia de software, incluindo controle de código-fonte, revisão de código, testes e integração e entrega contínuas (CI/CD) para seus projetos de dados e IA. Os pacotes fornecem uma maneira de incluir metadados junto com os arquivos de origem do seu projeto e tornam possível descrever recursos do Databricks, como trabalhos e pipelines, como arquivos de origem. Em última análise, um pacote é uma definição de ponta a ponta de um projeto, incluindo como o projeto deve ser estruturado, testado e implantado. Isso facilita a colaboração em projetos durante o desenvolvimento ativo.

A coleção de arquivos de origem e metadados do seu projeto de pacote é implantada como um único pacote no ambiente de destino. Um pacote inclui as seguintes partes:

Infraestrutura de nuvem e configurações de espaço de trabalho necessárias
Arquivos de origem, como blocos de anotações e arquivos Python, que incluem a lógica de negócios
Definições e configurações para recursos do Databricks, como Tarefas Lakeflow, Pipelines Declarativas Lakeflow Spark, Painéis, pontos finais de Serviço de Modelos, Experimentos MLflow e modelos registados no MLflow.
Testes unitários e testes de integração

O diagrama a seguir fornece uma visão de alto nível de um fluxo contínuo de desenvolvimento e CI/CD com pacotes.

Visão geral do Databricks Asset Bundles

Vídeo passo a passo

Este vídeo demonstra como trabalhar com Databricks Asset Bundles (5 minutos).

Quando devo usar pacotes?

Os pacotes de ativos Databricks são uma abordagem de infraestrutura como código (IaC) para gerenciar seus projetos Databricks. Use-os quando quiser gerenciar projetos complexos em que vários colaboradores e automação são essenciais, e a integração e implantação contínuas (CI/CD) são um requisito. Como os pacotes são definidos e gerenciados por meio de modelos e arquivos YAML que você cria e mantém junto com o código-fonte, eles mapeiam bem para cenários onde o IaC é uma abordagem apropriada.

Alguns cenários ideais para pacotes incluem:

Desenvolva projetos de dados, análises e ML em um ambiente baseado em equipe. Os pacotes podem ajudá-lo a organizar e gerenciar vários arquivos de origem de forma eficiente. Isso garante uma colaboração suave e processos simplificados.
Itere problemas de ML mais rapidamente. Gerencie recursos de pipeline de ML (como treinamento e trabalhos de inferência em lote) usando projetos de ML que seguem as práticas recomendadas de produção desde o início.
Defina padrões organizacionais para novos projetos criando modelos de pacote personalizados que incluem permissões padrão, entidades de serviço e configurações de CI/CD.
Conformidade regulamentar: em setores onde a conformidade regulatória é uma preocupação significativa, os pacotes podem ajudar a manter um histórico versionado do trabalho de código e infraestrutura. Isso auxilia na governança e garante que os padrões de conformidade necessários sejam cumpridos.

Como funcionam os pacotes?

Os metadados do pacote são definidos usando arquivos YAML que especificam os artefatos, recursos e configuração de um projeto Databricks. A CLI do Databricks pode ser usada para validar, implantar e executar pacotes usando esses arquivos YAML de pacote. Você pode executar projetos de pacote diretamente de IDEs, terminais ou dentro do Databricks.

Os pacotes podem ser criados manualmente ou com base em um modelo. A CLI do Databricks fornece modelos padrão para casos de uso simples, mas para trabalhos mais específicos ou complexos, você pode criar modelos de pacote personalizados para implementar as práticas recomendadas da sua equipe e manter as configurações comuns consistentes.

Para obter mais detalhes sobre a configuração que o YAML usou para expressar Databricks Asset Bundles, consulte Configuração do Databricks Asset Bundle.

O que eu preciso instalar para usar pacotes?

Os pacotes de ativos Databricks são um recurso da CLI do Databricks. Você cria pacotes localmente e, em seguida, usa a CLI do Databricks para implantar seus pacotes para direcionar espaços de trabalho remotos do Databricks e executar fluxos de trabalho de pacote nesses espaços de trabalho a partir da linha de comando.

Observação

Se você quiser apenas usar pacotes no espaço de trabalho, não precisará instalar a CLI do Databricks. Veja Colaborar em pacotes no espaço de trabalho.

Para criar, implantar e executar pacotes em seus espaços de trabalho do Azure Databricks:

Os seus espaços de trabalho remotos do Databricks devem ter os ficheiros de espaço de trabalho ativados. Se você estiver usando o Databricks Runtime versão 11.3 LTS ou superior, esse recurso será habilitado por padrão.
Você deve instalar a CLI do Databricks, versão v0.218.0 ou superior. Para instalar ou atualizar a CLI do Databricks, consulte Instalar ou atualizar a CLI do Databricks.

O Databricks recomenda que você atualize regularmente para a versão mais recente da CLI para aproveitar os novos recursos do pacote. Para localizar a versão da CLI do Databricks instalada, execute o seguinte comando:
```
databricks --version
```
Você configurou a CLI do Databricks para acessar seus espaços de trabalho do Databricks. O Databricks recomenda configurar o acesso usando a autenticação U2M (user-to-machine) OAuth, descrita em Configurar o acesso ao seu espaço de trabalho. Outros métodos de autenticação são descritos em Authentication for Databricks Asset Bundles.

Como faço para começar a usar pacotes?

A maneira mais rápida de iniciar o desenvolvimento de pacotes locais é usando um modelo de projeto de pacote. Crie seu primeiro projeto de pacote usando o comando Databricks CLI bundle init. Este comando apresenta uma escolha de modelos de pacote padrão fornecidos pelo Databricks e faz uma série de perguntas para inicializar variáveis de projeto.

databricks bundle init

Criar seu pacote é a primeira etapa no ciclo de vida de um pacote. Em seguida, desenvolve o teu pacote definindo as definições do pacote databricks.yml e os recursos nos ficheiros de configuração. Por fim, valide e implante seu pacote e, em seguida, execute seus fluxos de trabalho.

Gorjeta

Exemplos de configuração de pacote podem ser encontrados em Exemplos de configuração de pacote e no repositório de exemplos de pacote no GitHub.

Próximos passos

Crie um conjunto que implemente um notebook num espaço de trabalho do Azure Databricks e, em seguida, execute esse notebook implementado num trabalho ou pipeline do Azure Databricks. Consulte Desenvolver um trabalho com Databricks Asset Bundles e Desenvolver Lakeflow Spark Declarative Pipelines com Databricks Asset Bundles.
Crie um pacote que implante e execute uma pilha de MLOps. Consulte Databricks Asset Bundles para MLOps Stacks.
Inicie uma implantação de pacote como parte de um fluxo de trabalho de CI/CD (integração contínua/implantação contínua) no GitHub. Consulte Executar um fluxo de trabalho de CI/CD com um pacote que executa uma atualização de pipeline.
Crie um pacote que cria, implanta e chama um arquivo de roda do Python. Consulte Criar um arquivo de roda Python usando Databricks Asset Bundles.
Gere a configuração em seu pacote para um trabalho ou outro recurso em seu espaço de trabalho e, em seguida, associe-a ao recurso no espaço de trabalho para que a configuração permaneça sincronizada. Veja databricks bundle generate e databricks bundle deployment bind.
Crie e implante um pacote no espaço de trabalho. Veja Colaborar em pacotes no espaço de trabalho.
Crie um modelo personalizado que você e outras pessoas possam usar para criar um pacote. Um modelo personalizado pode incluir permissões padrão, entidades de serviço e configuração personalizada de CI/CD. Consulte Modelos de projeto do Databricks Asset Bundle.
Migre de dbx para Databricks Asset Bundles. Consulte Migrar de dbx para pacotes.
Descubra os principais recursos mais recentes lançados para o Databricks Asset Bundles. Consulte Anotações de lançamento da função Databricks Asset Bundles.

Feedback

Esta página foi útil?

Last updated on 2025-12-11