Partilhar via


O que são Databricks Asset Bundles?

Os Databricks Asset Bundles são uma ferramenta para facilitar a adoção das melhores práticas de engenharia de software, incluindo controle de código-fonte, revisão de código, testes e integração e entrega contínuas (CI/CD) para seus projetos de dados e IA. Os pacotes fornecem uma maneira de incluir metadados junto com os arquivos de origem do seu projeto e tornam possível descrever recursos do Databricks, como trabalhos e pipelines, como arquivos de origem. Em última análise, um pacote é uma definição de ponta a ponta de um projeto, incluindo como o projeto deve ser estruturado, testado e implantado. Isso facilita a colaboração em projetos durante o desenvolvimento ativo.

A coleção de arquivos de origem e metadados do seu projeto de pacote é implantada como um único pacote no ambiente de destino. Um pacote inclui as seguintes partes:

  • Infraestrutura de nuvem e configurações de espaço de trabalho necessárias
  • Arquivos de origem, como blocos de anotações e arquivos Python, que incluem a lógica de negócios
  • Definições e configurações para recursos do Databricks, como Lakeflow Jobs, Lakeflow Declarative Pipelines, Model Serving endpoints, MLflow Experiments e MLflow registered models
  • Testes unitários e testes de integração

O diagrama a seguir fornece uma visão de alto nível de um fluxo contínuo de desenvolvimento e CI/CD com pacotes.

Visão geral do Databricks Asset Bundles

Quando devo usar o Databricks Asset Bundles?

Os pacotes de ativos Databricks são uma abordagem de infraestrutura como código (IaC) para gerenciar seus projetos Databricks. Use-os quando quiser gerenciar projetos complexos em que vários colaboradores e automação são essenciais, e a integração e implantação contínuas (CI/CD) são um requisito. Como os pacotes são definidos e gerenciados por meio de modelos e arquivos YAML que você cria e mantém junto com o código-fonte, eles mapeiam bem para cenários onde o IaC é uma abordagem apropriada.

Alguns cenários ideais para pacotes incluem:

  • Desenvolva projetos de dados, análises e ML em um ambiente baseado em equipe. Os pacotes podem ajudá-lo a organizar e gerenciar vários arquivos de origem de forma eficiente. Isso garante uma colaboração suave e processos simplificados.
  • Itere problemas de ML mais rapidamente. Gerencie recursos de pipeline de ML (como treinamento e trabalhos de inferência em lote) usando projetos de ML que seguem as práticas recomendadas de produção desde o início.
  • Defina padrões organizacionais para novos projetos criando modelos de pacote personalizados que incluem permissões padrão, entidades de serviço e configurações de CI/CD.
  • Conformidade regulamentar: em setores onde a conformidade regulatória é uma preocupação significativa, os pacotes podem ajudar a manter um histórico versionado do trabalho de código e infraestrutura. Isso auxilia na governança e garante que os padrões de conformidade necessários sejam cumpridos.

Como funcionam os Databricks Asset Bundles?

Os metadados do pacote são definidos usando arquivos YAML que especificam os artefatos, recursos e configuração de um projeto Databricks. A CLI do Databricks pode ser usada para validar, implantar e executar pacotes usando esses arquivos YAML de pacote. Você pode executar projetos de pacote diretamente de IDEs, terminais ou dentro do Databricks.

Os pacotes podem ser criados manualmente ou com base em um modelo. A CLI do Databricks fornece modelos padrão para casos de uso simples, mas para trabalhos mais específicos ou complexos, você pode criar modelos de pacote personalizados para implementar as práticas recomendadas da sua equipe e manter as configurações comuns consistentes.

Para obter mais detalhes sobre a configuração que o YAML usou para expressar Databricks Asset Bundles, consulte Configuração do Databricks Asset Bundle.

Requerimentos

Os pacotes de ativos Databricks são um recurso da CLI do Databricks. Você cria pacotes localmente e, em seguida, usa a CLI do Databricks para implantar seus pacotes para direcionar espaços de trabalho remotos do Databricks e executar fluxos de trabalho de pacote nesses espaços de trabalho a partir da linha de comando.

Para criar, implantar e executar pacotes em seus espaços de trabalho do Azure Databricks:

  • Os seus espaços de trabalho remotos do Databricks devem ter os ficheiros de espaço de trabalho ativados. Se você estiver usando o Databricks Runtime versão 11.3 LTS ou superior, esse recurso será habilitado por padrão.

  • Você deve instalar a CLI do Databricks, versão v0.218.0 ou superior. Para instalar ou atualizar a CLI do Databricks, consulte Instalar ou atualizar a CLI do Databricks.

    O Databricks recomenda que você atualize regularmente para a versão mais recente da CLI para aproveitar os novos recursos do pacote. Para localizar a versão da CLI do Databricks instalada, execute o seguinte comando:

    databricks --version
    
  • Você configurou a CLI do Databricks para acessar seus espaços de trabalho do Databricks. O Databricks recomenda configurar o acesso usando a autenticação U2M (user-to-machine) OAuth, descrita em Configurar o acesso ao seu espaço de trabalho. Outros métodos de autenticação são descritos em Authentication for Databricks Asset Bundles.

Como faço para começar a usar pacotes?

A maneira mais rápida de iniciar o desenvolvimento de pacotes é usando um modelo de projeto de pacote. Crie seu primeiro projeto de pacote usando o comando Databricks CLI bundle init. Este comando apresenta uma escolha de modelos de pacote padrão fornecidos pelo Databricks e faz uma série de perguntas para inicializar variáveis de projeto.

databricks bundle init

Criar seu pacote é a primeira etapa no ciclo de vida de um pacote. Em seguida, desenvolve o teu pacote definindo as definições do pacote databricks.yml e os recursos nos ficheiros de configuração. Por fim, valide e implante seu pacote e, em seguida, execute seus fluxos de trabalho.

Gorjeta

Exemplos de configuração de pacote podem ser encontrados em Exemplos de configuração de pacote e no repositório de exemplos de pacote no GitHub.

Próximos passos