Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Os Pacotes de Ativos do Databricks são uma ferramenta para facilitar a adoção de práticas recomendadas de engenharia de software, incluindo controle do código-fonte, revisão de código, teste e CI/CD (integração e entrega contínua), para seus projetos de dados e IA. Os pacotes fornecem uma maneira de incluir metadados junto com os arquivos de origem do projeto e possibilitam descrever recursos do Databricks, como trabalhos e pipelines como arquivos de origem. Por fim, um pacote é uma definição de ponta a ponta de um projeto, incluindo como o projeto deve ser estruturado, testado e implantado. Isso facilita a colaboração em projetos durante o desenvolvimento ativo.
O pacote de arquivos e metadados de origem do projeto do pacote é implantado como um único pacote no seu ambiente de destino. Um pacote inclui as seguintes partes:
- Configurações necessárias de infraestrutura de nuvem e ambiente de trabalho
- Arquivos de origem, como notebooks e arquivos Python, que incluem a lógica de negócios
- Definições e configurações para recursos do Databricks, como Jobs do Lakeflow, Pipelines Declarativos do Spark Lakeflow, Dashboards, Endpoints de Servição de Modelos, Experimentos do MLflow e modelos registrados do MLflow
- Testes de unidade e testes de integração
O seguinte diagrama fornece uma exibição de alto nível de um pipeline de CI/CD e desenvolvimento com pacotes:
Guia em vídeo
Este vídeo demonstra como trabalhar com pacotes de ativos do Databricks (5 minutos).
Quando devo usar pacotes?
Os Pacotes de Ativos do Databricks são uma abordagem IaC (infraestrutura como código) para gerenciar seus projetos do Databricks. Use-os quando quiser gerenciar projetos complexos em que vários colaboradores e automação são essenciais e a CI/CD (integração e implantação contínuas) são um requisito. Como os pacotes são definidos e gerenciados por meio de modelos e arquivos YAML que você cria e mantém junto com o código-fonte, eles mapeiam bem para cenários em que IaC é uma abordagem apropriada.
Alguns cenários ideais para pacotes incluem:
- Desenvolva dados, análises e projetos de ML em um ambiente baseado em equipe. Os pacotes podem ajudá-lo a organizar e gerenciar vários arquivos de origem com eficiência. Isso garante uma colaboração suave e processos simplificados.
- Iterar em problemas de ML mais rapidamente. Gerencie recursos de pipeline de ML (como trabalhos de treinamento e inferência em lotes) usando projetos de ML que seguem as melhores práticas de produção desde o início.
- Defina padrões organizacionais para novos projetos criando modelos de pacote personalizados que incluem permissões padrão, entidades de serviço e configurações de CI/CD.
- Conformidade regulatória: em setores em que a conformidade regulatória é uma preocupação significativa, os pacotes podem ajudar a manter um histórico com versões de trabalho de código e infraestrutura. Isso auxilia na governança e garante que os padrões de conformidade necessários sejam atendidos.
Como funcionam os pacotes?
Os metadados de pacote são definidos usando arquivos YAML que especificam os artefatos, os recursos e a configuração de um projeto do Databricks. A CLI do Databricks pode ser usada para validar, implantar e executar pacotes usando esses arquivos YAML de pacote. Você pode executar projetos de pacotes a partir de IDEs, terminais ou diretamente no Databricks.
Os pacotes podem ser criados manualmente ou com base em um modelo. A CLI do Databricks fornece modelos padrão para casos de uso simples, mas para trabalhos mais específicos ou complexos, você pode criar modelos de pacote personalizados para implementar as práticas recomendadas da equipe e manter as configurações comuns consistentes.
Para obter mais detalhes sobre a configuração YAML usada para expressar os Pacotes de Ativos do Databricks, consulte Configurações do Pacote de Ativos do Databricks.
O que preciso instalar para usar pacotes?
Os Pacotes de Ativos do Databricks são um recurso da CLI do Databricks. Você cria pacotes localmente e, em seguida, usa a CLI do Databricks para implantar seus pacotes para workspaces remotos de destino no Databricks e executar os fluxos de trabalho dos pacotes nesses workspaces a partir da linha de comando.
Observação
Se você quiser usar apenas pacotes no workspace, não precisará instalar a CLI do Databricks. Consulte Colaborar em pacotes no workspace.
Para criar, implantar e executar pacotes em seus workspaces do Azure Databricks:
Seus espaços de trabalho remotos do Databricks devem ter arquivos de espaço de trabalho ativados. Se você estiver usando o Databricks Runtime versão 11.3 LTS ou superior, esse recurso será habilitado por padrão.
Você deve instalar a CLI do Databricks, versão v0.218.0 ou superior. Para instalar ou atualizar a CLI do Databricks, consulte Instalar ou atualizar a CLI do Databricks.
O Databricks recomenda que você atualize regularmente para a versão mais recente da CLI para aproveitar os novos recursos do pacote. Para encontrar a versão da CLI do Databricks instalada, execute o seguinte comando:
databricks --versionVocê configurou a CLI do Databricks para acessar seus espaços de trabalho do Databricks. O Databricks recomenda configurar o acesso usando a autenticação U2M (usuário para máquina) do OAuth, que é descrita em Configurar o acesso ao seu workspace. Outros métodos de autenticação são descritos na Autenticação para Pacotes de Ativos do Databricks.
Como começar a usar pacotes?
A maneira mais rápida de iniciar o desenvolvimento de pacote local é usando um modelo de projeto de pacote. Crie seu primeiro projeto de pacotes usando o comando init do pacote na CLI do Databricks. Esse comando apresenta uma seleção de modelos de pacote padrão fornecidos pelo Databricks e faz uma série de perguntas para inicializar as variáveis do projeto.
databricks bundle init
Criar o pacote é a primeira etapa no ciclo de vida de um pacote. Em seguida, desenvolva seu pacote definindo as configurações e os recursos do pacote nos databricks.yml e nos arquivos de configuração de recursos. Por fim, valide e implante seu pacote e execute seus fluxos de trabalho.
Dica
Exemplos de configuração de pacote podem ser encontrados em Exemplos de configuração de pacote e no Repositório de exemplos de pacote no GitHub.
Próximas etapas
- Crie um pacote que implanta um notebook em um workspace do Azure Databricks e, em seguida, executa esse notebook implantado em um pipeline ou trabalho do Azure Databricks. Veja Desenvolver um trabalho com pacotes de ativos do Databricks e Desenvolver Pipelines Declarativos do Spark Lakeflow com Pacotes de Ativos do Databricks.
- Criar um pacote que implanta e executa uma Pilha de MLOps. Confira Pacotes de Ativos do Databricks para Pilhas de MLOps.
- Inicie uma implantação de pacote como parte de um fluxo de trabalho de CI/CD (integração contínua/implantação contínua) no GitHub. Confira Executar um fluxo de trabalho de CI/CD com um pacote que executa uma atualização de pipeline.
- Crie um pacote que compila, implanta e chama um arquivo wheel do Python. Consulte Criar um arquivo de roda do Python usando pacotes de ativos do Databricks.
- Gere a configuração em seu bundle para um trabalho ou outro recurso no seu workspace e, em seguida, associe-a ao recurso no seu workspace para que a configuração permaneça em sincronia. Confira Databricks bundle generate e Databricks bundle deployment bind.
- Crie e implante um pacote na área de trabalho. Consulte Colaborar em pacotes no workspace.
- Crie um modelo personalizado que você e outras pessoas possam usar para criar um pacote. Um modelo personalizado pode incluir permissões padrão, entidades de serviço e configuração personalizada de CI/CD. Confira Modelos de projetos do Pacote de Ativos do Databricks.
- Migrar de dbx para os Pacotes de Ativos do Databricks. Confira Migrar do dbx para os pacotes.
- Descubra os principais recursos mais recentes lançados para os Pacotes de Ativos do Databricks. Confira Notas de versão do recurso Pacotes de Ativos do Databricks.