Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo apresenta recomendações de boas práticas para usar computação serverless nos seus notebooks e trabalhos.
Seguindo essas recomendações, você aprimorará a produtividade, a eficiência de custos e a confiabilidade de suas cargas de trabalho no Azure Databricks.
Migrando cargas de trabalho para computação sem servidor
Para garantir o isolamento do código do usuário no ambiente de computação compartilhado sem servidor, o Azure Databricks utiliza o Lakeguard para isolar o código do usuário do mecanismo Spark e de outros usuários.
Por isso, algumas cargas de trabalho exigem alterações de código para continuar trabalhando na computação sem servidor. Para obter uma lista de limitações, consulte Limitações de computação sem servidor.
Certas cargas de trabalho são mais fáceis de migrar do que outras. As cargas de trabalho que atendem aos seguintes requisitos serão as mais fáceis de migrar:
- Os dados que estão sendo acessados devem ser armazenados no Catálogo Unity.
- A carga de trabalho deve ser compatível com a computação padrão.
- A carga de trabalho deve ser compatível com o Databricks Runtime 14.3 ou superior.
Para testar se uma carga de trabalho funcionará em computação sem servidor, execute-a em um recurso de computação clássico com modo de acesso padrão e um Databricks Runtime de 14.3 ou superior. Se a execução for bem-sucedida, a carga de trabalho estará pronta para a migração.
Muitas cargas de trabalho mais antigas não migrarão perfeitamente. Em vez de recodificar tudo, o Azure Databricks recomenda priorizar a compatibilidade de computação sem servidor à medida que você cria novas cargas de trabalho.
Especificar versões do pacote Python
Ao migrar para computação sem servidor, fixe seus pacotes Python em versões específicas para garantir ambientes reproduzíveis. Se você não especificar uma versão, o pacote poderá ser resolvido para uma versão diferente com base na versão do ambiente sem servidor, o que pode aumentar a latência à medida que novos pacotes precisam ser instalados.
Por exemplo, seu requirements.txt arquivo deve incluir versões específicas do pacote, como esta:
numpy==2.2.2
pandas==2.2.3
Versões de ambiente sem servidor
A computação serverless utiliza versões do ambiente em vez das versões tradicionais do Databricks Runtime. Isto representa uma mudança na forma como gere a compatibilidade da carga de trabalho:
- Abordagem em tempo de execução do Databricks: Seleciona uma versão específica do Databricks para a sua carga de trabalho e gere as atualizações manualmente para manter a compatibilidade.
- Abordagem serverless: escreve-se código contra uma versão do ambiente, e o Azure Databricks atualiza independentemente o servidor subjacente.
As versões do ambiente fornecem uma API cliente estável que garante que a sua carga de trabalho se mantém compatível, enquanto o Azure Databricks oferece de forma independente melhorias de desempenho, reforços de segurança e correções de bugs, sem exigir alterações de código às suas cargas de trabalho.
Cada versão do ambiente inclui bibliotecas de sistema atualizadas, funcionalidades e correções de bugs, mantendo a compatibilidade retroativa para cargas de trabalho. O Azure Databricks suporta cada versão do ambiente durante três anos a partir da data de lançamento, proporcionando-lhe um ciclo de vida previsível para planear atualizações.
Para selecionar uma versão do ambiente para a sua carga de trabalho serverless, consulte Selecionar uma versão do ambiente. Para detalhes sobre as versões disponíveis do ambiente e as suas funcionalidades, veja Versões do ambiente serverless.
Ingerir dados de sistemas externos
Como a computação sem servidor não suporta a instalação de arquivos JAR, não é possível usar um driver JDBC ou ODBC para ingerir dados de uma fonte de dados externa.
Estratégias alternativas que você pode usar para ingestão incluem:
- Blocos de construção baseados em SQL, como tabelas de streaming COPY INTO e .
- Auto Loader para processar de forma incremental e eficiente novos arquivos de dados à medida que chegam ao armazenamento em nuvem. Veja O que é o Auto Loader?.
- Soluções de parceiros de ingestão de dados. Consulte Conectar-se a parceiros de ingestão usando o Partner Connect.
- A interface de utilizador para adicionar dados e carregar arquivos diretamente. Consulte Carregar ficheiros para o Azure Databricks.
Alternativas de ingestão
Ao usar a computação sem servidor, você também pode usar os seguintes recursos para consultar seus dados sem movê-los.
- Se você quiser limitar a duplicação de dados ou garantir que está consultando os dados mais recentes possíveis, o Databricks recomenda o uso do Delta Sharing. Consulte O que é Delta Sharing?.
- Se você quiser fazer relatórios ad hoc e trabalho de prova de conceito, a Databricks recomenda tentar a escolha certa, que pode ser a Lakehouse Federation. A Lakehouse Federation permite sincronizar bancos de dados inteiros com o Azure Databricks a partir de sistemas externos e é regida pelo Unity Catalog. Consulte O que é Lakehouse Federation?.
Experimente um ou ambos os recursos e veja se eles atendem aos requisitos de desempenho da sua consulta.
Configurações do Spark suportadas
Para automatizar a configuração do Spark na computação sem servidor, o Azure Databricks removeu o suporte para definir manualmente a maioria das configurações do Spark. Para exibir uma lista de parâmetros de configuração do Spark suportados, consulte Configurar propriedades do Spark para blocos de anotações e trabalhos sem servidor.
O trabalho executado em computação sem servidor falhará se você definir uma configuração do Spark sem suporte.
Monitore o custo da computação sem servidor
Há vários recursos que você pode usar para ajudá-lo a monitorar o custo da computação sem servidor:
- Use políticas de orçamento sem servidor para atribuir seu uso de computação sem servidor.
- Use tabelas do sistema para criar painéis, configurar alertas e executar consultas ad hoc. Consulte Monitorar o custo da computação sem servidor.
- Configure alertas de orçamento na sua conta. Consulte Criar e monitorizar orçamentos.
- Importe um painel de uso pré-configurado. Consulte Importar um painel de utilização.