Melhores práticas para computação sem servidor

Siga estas recomendações para maximizar a produtividade, reduzir custos e melhorar a confiabilidade ao usar a computação sem servidor para notebooks, trabalhos e pipelines em Azure Databricks.

Migrar cargas de trabalho para computação sem servidor

Para obter instruções passo a passo sobre como migrar da computação clássica para sem servidor, incluindo pré-requisitos, alterações de código necessárias, estratégias de teste e um plano de distribuição em fases, consulte Migrar da computação clássica para a computação sem servidor.

Especificar versões de pacotes Python

Ao migrar para a computação sem servidor, fixe seus pacotes de Python em versões específicas para garantir ambientes reproduzíveis. Se você não especificar uma versão, o pacote poderá ser resolvido para uma versão diferente com base na versão do ambiente sem servidor, o que pode aumentar a latência à medida que novos pacotes precisarem ser instalados.

Por exemplo, seu requirements.txt arquivo deve incluir versões de pacote específicas, como esta:

numpy==2.2.2
pandas==2.2.3

Usar nomes exclusivos para exibições temporárias

A computação sem servidor usa o Spark Connect, uma arquitetura cliente-servidor que avalia as exibições temporárias lentamente. Esse comportamento difere da arquitetura clássica do Spark e pode causar erros quando o código reutiliza o mesmo nome de exibição temporária, como em um loop.

Para evitar erros, use nomes exclusivos para todas as exibições temporárias em seu código.

Rede e conectividade

A computação sem servidor não dá suporte ao emparelhamento VPC, que é uma maneira comum de conectar a computação clássica do Databricks a fontes de dados em sua conta de nuvem. Como alternativa, use as configurações de conectividade de rede para gerenciar endpoints, firewalls e a conectividade com serviços externos.

Por exemplo, você pode adicionar um conjunto de IPs de saída estáveis em VPCs externas a uma lista de permissões para habilitar a conectividade de e para Azure Databricks computação sem servidor. Para se conectar a aplicativos empresariais (como Salesforce) ou bancos de dados gerenciados (como o MySQL), use o Lakeflow Connect.

Para restringir e monitorar o tráfego de saída da computação sem servidor, configure controles de saída para seu workspace. Consulte Gerenciar políticas de rede para controle de saída sem servidor.

Versões de ambiente sem servidor

A computação sem servidor usa versões de ambiente em vez de versões tradicionais do Databricks Runtime. Isso representa uma mudança na forma como você gerencia a compatibilidade da carga de trabalho:

Abordagem do Databricks Runtime: selecione uma versão específica do Databricks Runtime para sua carga de trabalho e gerencie atualizações manualmente para manter a compatibilidade.
Abordagem sem servidor: você escreve código em uma versão de ambiente e Azure Databricks atualiza independentemente o servidor subjacente.

As versões de ambiente fornecem uma API de cliente estável que garante que sua carga de trabalho permaneça compatível enquanto Azure Databricks fornece melhorias de desempenho, aprimoramentos de segurança e correções de bug sem a necessidade de alterações de código em suas cargas de trabalho.

Cada versão do ambiente inclui bibliotecas de sistema, recursos e correções de bugs atualizados, mantendo a compatibilidade com versões anteriores para cargas de trabalho. Azure Databricks dá suporte a cada versão do ambiente por três anos a partir de sua data de lançamento, fornecendo um ciclo de vida previsível para planejamento de atualizações.

Para selecionar um ambiente base para sua carga de trabalho sem servidor, consulte Selecionar um ambiente base. Para obter detalhes sobre as versões de ambiente disponíveis e seus recursos, consulte versões de ambiente sem servidor.

Gerenciar dependências

A computação sem servidor não dá suporte a scripts de inicialização. Em vez disso, use ambientes sem servidor para instalar e gerenciar bibliotecas para suas cargas de trabalho sem servidor. Os ambientes armazenam em cache pacotes instalados, o que reduz a latência de inicialização para execuções subsequentes.

Para usar bibliotecas de um repositório privado, configure URLs pré-assinadas para acesso de repositório autenticado nas configurações do ambiente.

Escolher um modo de desempenho

Azure Databricks computação sem servidor oferece dois modos de desempenho que permitem equilibrar a velocidade e o custo com base no tipo de carga de trabalho da seguinte maneira:

Modo com otimização de desempenho (padrão): melhor para cargas de trabalho interativas que exigem tempos de inicialização rápidos. Azure Databricks mantém um pool de recursos de computação quentes prontos para minimizar o tempo de espera.
Modo padrão: melhor para trabalhos em lotes automatizados e pipelines que podem tolerar tempos de inicialização mais longos de 4 a 6 minutos. O modo padrão pode reduzir os custos em até 70% em comparação com o modo com otimização de desempenho. O modo standard está disponível para Lakeflow Jobs e Lakeflow Spark Declarative Pipelines, mas não para notebooks.

Escolha o modo que melhor corresponda aos seus requisitos de carga de trabalho. Para trabalhos agendados em que a latência de inicialização não é crítica, o modo Standard normalmente oferece o melhor valor. Para obter detalhes de preços atuais, consulte a página de preços do Databricks.

Otimizar cargas de trabalho de streaming

A computação sem servidor dá suporte ao streaming estruturado com Trigger.AvailableNow. Não há suporte para intervalos de gatilho baseados em tempo. Para obter detalhes sobre gatilhos com suporte, exemplos de código e alternativas para streaming contínuo, consulte a seção de streaming do guia de migração.

Ao usar Trigger.AvailableNow, cada gatilho processa todos os dados disponíveis na origem, o que pode resultar em micro-batches maiores em comparação com um gatilho baseado em tempo. Para evitar erros fora de memória e manter o desempenho previsível, limite a quantidade de dados processados por microlote por configuração maxFilesPerTrigger ou maxBytesPerTrigger.

Depurar cargas de trabalho sem servidor

A interface do usuário do Spark não está disponível na computação sem servidor. Em vez disso, use o perfil de consulta para analisar o desempenho da consulta e solucionar problemas de cargas de trabalho. O perfil de consulta fornece informações detalhadas de execução e pode ser acessado no histórico de consultas na interface do usuário do Azure Databricks.

Ingestão de dados de sistemas externos

As estratégias alternativas que você pode usar para ingestão incluem:

Blocos de construção baseados em SQL, como COPY INTO e tabelas de streaming.

O Carregador Automático, para processar de maneira incremental e eficiente novos arquivos de dados à medida que chegam no armazenamento em nuvem. Confira O que é o Carregador Automático?.
Soluções de parceiros de ingestão de dados. Consulte Conectar-se a parceiros de ingestão usando o Partner Connect.
A interface do usuário Adicione dados para carregar arquivos diretamente. Veja Criar ou modificar uma tabela usando o upload de arquivo.

Alternativas de ingestão

Ao usar a computação sem servidor, você também pode usar os seguintes recursos para consultar seus dados sem movê-los.

Se você quiser limitar a duplicação de dados ou garantir que está consultando os dados mais recentes possíveis, o Databricks recomenda o uso do Delta Sharing. Confira O que é o Compartilhamento Delta?.
Para o trabalho de relatório ad hoc e prova de conceito, a Federação Lakehouse permite consultar bancos de dados externos diretamente no Azure Databricks sem mover dados, regidos pelo Unity Catalog. Confira O que é Federação do Lakehouse?.

Experimente um ou ambos os recursos e veja se eles satisfazem seus requisitos de desempenho de consulta.

Sumidouros sem suporte

Se um sistema de destino não for suportado como um destino de gravação direta a partir de computação serverless, você poderá usar o Catálogo REST do Iceberg do Unity Catalog para permitir que esse sistema leia diretamente as tabelas Azure Databricks. Por exemplo, Snowflake não é um coletor sem servidor com suporte, mas pode ser configurado como um cliente Iceberg para ler tabelas gerenciadas pelo Catálogo do Unity.

Essa abordagem evita a duplicação de dados e mantém o Catálogo do Unity como a camada de governança para todas as leituras. Para saber mais sobre os clientes compatíveis e as etapas de configuração, consulte Acessando tabelas do Azure Databricks por meio de clientes do Apache Iceberg.

Configurações do Spark com suporte

Para automatizar a configuração do Spark na computação sem servidor, Azure Databricks removeu o suporte para definir manualmente a maioria das configurações do Spark. Para exibir uma lista de parâmetros de configuração do Spark com suporte, consulte Configurar propriedades do Spark para notebooks e trabalhos sem servidor.

O trabalho executado na computação sem servidor falhará se você definir uma configuração do Spark sem suporte.

Monitorar o custo da computação sem servidor

Há vários recursos que você pode usar para monitorar o custo da computação sem servidor:

Use políticas de uso sem servidor para atribuir o uso de computação sem servidor.
Use tabelas do sistema para criar painéis, configurar alertas e executar consultas ad hoc. Confira Monitorar o custo da computação sem servidor.
Configurar alertas de orçamento em sua conta. Confira Criar e monitorar orçamentos.

Importar um painel de uso pré-configurado. Confira Importar um painel de uso.

Comentários

Esta página foi útil?

Last updated on 2026-04-19