Partilhar via


Configurar um pipeline sem servidor

Este artigo descreve configurações para pipelines sem servidor.

A Databricks recomenda o desenvolvimento de novos pipelines usando tecnologia serverless (sem servidor). Algumas cargas de trabalho podem exigir a configuração da computação clássica ou o trabalho com o metastore herdado do Hive. Consulte Configurar computação tradicional para pipelines e Utilizar pipelines declarativos do Lakeflow Spark com metastore legado do Hive.

Observação

  • Os pipelines isentos de servidor sempre usam o Unity Catalog. Consulte Utilizar o catálogo Unity com pipelines.
  • Para obter limitações de computação sem servidor, consulte Limitações de computação sem servidor.
  • Não é possível adicionar manualmente configurações de computação em um objeto clusters na configuração JSON para um pipeline sem servidor. Tentar fazer isso resulta em um erro.
  • Se você precisar usar uma conexão do Azure Private Link com seus pipelines declarativos do Lakeflow Spark sem servidor, entre em contato com seu representante do Databricks.

Requerimentos

  • Seu espaço de trabalho deve ter o Unity Catalog habilitado para usar pipelines sem servidor.

Importante

A permissão de criação de cluster não é necessária para configurar pipelines sem servidor. Por padrão, todos os usuários do espaço de trabalho podem usar pipelines sem servidor.

Os pipelines sem servidor removem a maioria das opções de configuração, pois o Azure Databricks gerencia toda a infraestrutura. Quando você cria um novo pipeline, o padrão é usar serverless. Para saber como configurar um pipeline sem servidor, consulte Configurar pipelines.

Você também pode converter pipelines existentes configurados com o Unity Catalog para usar sem servidor. Consulte Converter um pipeline existente para um sistema sem servidor.

Outras considerações de configuração

As seguintes opções de configuração também estão disponíveis para pipelines sem servidor:

Política de orçamento sem servidor

Importante

Este recurso está no Public Preview.

As políticas de orçamento sem servidor permitem que sua organização aplique tags personalizadas no uso sem servidor para atribuição de faturamento granular. Depois de marcar a caixa de seleção Serverless, a configuração de política de orçamento é exibida, onde pode selecionar a política que deseja aplicar ao pipeline. As tags são herdadas da política de orçamento sem servidor e só podem ser editadas por administradores de espaço de trabalho.

Observação

Depois que você recebe uma política de orçamento sem servidor, seus pipelines existentes não são automaticamente marcados com sua política. Você deve atualizar manualmente os fluxos de trabalho existentes se quiser anexar uma política a eles.

Para obter mais informações sobre políticas de orçamento sem servidor, consulte Uso de atributos com políticas de orçamento sem servidor.

Selecione um modo de desempenho

Para pipelines acionados, você pode selecionar o modo de desempenho de computação sem servidor usando a configuração Desempenho otimizado no agendador de pipeline. Quando essa configuração é desabilitada, o pipeline usa o modo de desempenho padrão. O modo de desempenho padrão foi projetado para reduzir os custos de cargas de trabalho em que uma latência de inicialização um pouco maior é aceitável. As cargas de trabalho sem servidor que usam o modo de desempenho padrão normalmente começam dentro de quatro a seis minutos após serem acionadas, dependendo da disponibilidade de computação e do agendamento otimizado.

Quando o desempenho otimizado está habilitado, seu pipeline é otimizado para desempenho, resultando em inicialização e execução mais rápidas para cargas de trabalho sensíveis ao tempo.

Ambos os modos usam a mesma SKU, mas o modo de desempenho padrão consome menos DBUs, refletindo menor uso de computação.

Observação

Para usar o modo de desempenho padrão em pipelines contínuos, entre em contato com sua equipe de conta do Databricks.

Funcionalidades de uma pipeline sem servidor

Além de simplificar a configuração, os pipelines sem servidor têm os seguintes recursos:

  • Atualização incremental para modos de exibição materializados: As atualizações para modos de exibição materializados são atualizadas incrementalmente sempre que possível. A atualização incremental tem os mesmos resultados que a recomputação completa. A atualização usa uma atualização completa se os resultados não puderem ser calculados incrementalmente. Consulte Atualização incremental para ver vistas materializadas.
  • Stream pipelining: Para melhorar a utilização, a taxa de transferência e a latência para cargas de trabalho de streaming de dados, como ingestão de dados, os microlotes são canalizados. Em outras palavras, em vez de executar microlotes sequencialmente como o Spark Structured Streaming padrão, o Lakeflow Spark Declarative Pipelines sem servidor executa microlotes simultaneamente, melhorando a utilização de recursos de computação. O encadeamento de fluxo é ativado por padrão em pipelines serverless.
  • Dimensionamento automático vertical: o Lakeflow Spark Declarative Pipelines sem servidor aumenta o dimensionamento automático horizontal fornecido pelo dimensionamento automático aprimorado do Databricks, alocando automaticamente os tipos de instância mais econômicos que podem executar seu pipeline sem falhar devido a erros de falta de memória. Consulte O que é o dimensionamento automático vertical?

Converter um pipeline existente para usar sem servidor

Você pode converter pipelines existentes configurados com o Unity Catalog em pipelines sem servidor. Conclua as seguintes etapas:

  1. Na barra lateral do espaço de trabalho do Azure Databricks, clique em Trabalhos & Pipelines.
  2. Clique no Nome da pipeline.
  3. Clique em Configurações.
  4. Na barra lateral direita, em Computação, clique no ícone Lápis..
  5. Marque a caixa ao lado de (sem servidor).
  6. Clique em Salvar.

Importante

Quando você habilita o serverless, todas as configurações de computação definidas para um pipeline são removidas. Se alterares um pipeline de volta para atualizações não sem servidor, deverás reconfigurar as configurações de computação desejadas na configuração do mesmo.

Como posso encontrar o uso de DBU de um pipeline sem servidor?

Você pode encontrar o uso de DBU de Pipelines Declarativos sem servidor Lakeflow Spark, consultando a tabela de uso faturável, parte das tabelas do sistema Azure Databricks. Consulte Qual é o consumo de DBU de um pipeline sem servidor?.