Compartilhar via


Configurar um pipeline sem servidor

Este artigo descreve as configurações para pipelines sem servidor.

O Databricks recomenda o desenvolvimento de novos pipelines usando sem servidor. Algumas cargas de trabalho podem exigir a configuração da computação clássica ou o trabalho com o metastore herdado do Hive. Consulte Configurar a Computação Clássica para Pipelines e Usar Pipelines Declarativos do Lakeflow Spark com o Metastore de Hive Herdado.

Observação

  • Os pipelines sem servidor sempre utilizam o Unity Catalog. Consulte Usar o Catálogo do Unity com pipelines.
  • Para limitações de computação sem servidor, consulte limitações de computação sem servidor.
  • Não é possível adicionar manualmente configurações de computação em um clusters objeto na configuração JSON para um pipeline sem servidor. Caso isso seja feito, será gerado um erro.
  • Se você precisar usar uma conexão Azure Private Link com seu Lakeflow Spark Declarative Pipelines sem servidor, entre em contato com seu representante do Databricks.

Requirements

  • Seu workspace deve ter o Catálogo do Unity habilitado para usar pipelines sem servidor.

Importante

A permissão de criação de cluster não é necessária para configurar pipelines sem servidor. Por padrão, todos os usuários do workspace podem usar pipelines sem servidor.

Os pipelines sem servidor removem a maioria das opções de configuração, pois o Azure Databricks gerencia toda a infraestrutura. Quando você cria um novo pipeline, o padrão é usar sem servidor. Para saber como configurar um pipeline sem servidor, consulte Configurar Pipelines.

Você também pode converter pipelines existentes configurados com o Catálogo do Unity para usar sem servidor. Consulte Converter um pipeline existente para usar sem servidor.

Outras considerações de configuração

As seguintes opções de configuração também estão disponíveis para pipelines sem servidor:

Política de orçamento sem servidor

Importante

Esse recurso está em Visualização Pública.

As políticas de orçamento sem servidor permitem que a sua organização aplique marcas personalizadas no uso sem servidor para atribuição de cobrança granular. Depois de marcar a caixa de seleção Serverless, a configuração de Política de Orçamento é exibida, onde você pode selecionar a política que deseja aplicar ao pipeline. As tags são herdadas da política de orçamento sem servidor e só podem ser editadas por administradores do espaço de trabalho.

Observação

Após a atribuição de uma política de orçamento sem servidor, os pipelines existentes não são automaticamente marcados com sua política. Você deve atualizar manualmente os pipelines existentes se quiser anexar uma política a eles.

Para obter mais informações sobre políticas de orçamento sem servidor, consulte Uso de atributo com políticas de orçamento sem servidor.

Selecionar um modo de desempenho

Para pipelines disparados, você pode selecionar o modo de desempenho de computação sem servidor usando a configuração Otimizado para desempenho no agendador de pipeline. Quando essa configuração é desabilitada, o pipeline usa o modo de desempenho padrão. O modo de desempenho padrão foi projetado para reduzir os custos de cargas de trabalho em que uma latência de inicialização ligeiramente maior é aceitável. As cargas de trabalho sem servidor que usam o modo de desempenho padrão normalmente começam dentro de quatro a seis minutos após serem disparadas, dependendo da disponibilidade de computação e do agendamento otimizado.

Quando o desempenho otimizado é habilitado, seu pipeline é otimizado para desempenho, resultando em inicialização e execução mais rápidas para cargas de trabalho sensíveis ao tempo.

Ambos os modos usam a mesma SKU, mas o modo de desempenho padrão consome menos DBUs, refletindo o menor uso de computação.

Observação

Para usar o modo de desempenho padrão em pipelines contínuos, entre em contato com sua equipe de suporte da Databricks.

Recursos do pipeline sem servidor

Além de simplificar a configuração, os pipelines sem servidor têm os seguintes recursos:

  • Atualização incremental para exibições materializadas: as atualizações para exibições materializadas são atualizadas incrementalmente sempre que possível. A atualização incremental tem os mesmos resultados que a recomputação completa. A atualização usa uma atualização completa se os resultados não puderem ser calculados de forma incremental. Confira Atualização incremental para exibições materializadas.
  • Pipelining de fluxo: para melhorar a utilização, a taxa de transferência e a latência para o fluxo de cargas de trabalho de dados, como ingestão de dados, os microlotes executam em pipelines. Em outras palavras, em vez de executar microbates sequencialmente como o Streaming Estruturado do Spark padrão, o Lakeflow Spark Declarative Pipelines sem servidor executa microbates simultaneamente, melhorando a utilização de recursos de computação. A pipelining de fluxo é habilitada por padrão em pipelines sem servidor.
  • Dimensionamento automático vertical: o Lakeflow Spark Declarative Pipelines sem servidor adiciona ao dimensionamento automático horizontal fornecido pelo Databricks o dimensionamento automático aprimorado alocando automaticamente os tipos de instância mais econômicos que podem executar seu pipeline sem falhar devido a erros de memória insuficiente. Consulte O que é dimensionamento automático vertical?

Converter um pipeline existente para usar sem servidor

Você pode converter os pipelines existentes configurados com o Catálogo do Unity nos pipelines sem servidor. Concluir as seguintes etapas:

  1. Na barra lateral do workspace do Azure Databricks, clique em Jobs & Pipelines.
  2. Clique no Nome do pipeline.
  3. Clique em Configurações.
  4. Na barra lateral direita, em Computação, clique no ícone Lápis..
  5. Selecione a caixa ao lado de Serverless.
  6. Clique em Salvar.

Importante

Quando você habilitar sem servidor, todas as configurações de computação configuradas para um pipeline serão removidas. Se você alternar um pipeline de volta para atualizações não sem servidor, deverá reconfigurar as configurações de computação desejadas para a configuração do pipeline.

Como posso encontrar o uso de DBU de um pipeline sem servidor?

Você pode encontrar o uso de DBU dos Pipelines Declarativos do Spark Lakeflow sem servidor consultando a tabela de uso faturável, que faz parte das tabelas do sistema do Azure Databricks. Veja Qual é o consumo de DBU de um pipeline sem servidor?.