Otimize a utilização de cluster de pipelines Delta Live Tables com dimensionamento automático aprimorado

O Databricks Enhanced Autoscaling otimiza a utilização do cluster alocando automaticamente os recursos do cluster com base no volume da carga de trabalho, com impacto mínimo na latência de processamento de dados de seus pipelines.

O Dimensionamento Automático Avançado melhora a funcionalidade de dimensionamento automático do cluster do Azure Databricks com os seguintes recursos:

  • O dimensionamento automático aprimorado implementa a otimização de cargas de trabalho de streaming e adiciona aprimoramentos para melhorar o desempenho de cargas de trabalho em lote. O dimensionamento automático aprimorado otimiza os custos adicionando ou removendo máquinas à medida que a carga de trabalho muda.
  • O dimensionamento automático aprimorado desliga proativamente os nós subutilizados, garantindo que não haja falhas nas tarefas durante o desligamento. O recurso de dimensionamento automático de cluster existente reduz os nós somente se o nó estiver ocioso.

O Autoscaling Avançado é o modo de dimensionamento automático padrão quando você cria um novo pipeline na interface do usuário Delta Live Tables. Você pode habilitar o Autoscaling Avançado para pipelines existentes editando as configurações do pipeline na interface do usuário. Você também pode habilitar o Enhanced Autoscaling ao criar ou editar pipelines com a API Delta Live Tables.

Ativar dimensionamento automático avançado

Nota

Como os recursos de computação são otimizados automaticamente para pipelines sem servidor, as configurações do Databricks Enhanced Autoscaling não estão disponíveis quando você seleciona Serverless (Public Preview) para um pipeline.

Para saber mais sobre como habilitar pipelines de DLT sem servidor, entre em contato com sua equipe de conta do Azure Databricks.

Para usar o Autoscaling Avançado, siga um destes procedimentos:

  • Defina o modo de cluster como Dimensionamento automático avançado ao criar um pipeline ou editar um pipeline na interface do usuário Delta Live Tables.
  • Adicione a autoscale configuração à configuração do cluster de pipeline e defina o mode campo como ENHANCED. Consulte Definir suas configurações de computação.

Use as seguintes diretrizes ao configurar o Autoscaling Avançado para pipelines de produção:

  • Deixe a Min workers configuração no padrão.
  • Defina a Max workers configuração como um valor com base no orçamento e na prioridade do pipeline.

O exemplo a seguir configura um cluster de Autoscaling Avançado com um mínimo de 5 trabalhadores e um máximo de 10 trabalhadores. max_workers deve ser maior ou igual a min_workers.

Nota

  • O dimensionamento automático avançado está disponível apenas para updates clusters. O recurso de dimensionamento automático existente é usado para maintenance clusters.
  • A autoscale configuração tem dois modos:
{
  "clusters": [
    {
      "autoscale": {
        "min_workers": 5,
        "max_workers": 10,
        "mode": "ENHANCED"
      }
    }
  ]
}

O pipeline é reiniciado automaticamente após as alterações de configuração de dimensionamento automático se o pipeline estiver configurado para execução contínua. Após o reinício, espere um curto período de maior latência. Após esse breve período de latência aumentada, o tamanho do cluster deve ser atualizado com base na sua autoscale configuração e a latência do pipeline deve retornar às suas características de latência anteriores.

Monitoramento de pipelines habilitados para dimensionamento automático aprimorado

Você pode usar o log de eventos na interface do usuário Delta Live Tables para monitorar métricas de Autoscaling Avançado. Os eventos de dimensionamento automático avançado têm o autoscale tipo de evento. Seguem-se exemplos de eventos:

Evento Mensagem
Solicitação de redimensionamento de cluster iniciada Scaling [up or down] to <y> executors from current cluster size of <x>
Solicitação de redimensionamento de cluster bem-sucedida Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED
Solicitação de redimensionamento de cluster parcialmente bem-sucedida Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED
Falha na solicitação de redimensionamento de cluster Achieved cluster size <x> for cluster <cluster-id> with status FAILED

Você também pode exibir eventos de Autoscaling Avançado consultando diretamente o log de eventos: