Otimizar o uso dos cluster de pipelines Delta Live Tables com dimensionamento automático aprimorado
O Dimensionamento Automático Aprimorado do Databricks otimiza a utilização do cluster alocando automaticamente recursos de cluster com base no volume de carga de trabalho, com impacto mínimo na latência de processamento de dados de seus pipelines.
O Dimensionamento automático aprimorado melhora a funcionalidade de dimensionamento automático do cluster do Azure Databricks com os seguintes recursos:
- O dimensionamento automático aprimorado implementa a otimização de cargas de trabalho de transmissão e contribui com aprimoramentos para melhorar o desempenho das cargas de trabalho em lotes. O dimensionamento automático aprimorado otimiza os custos adicionando ou removendo computadores à medida que a carga de trabalho muda.
- O dimensionamento automático aprimorado desliga proativamente os nós subutilizados, garantindo que não haja tarefas com falha durante o desligamento. O recurso de dimensionamento automático de cluster existente reduzirá os nós somente se o nó estiver ocioso.
O Dimensionamento automático aprimorado é o modo de dimensionamento automático padrão quando você cria um pipeline na interface do usuário do Delta Live Tables. Você pode habilitar o Dimensionamento automático avançado para pipelines existentes editando as configurações do pipeline na interface do usuário. Você também pode habilitar o Dimensionamento automático avançado ao criar ou editar pipelines com a API do Delta Live Tables.
Habilitar o Dimensionamento automático avançado
Observação
Como os recursos de computação são otimizados automaticamente para pipelines de pipelines DLT sem servidor, as configurações para o Dimensionamento Automático Aprimorado do Databricks não estão disponíveis quando você seleciona Sem servidor para um pipeline.
Para saber mais sobre como habilitar pipelines DLT sem servidor, entre em contato com a equipe da sua conta do Azure Databricks.
Para usar o Dimensionamento automático avançado, siga um destes procedimentos:
- Defina o Modo do cluster como Dimensionamento automático aprimorado ao criar um pipeline ou editar um pipeline na interface do usuário do Delta Live Tables.
- Adicione a configuração
autoscale
à configuração do cluster de pipeline e defina o campomode
comoENHANCED
. Consulte Definir as configurações de computação.
Siga as seguintes diretrizes ao configurar o Dimensionamento Automático Aprimorado para pipelines de produção:
- Mantenha a configuração
Min workers
padrão. - Defina a configuração
Max workers
para um valor com base no orçamento e na prioridade do pipeline.
O exemplo a seguir configura um cluster de dimensionamento automático aprimorado com um mínimo de 5 trabalhadores e um máximo de 10 trabalhadores. max_workers
deve ser maior ou igual a min_workers
.
Observação
- O dimensionamento automático aprimorado está disponível somente para clusters
updates
. O recurso de dimensionamento automático existente é usado para clustersmaintenance
. - A configuração
autoscale
tem dois modos:LEGACY
: use dimensionamento automático do cluster.ENHANCED
: usar o Dimensionamento Automático Aprimorado.
{
"clusters": [
{
"autoscale": {
"min_workers": 5,
"max_workers": 10,
"mode": "ENHANCED"
}
}
]
}
O pipeline será reiniciado automaticamente depois que a configuração de dimensionamento automático for alterada se o pipeline estiver configurado para execução contínua. Após a reinicialização, espere um curto período de maior latência. Após esse breve período de maior latência, o tamanho do cluster deve ser atualizado com base em sua configuração autoscale
e a latência do pipeline retornada para suas características de latência anteriores.
Monitoramento de pipelines habilitados para dimensionamento automático aprimorado
Você pode usar o log de eventos na interface do usuário do Delta Live Tables para monitorar métricas avançadas de dimensionamento automático. Eventos de dimensionamento automático aprimorados têm o tipo de evento autoscale
. Estes são os eventos de exemplo:
Evento | Mensagem |
---|---|
Solicitação de redimensionamento de cluster iniciada | Scaling [up or down] to <y> executors from current cluster size of <x> |
Solicitação de redimensionamento de cluster bem-sucedida | Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED |
Solicitação de redimensionamento de cluster parcialmente bem-sucedida | Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED |
Solicitação de redimensionamento de cluster com falha | Achieved cluster size <x> for cluster <cluster-id> with status FAILED |
Você também pode exibir eventos do dimensionamento automático aprimorado consultando diretamente o log de eventos:
- Para consultar o log de eventos em busca de métricas de backlog, confira Monitoramento da lista de pendências de dados consultando o log de eventos.
- Para monitorar solicitações e respostas de redimensionamento de cluster durante operações avançadas de dimensionamento automático, confira Monitorar eventos de dimensionamento automático aprimorados do log de eventos.