Otimize a utilização de cluster de pipelines Delta Live Tables com dimensionamento automático aprimorado
O Databricks Enhanced Autoscaling otimiza a utilização do cluster alocando automaticamente os recursos do cluster com base no volume da carga de trabalho, com impacto mínimo na latência de processamento de dados de seus pipelines.
O Dimensionamento Automático Avançado melhora a funcionalidade de dimensionamento automático do cluster do Azure Databricks com os seguintes recursos:
- O dimensionamento automático aprimorado implementa a otimização de cargas de trabalho de streaming e adiciona aprimoramentos para melhorar o desempenho de cargas de trabalho em lote. O dimensionamento automático aprimorado otimiza os custos adicionando ou removendo máquinas à medida que a carga de trabalho muda.
- O dimensionamento automático aprimorado desliga proativamente os nós subutilizados, garantindo que não haja falhas nas tarefas durante o desligamento. O recurso de dimensionamento automático de cluster existente reduz os nós somente se o nó estiver ocioso.
O Autoscaling Avançado é o modo de dimensionamento automático padrão quando você cria um novo pipeline na interface do usuário Delta Live Tables. Você pode habilitar o Autoscaling Avançado para pipelines existentes editando as configurações do pipeline na interface do usuário. Você também pode habilitar o Enhanced Autoscaling ao criar ou editar pipelines com a API Delta Live Tables.
Ativar dimensionamento automático avançado
Nota
Como os recursos de computação são otimizados automaticamente para pipelines DLT sem servidor (Visualização Pública), as configurações do Databricks Enhanced Autoscaling não estão disponíveis quando você seleciona Serverless para um pipeline.
Para saber mais sobre como habilitar pipelines DLT sem servidor, entre em contato com sua equipe de conta do Azure Databricks.
Para usar o Autoscaling Avançado, siga um destes procedimentos:
- Defina o modo de cluster como Dimensionamento automático avançado ao criar um pipeline ou editar um pipeline na interface do usuário Delta Live Tables.
- Adicione a
autoscale
configuração à configuração do cluster de pipeline e defina omode
campo comoENHANCED
. Consulte Definir suas configurações de computação.
Use as seguintes diretrizes ao configurar o Autoscaling Avançado para pipelines de produção:
- Deixe a
Min workers
configuração no padrão. - Defina a
Max workers
configuração como um valor com base no orçamento e na prioridade do pipeline.
O exemplo a seguir configura um cluster de Autoscaling Avançado com um mínimo de 5 trabalhadores e um máximo de 10 trabalhadores. max_workers
deve ser maior ou igual a min_workers
.
Nota
- O dimensionamento automático avançado está disponível apenas para
updates
clusters. O recurso de dimensionamento automático existente é usado paramaintenance
clusters. - A
autoscale
configuração tem dois modos:LEGACY
: Use o dimensionamento automático de cluster.ENHANCED
: Use o Autoscaling Avançado.
{
"clusters": [
{
"autoscale": {
"min_workers": 5,
"max_workers": 10,
"mode": "ENHANCED"
}
}
]
}
O pipeline é reiniciado automaticamente após as alterações de configuração de dimensionamento automático se o pipeline estiver configurado para execução contínua. Após o reinício, espere um curto período de maior latência. Após esse breve período de latência aumentada, o tamanho do cluster deve ser atualizado com base na sua autoscale
configuração e a latência do pipeline deve retornar às suas características de latência anteriores.
Monitoramento de pipelines habilitados para dimensionamento automático aprimorado
Você pode usar o log de eventos na interface do usuário Delta Live Tables para monitorar métricas de Autoscaling Avançado. Os eventos de dimensionamento automático avançado têm o autoscale
tipo de evento. Seguem-se exemplos de eventos:
Evento | Mensagem |
---|---|
Solicitação de redimensionamento de cluster iniciada | Scaling [up or down] to <y> executors from current cluster size of <x> |
Solicitação de redimensionamento de cluster bem-sucedida | Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED |
Solicitação de redimensionamento de cluster parcialmente bem-sucedida | Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED |
Falha na solicitação de redimensionamento de cluster | Achieved cluster size <x> for cluster <cluster-id> with status FAILED |
Você também pode exibir eventos de Autoscaling Avançado consultando diretamente o log de eventos:
- Para consultar o log de eventos em busca de métricas de lista de pendências, consulte Monitorar lista de pendências de dados consultando o log de eventos.
- Para monitorar solicitações e respostas de redimensionamento de cluster durante operações de Autoscaling Avançado, consulte Monitorar eventos de Autoscaling Avançado no log de eventos.
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários