Ponto de verificação de estado assíncrono para consultas com estado

Observação

Disponível no Databricks Runtime 10.4 LTS e versões superiores.

O ponto de verificação de estado assíncrono mantém garantias de execução exatamente uma vez para consultas de streaming, mas pode reduzir a latência geral em algumas cargas de trabalho de Streaming Estruturado com gargalo nas atualizações de estado. Isso se faz ao iniciar o processamento do próximo microlote assim que a computação do microlote anterior é concluída, sem aguardar a finalização do ponto de verificação de estado. A tabela a seguir compara as compensações para pontos de verificação síncronos e assíncronos:

Característica	Ponto de verificação síncrono	Ponto de verificação assíncrono
Latência	Latência mais alta para cada microlote.	Latência reduzida, pois os microlotes podem se sobrepor.
Reiniciar	Recuperação rápida, pois apenas o último lote precisa ser executado novamente.	Atraso de reinicialização maior, pois mais de um microlote talvez precise ser reexecutado.

Veja a seguir as características dos trabalhos de streaming que podem se beneficiar do ponto de verificação de estado assíncrono:

O trabalho tem uma ou mais operações com estado (por exemplo, agregação, flatMapGroupsWithState, mapGroupsWithState, junções entre fluxos)
A latência do ponto de verificação de estado é um dos principais fatores que contribuem para a latência geral do processamento em lote. Essas informações podem ser encontradas nos eventos de StreamingQueryProgress. Esses eventos também são encontrados nos registros log4j no driver Spark. Aqui está um exemplo de progresso da consulta de streaming e como encontrar o impacto do ponto de verificação de estado na latência geral da execução em lote.
- ```
{
   "id" : "2e3495a2-de2c-4a6a-9a8e-f6d4c4796f19",
   "runId" : "e36e9d7e-d2b1-4a43-b0b3-e875e767e1fe",
   "...",
   "batchId" : 0,
   "durationMs" : {
     "...",
     "triggerExecution" : 547730,
     "..."
   },
   "stateOperators" : [ {
     "...",
     "commitTimeMs" : 3186626,
     "numShufflePartitions" : 64,
     "..."
   }]
}
```
- Análise de latência do ponto de verificação de estado do evento de progresso da consulta acima
  - A duração do lote (durationMs.triggerDuration) é de cerca de 547 segundos.
  - A latência de commit do armazenamento de estado (stateOperations[0].commitTimeMs) é de cerca de 3.186 segundos. A latência de commit é agregada através de tarefas que contêm um armazenamento de estado. Nesse caso, há 64 tarefas desse tipo (stateOperators[0].numShufflePartitions).
  - Cada tarefa que contém o operador de estado levou uma média de 50 segundos (3.186/64) para o ponto de verificação. Essa é uma latência extra que é somada à duração do lote. Supondo que todas as 64 tarefas estão sendo executadas simultaneamente, a etapa de ponto de verificação contribuiu em torno de 9% (50 segundos/547 segundos) da duração do lote. O percentual fica ainda maior quando o máximo de tarefas simultâneas é menor que 64.

Ativando o ponto de verificação de estado assíncrono

Você deve usar o repositório de estado baseado em RocksDB para ponto de verificação de estado assíncrono. Defina as seguintes configurações:


spark.conf.set(
  "spark.databricks.streaming.statefulOperator.asyncCheckpoint.enabled",
  "true"
)

spark.conf.set(
  "spark.sql.streaming.stateStore.providerClass",
  "com.databricks.sql.streaming.state.RocksDBStateStoreProvider"
)

Limitações e requisitos para o ponto de verificação assíncrono

Observação

O autoescalonamento de computação tem limitações ao reduzir o tamanho do cluster para cargas de trabalho do Structured Streaming. O Databricks recomenda usar os pipelines declarativos do Lakeflow Spark com dimensionamento automático aprimorado para cargas de trabalho de streaming. Consulte Otimize a utilização do cluster de Pipelines Declarativos do Lakeflow Spark com Dimensionamento Automático.

Qualquer falha em um ponto de verificação assíncrono em qualquer um ou mais armazenamentos falha na consulta. No modo de ponto de verificação síncrono, o ponto de verificação é executado como parte da tarefa, e o Spark tenta reexecutar a tarefa várias vezes antes que a consulta falhe. Esse mecanismo não está presente no ponto de verificação de estado assíncrono. O Databricks recomenda o uso de trabalhos contínuos para repetições automáticas em caso de falha de trabalho. Consulte Executar tarefas continuamente.
O ponto de verificação assíncrono funciona melhor quando os locais de armazenamento de estado não são alterados entre execuções de microlote. O redimensionamento de cluster, em combinação com o ponto de verificação de estado assíncrono, pode não funcionar bem porque a instância de armazenamento de estado pode ser redistribuída quando os nós são adicionados ou excluídos como parte do evento de redimensionamento de cluster.
O ponto de verificação de estado assíncrono é suportado apenas na implementação do provedor de armazenamento de estado do RocksDB. A implementação padrão do armazenamento de estado na memória não dá suporte a ela.

Comentários

Esta página foi útil?

Last updated on 2026-05-03

Ponto de verificação de estado assíncrono para consultas com estado

Ativando o ponto de verificação de estado assíncrono

Limitações e requisitos para o ponto de verificação assíncrono

Comentários

Recursos adicionais