Diagnosticar problemas de custo e desempenho usando a interface do usuário do Spark
Este guia explica como usar a interface do usuário do Spark para diagnosticar problemas de custo e desempenho. É um guia passo a passo e é um guia de instruções prático. Em vez de apenas fornecer uma explicação do que cada página na interface do usuário do Spark faz, ela informa o que procurar e o que significa. Se você não estiver familiarizado com os conceitos de driver, trabalhos, executores, estágios e tarefas, convém examinar a arquitetura do Spark.
Se você estiver procurando uma lista abrangente de várias ferramentas de otimização, use o guia de Otimização do Databricks. As seções do guia de otimização são referenciadas neste guia de interface do usuário do Spark.
Usando este guia
Para navegar pelo guia, use os links inseridos em cada página para serem levados para a próxima etapa. O guia contém as seguintes etapas na ordem:
- Usar a Linha do Tempo de Trabalhos para identificar os principais problemas
- Examinar o estágio mais longo
- Procure distorção ou despejo
- Determinar se o estágio mais longo está associado a E/S
- Procure outras causas de runtime de estágio lento
Vamos começar!
Como abrir a interface do usuário do Spark
Navegue até a página de cluster do AKS:
Clique em interface do usuário do Spark:
Próxima etapa
Agora que você abriu a interface do usuário do Spark, examine a linha do tempo do evento para saber mais sobre seu pipeline ou consulta. Consulte a linha do tempo de Trabalhos.