Diagnosticar problemas de custo e desempenho usando a interface do usuário do Spark
Este guia orienta você sobre como usar a interface do usuário do Spark para diagnosticar problemas de custo e desempenho. É um guia passo-a-passo, e é um prático como fazer. Em vez de apenas fornecer uma explicação do que cada página na interface do usuário do Spark faz, ela informa o que procurar e o que significa. Se você não estiver familiarizado com os conceitos de driver, trabalhadores, executores, estágios e tarefas, convém revisar a arquitetura do Spark.
Se você está procurando uma lista abrangente de várias ferramentas de otimização, use o guia de otimização Databricks. As seções do guia de otimização são referenciadas neste guia da interface do usuário do Spark.
Utilizar este guia
Para navegar pelo guia, use os links incorporados em cada página para ser levado para a próxima etapa. O guia contém as seguintes etapas na ordem:
- Use a Linha do Tempo de Trabalhos para identificar os principais problemas
- Olhe para o estágio mais longo
- Procure inclinação ou derramamento
- Determine se o estágio mais longo está vinculado a E/S
- Procure outras causas de tempo de execução de estágio lento
Vamos começar!
Como abrir a interface do usuário do Spark
Navegue até a página do cluster:
Clique em Spark UI:
Próximo passo
Agora que você abriu a interface do usuário do Spark, revise a linha do tempo do evento para saber mais sobre seu pipeline ou consulta. Consulte Linha do tempo de trabalhos.