Inclinação e derramamento
Derramamento
A primeira coisa a procurar em um estágio de longa duração é se há vazamento.
Na parte superior da página do estágio, você verá os detalhes, que podem incluir estatísticas sobre vazamento:
Derramamento é o que acontece quando o Spark fica com pouca memória. Ele começa a mover dados da memória para o disco, e isso pode ser bastante caro. É mais comum durante o embaralhamento de dados.
Se você não vê nenhuma estatística de vazamento, isso significa que o estágio não tem nenhum vazamento. Se o estágio tiver algum vazamento, veja este guia sobre como lidar com o derramamento causado pelo shuffle.
Inclinação
A próxima coisa que queremos analisar é se há distorção. Inclinação é quando uma ou apenas algumas tarefas levam muito mais tempo do que o resto. Isso resulta em baixa utilização de clusters e trabalhos mais longos.
Role para baixo até as Métricas de resumo. A principal coisa que estamos procurando é a duração máxima ser muito maior do que a duração do percentil 75. A imagem abaixo mostra um estágio saudável, onde o percentil 75 e Max são os mesmos:
Se a duração máxima for 50% maior do que o percentil 75, você pode estar sofrendo de distorção.
Se você vir inclinação, saiba mais sobre as etapas de correção de distorção aqui.
Sem inclinação ou derramamento
Se você não vir distorção ou derramamento, volte para a página de trabalho para obter uma visão geral do que está acontecendo. Role para cima até a parte superior da página e clique em IDs de trabalho associados:
Se o estágio não tiver derramamento ou inclinação, consulte E/S alta do estágio de faísca para as próximas etapas.