Partilhar via


Trabalhos com falha ou executores removidos

Então você está vendo trabalhos com falha ou executores removidos:

Trabalhos falhados

As razões mais comuns para os executores serem removidos são:

  • Dimensionamento automático: Neste caso, é esperado e não um erro. Consulte Ativar dimensionamento automático.
  • Perdas de instância spot: o provedor de nuvem está recuperando suas VMs. Você pode saber mais sobre instâncias Spot aqui.
  • Executores ficando sem memória

Empregos falhados

Se vir algum trabalho com falha, clique neles para aceder às suas páginas. Em seguida, role para baixo para ver o estágio com falha e um motivo de falha:

Motivo da falha

Você pode obter um erro genérico. Clique no link na descrição para ver se você pode obter mais informações:

Descrição da Falha

Se você rolar para baixo nesta página, você será capaz de ver por que cada tarefa falhou. Neste caso, está ficando claro que há um problema de memória:

Tarefas com falha

Executores com falha

Para descobrir por que seus executores estão falhando, primeiro você vai querer verificar o log de eventos da computação para ver se há alguma explicação para o motivo pelo qual os executores falharam. Por exemplo, é possível que você esteja usando instâncias spot e o provedor de nuvem as esteja retomando.

Registo de Eventos

Veja se há algum evento que explique a perda de executores. Por exemplo, você pode ver mensagens indicando que o cluster está sendo redimensionado ou instâncias pontuais estão sendo perdidas.

Se você não vir nenhuma informação no log de eventos, navegue de volta para a interface do usuário do Spark e clique na guia Executores:

Executors

Aqui você pode obter os logs dos executores com falha:

Executores com falha

Próximo passo

Se você chegou até aqui, a explicação mais provável é um problema de memória. O próximo passo é investigar problemas de memória. Consulte Problemas de memória do Spark.