Поделиться через


Диагностика длительной стадии в Spark

Сначала определите самую длинную стадию задания. Прокрутите страницу задания вниз до списка этапов и упорядочение их по длительности:

Длинный этап

Сведения о этапе ввода-вывода

Чтобы просмотреть высокоуровневые данные о том, что делает этот этап, просмотрите столбцы input, Output, Shuffle Read и Shuffle Write :

Длинный этап ввода-вывода

Столбцы означают следующее:

  • Входные данные: сколько данных на этом этапе считываются из хранилища. Это может быть чтение из Delta, Parquet, CSV и т. д.
  • Выходные данные: сколько данных на этом этапе записывается в хранилище. Это может быть запись в Delta, Parquet, CSV и т. д.
  • Перетасовка чтения: Сколько данных перетасовки считывается на этом этапе.
  • Перетасовка записи: Сколько тасовки данных на этом этапе написал.

Если вы не знакомы с тем, что тасовка есть, теперь хорошее время, чтобы узнать, что это означает.

Запишите эти цифры, так как вам, скорее всего, потребуется их позже.

Количество задач

Количество задач на длинном этапе может указывать на направление проблемы. Вы можете определить количество задач, выполнив следующие действия.

Определение количества задач

Если вы видите одну задачу, это может быть признаком проблемы. Дополнительные сведения см. в статье "Задача One Spark".

Просмотр дополнительных сведений о стадии

Если этап имеет более одной задачи, следует изучить далее. Щелкните ссылку в описании этапа, чтобы получить дополнительные сведения о самом длинном этапе:

Открытие сведений о стадии

Теперь, когда вы находитесь на странице этапа, см . статью "Смещение" и "Разлив".