Поделиться через


Смещение и разлив

Разлива

Первое, что нужно искать в долгосрочной стадии, заключается в том, есть ли разлив.

В верхней части страницы этапа вы увидите сведения, которые могут включать статистику о разливе:

Статистика разлива

Разлив — это то, что происходит, когда Spark работает с низкой памятью. Он начинает перемещать данные из памяти на диск, и это может быть довольно дорого. Чаще всего это происходит во время перетасовки данных.

Если вы не видите статистику для разлива, это означает, что этап не имеет никакого разлива. Если этап имеет некоторое разлив, ознакомьтесь с этим руководством о том, как справиться с разливом, вызванным перетасовкой.

Наклон

Следующее, что мы хотим посмотреть на то, есть ли скос. Отклонение заключается в том, что одна или несколько задач занимает гораздо больше времени, чем остальные. Это приводит к низкому использованию кластера и более длительным заданиям.

Прокрутите вниз до сводных метрик. Главное, что мы ищем, это максимальная длительность значительно выше, чем 75-й процентиль продолжительности. На снимка экрана ниже показана здоровая стадия, в которой 75-й процентиль и Max совпадают:

Скачивать статистику

Если максимальная длительность составляет 50% больше 75-го процентиля, возможно, вы страдаете от скоса.

Если вы видите отклонение, узнайте о шагах по устранению ошибок.

Нет размыка или разлива

Если вы не видите отклонение или разлив, вернитесь на страницу задания, чтобы получить обзор того, что происходит. Прокрутите вниз до верхней части страницы и щелкните "Связанные идентификаторы задания":

Этап задания

Если этап не имеет разлива или перекоса, ознакомьтесь со сведениями о высоком уровне ввода-вывода Spark для следующих шагов.