Поделиться через


Устранение неполадок и исправление сбоев заданий

Предположим, что вы получили уведомление (например, с помощью уведомления электронной почты, решения мониторинга или пользовательского интерфейса заданий Azure Databricks), что задача завершилась сбоем в выполнении задания Azure Databricks. Инструкции, описанные в этой статье, помогут определить причину сбоя, предложения по устранению обнаруженных проблем и способах восстановления неудачных запусков заданий.

Определение причины сбоя

Чтобы найти неудачную задачу в пользовательском интерфейсе заданий Azure Databricks:

  1. Щелкните Значок выполнения задания"Задание выполняется " на боковой панели.

  2. В столбце Имя нажмите на имя задания. На вкладке "Запуски" показаны активные запуски и завершенные запуски, включая все неудачные запуски. В представлении матрицы на вкладке "Запуски " отображается журнал запусков для задания, включая успешные и неудачные запуски для каждой задачи задания. Запуск задачи может быть неудачным, так как произошел сбой или пропущен из-за сбоя зависимой задачи. С помощью представления матрицы можно быстро определить сбои задачи для выполнения задания.

    Представление матрицы выполнения заданий

  3. Наведите указатель мыши на сбой задачи, чтобы просмотреть связанные метаданные. Эти метаданные включают даты начала и окончания, состояние, сведения о кластере длительности и, в некоторых случаях, сообщение об ошибке.

  4. Чтобы определить причину сбоя, щелкните задачу с ошибкой. Откроется страница сведений о выполнении задачи, отображающая выходные данные задачи, сообщение об ошибке и связанные метаданные.

Исправлена причина сбоя

Ваша задача может завершиться сбоем по нескольким причинам, например проблема с качеством данных, неправильной настройкой или недостаточным объемом вычислительных ресурсов. Ниже приведены рекомендации по устранению некоторых распространенных причин сбоев задач.

  • Если сбой связан с конфигурацией задачи, нажмите кнопку "Изменить задачу". Конфигурация задачи откроется на новой вкладке. Обновите конфигурацию задачи по мере необходимости и нажмите кнопку "Сохранить задачу".
  • Если проблема связана с ресурсами кластера, например, недостаточно экземпляров, существует несколько вариантов:
    • Если задание настроено для использования кластера заданий, рассмотрите возможность использования общего кластера всех целей.
    • Измените конфигурацию кластера. Нажмите кнопку " Изменить задачу". На панели сведений о задании в разделе "Вычисления" нажмите кнопку "Настроить", чтобы настроить кластер. Можно изменить количество рабочих ролей, типов экземпляров или других параметров конфигурации кластера. Вы также можете нажать кнопку "Переключиться ", чтобы переключиться на другой доступный кластер. Чтобы обеспечить оптимальное использование доступных ресурсов, ознакомьтесь с рекомендациями по настройке кластера.
    • При необходимости попросите администратора увеличить квоты ресурсов в облачной учетной записи и регионе, где развернута рабочая область.
  • Если сбой вызван превышением максимального числа одновременных запусков, либо:
    • Дождитесь завершения других запусков.
    • Нажмите кнопку " Изменить задачу". На панели сведенийо задании нажмите кнопку "Изменить одновременные запуски", введите новое значение для максимального числа одновременных запусков и нажмите кнопку "Подтвердить".

В некоторых случаях причина сбоя может быть вышестоящий из задания. Например, внешний источник данных недоступен. Вы по-прежнему можете воспользоваться функцией запуска восстановления, описанной в следующем разделе после устранения внешней проблемы.

Повторный запуск завершился сбоем и пропущенными задачами

После выявления причины сбоя можно восстановить неисправные или отмененные задания с несколькими задачами, выполнив только подмножество неудачных задач и все зависимые задачи. Поскольку выполненные задачи и задачи, зависящие от них, повторно не выполняются, эта возможность сокращает время и ресурсы, которые необходимы для восстановления после неудачного выполнения задания.

Перед восстановлением задания можно изменить параметры задания или задачи. Невыполненные задачи повторно запускаются с текущими параметрами задания и задач. Например, если вы измените путь к записной книжке или параметры кластера, задача будет выполнена повторно с обновленными параметрами записной книжки или кластера.

Просмотрите журнал всех задач, выполняемых на странице сведений о выполнении задачи.

Примечание.

  • Если одна или несколько задач совместно используют кластер заданий, запуск восстановления создает новый кластер заданий. Например, если исходный запуск использовал кластер заданий, первый запуск восстановления использует новый кластер заданий, что позволяет легко просматривать параметры кластера my_job_clusterи кластера my_job_cluster_v1, используемые начальным запуском и любыми запусками восстановления. Параметры my_job_cluster_v1 будут повторять текущие параметры my_job_cluster.
  • Восстановление поддерживается только для заданий, в которых выполняется оркестрация двух или более задач.
  • Значение Длительность на вкладке Запуски обозначает период от начала первого запуска до окончания последнего запуска восстановления. Например, если задание дважды завершилось сбоем и было выполнено на третьем запуске, в его продолжительность будут включены все три запуска.

Чтобы восстановить неудачное выполнение задания, выполните следующую команду:

  1. Щелкните ссылку на неудачный запуск в столбце времени запуска задания или щелкните неудачный запуск в представлении матрицы. Откроется страница Сведения о выполнении задания.
  2. Щелкните Восстановить запуск. Откроется диалоговое окно Восстановление задания со списком всех невыполненных задач и зависимых от них задач, которые будут повторно запущены.
  3. Чтобы добавить или изменить параметры задач для восстановления, введите параметры в диалоговом окне Восстановление задания. Параметры, которые вы введете в диалоговом окне Восстановление задания, переопределят существующие значения. При последующих запусках восстановления можно вернуть параметр к исходному значению, очистив ключ и значение в диалоговом окне Восстановление задания.
  4. Щелкните Восстановить запуск в диалоговом окне Восстановление задания.
  5. После завершения восстановления представление матрицы обновляется с новым столбцом для восстановленного запуска. Все неудачные задачи, которые были красными, теперь должны быть зелеными, что указывает на успешный запуск для всего задания.

Просмотр сбоев непрерывного задания и управление ими

Если последовательные сбои непрерывного задания превышают пороговое значение, задания Azure Databricks используют экспоненциальную обратную передачу для повторных попыток задания. Если задание находится в экспоненциальном состоянии обратной передачи, сообщение на панели сведений о задании отображает сведения, в том числе:

  • Число последовательных сбоев.
  • Период выполнения задания без ошибки, который будет считаться успешным.
  • Время перед следующей повторным попыткой, если в настоящее время не выполняется.

Чтобы отменить активный запуск, сбросьте период повтора и запустите новый запуск задания, нажмите кнопку "Перезапустить".