Поделиться через


Настройка параметров для заданий Azure Databricks

В этой статье содержатся сведения о настройке заданий Azure Databricks и отдельных задач задания в пользовательском интерфейсе заданий. Чтобы узнать об использовании интерфейса командной строки Databricks для изменения параметров задания, выполните команду databricks jobs update -hCLI. Дополнительные сведения об использовании API заданий см. в API заданий.

В задании доступны некоторые параметры конфигурации, а для отдельных задач доступны другие параметры. Например, максимальное число одновременных запусков можно задать только в задании, а политики повторных попыток определяются для каждой задачи.

Изменение задания

Чтобы изменить конфигурацию задания, выполните следующие действия:

  1. Щелкните Значок рабочих процессоврабочие процессы на боковой панели.
  2. В столбце Имя нажмите на имя задания.

На боковой панели отображаются Сведения о задании. Триггер задания, конфигурации вычислений, уведомлений, максимальное количество одновременных запусков, настройка пороговых значений длительности и добавление или изменение тегов. Кроме того, если включено управление доступом к заданиям, можно изменять разрешения для задания.

Добавление параметров для всех задач задания

Можно настроить параметры для задания, передаваемого любому из задач задания, которые принимают параметры ключа-значение, включая файлы колес Python, настроенные для принятия ключевое слово аргументов. Параметры, заданные на уровне задания, добавляются в настроенные параметры уровня задач. Параметры задания, передаваемые задачам, отображаются в конфигурации задачи, а также все параметры, настроенные для задачи.

Вы также можете передать параметры задания задачам, которые не настроены с параметрами "ключ-значение", такими как JAR или Spark Submit задачи. Чтобы передать параметры задания этим задачам, отформатируйте аргументы в качестве {{job.parameters.[name]}}[name]key замены на параметр, идентифицирующий этот параметр.

Параметры задания имеют приоритет над параметрами задачи. Если параметр задания и параметр задачи имеют тот же ключ, параметр задания переопределяет параметр задачи.

Можно переопределить настроенные параметры задания или добавить новые параметры задания при выполнении задания с разными параметрами или восстановить выполнение задания.

Вы также можете предоставить общий доступ к контексту о заданиях и задачах с помощью набора динамических ссылок на значения.

Чтобы добавить параметры задания, нажмите кнопку "Изменить параметры " на боковой панели сведений о задании и укажите ключ и значение по умолчанию каждого параметра. Чтобы просмотреть список доступных ссылок на динамические значения, нажмите кнопку "Обзор динамических значений".

Добавление тегов в задание

Чтобы добавить в задание метки или атрибуты "ключ — значение", при редактировании задания можно добавить теги. С помощью тегов можно фильтровать задания в списке заданий. Например, с помощью тега department можно отфильтровать все задания, относящиеся к определенному отделу.

Примечание.

Так как теги заданий не предназначены для хранения конфиденциальных данных, таких как личные сведения или пароли, Databricks рекомендует использовать теги только для значений, не являющихся конфиденциальными.

Теги также распространяются на кластеры заданий, созданные при запуске задания, что позволяет использовать теги с существующим механизмом мониторинга кластера.

Чтобы добавить или изменить теги, выберите +Тег на боковой панели Сведения о задании. Тег можно добавить как ключ и значение или метку. Чтобы добавить метку, введите метку в поле Ключ, а поле Значение оставьте пустым.

Настройка общих кластеров

Чтобы просмотреть задачи, связанные с кластером, щелкните вкладку "Задачи" и наведите указатель мыши на кластер на боковой панели. Чтобы изменить конфигурацию кластера для всех связанных задач, щелкните Настроить в кластере. Чтобы настроить новый кластер для всех связанных задач, щелкните Переключить в кластере.

Управление доступом к заданию

Управление доступом к заданиям позволяет владельцам заданий и администраторам предоставлять детально настроенные разрешения в отношении их заданий. Владельцы заданий могут выбрать, какие другие пользователи или группы могут просматривать результаты задания. Владельцы также могут выбирать, кто сможет управлять выполнением их заданий (разрешения на незамедлительное выполнение и отмену выполнения).

Дополнительные сведения о уровнях разрешений задания см. в списке ACL заданий.

Для управления разрешениями на задание необходимо иметь разрешение CAN MANAGE или IS OWNER.

  1. На боковой панели нажмите кнопку "Запуски задания".

  2. Щелкните имя задания.

  3. На панели сведений о задании нажмите кнопку "Изменить разрешения".

  4. В Параметры разрешения щелкните раскрывающееся меню "Выбрать пользователя", "Группа" или "Субъект-служба", а затем выберите пользователя, группу или субъект-службу.

    Диалоговое окно

  5. Нажмите кнопку Добавить.

  6. Нажмите кнопку Сохранить.

Управление владельцем задания

По умолчанию создатель задания имеет разрешение IS OWNER и является пользователем в параметре запуска от имени задания. Задание выполняется в качестве удостоверения пользователя в параметре запуска от имени . Дополнительные сведения о параметре запуска от имени см. в разделе "Запуск задания в качестве субъекта-службы".

Администраторы рабочей области могут самостоятельно изменить владельца задания. При передаче владельца предыдущего владельца предоставляется разрешение CAN MANAGE

Примечание.

RestrictWorkspaceAdmins Если задан ALLOW ALLпараметр рабочей области, администраторы рабочих областей могут изменить владельца задания на любого пользователя или субъекта-службы в своей рабочей области. Чтобы ограничить администраторами рабочей области только изменение владельца задания, см. статью "Ограничить администраторов рабочей области".

Настройка максимального числа одновременных запусков

Нажмите кнопку "Изменить параллельные запуски " в разделе "Дополнительные параметры", чтобы задать максимальное количество параллельных запусков для этого задания. Azure Databricks пропускает выполнение, если при попытке запуска нового выполнения задание уже достигло максимального числа активных выполнений. Для параллельного запуска сразу нескольких выполнений одного и того же задания это значение должно быть больше значения по умолчанию, равного 1. Это полезно, например, если вы активируете задание по частому расписанию и хотите разрешить последовательные запуски перекрываться друг с другом или активировать несколько запусков, которые отличаются их входными параметрами.

Включение очереди запусков заданий

Чтобы включить выполнение задания в очередь для последующего выполнения, если они не могут выполняться немедленно из-за ограничений параллелизма, щелкните переключатель очереди в разделе "Дополнительные параметры". См. раздел "Что делать, если мое задание не может выполняться из-за ограничений параллелизма?".

Примечание.

Очередь включена по умолчанию для заданий, созданных с помощью пользовательского интерфейса после 15 апреля 2024 г.

Настройка ожидаемого времени завершения или времени ожидания задания

Можно настроить необязательные пороговые значения длительности для задания, включая ожидаемое время завершения для задания и максимальное время завершения для задания. Чтобы настроить пороговые значения длительности, нажмите кнопку "Задать пороговые значения длительности".

Чтобы настроить ожидаемое время завершения задания, введите ожидаемую длительность в поле "Предупреждение ". Если задание превышает это пороговое значение, вы можете настроить уведомления для медленно выполняемого задания. Сведения о настройке уведомлений для медленных или поздних заданий.

Чтобы настроить максимальное время завершения задания, введите максимальную длительность в поле "Время ожидания ". Если задание не завершено в это время, Azure Databricks задает состояние "Время ожидания" и задание остановлено.

Изменение задачи

Чтобы изменить параметры конфигурации задачи, выполните следующие действия:

  1. Щелкните Значок рабочих процессоврабочие процессы на боковой панели.
  2. В столбце Имя нажмите на имя задания.
  3. Щелкните вкладку "Задачи " и выберите задачу для редактирования.

Определение зависимостей задач

Вы можете определить порядок выполнения задач в задании с помощью раскрывающегося меню "Зависит от ". Это поле можно настраивать для одной или нескольких задач в задании.

Редактирование зависимостей задач

Примечание.

Зависит от невидимого, если задание состоит только из одной задачи.

Настройка зависимостей задач создает направленный ациклический граф выполнения задачи — распространенный способ представления порядка выполнения в планировщиках заданий. Для примера рассмотрим следующее задание, состоящее из четырех задач:

Пример схемы зависимостей задач

  • Задача 1 — корневая задача, которая не зависит ни от какой другой задачи.
  • Задача 2 и задача 3 выполняются только после задачи 1.
  • Наконец, задача 4 зависит от успешного выполнения задачи 2 и задачи 3.

Azure Databricks выполняет вышестоящие задачи перед нижестоящими, запуская параллельно как можно больше задач. На следующей схеме показан порядок обработки для этих задач:

Пример потока зависимостей задач

Настройка кластера для задачи

Чтобы настроить кластер, на котором выполняется задача, щелкните раскрывающееся меню кластера . Вы можете изменить общий кластер заданий, но вы не можете удалить общий кластер, если другие задачи по-прежнему используют его.

Дополнительные сведения о выборе и настройке кластеров для выполнения задач см. в статье "Использование вычислений Azure Databricks с заданиями".

Настройка зависимых библиотек

Перед выполнением задач в кластере могут быть установлены зависимые библиотеки. Задайте все зависимости задач, чтобы они были установлены до начала выполнения. Следуйте рекомендациям в разделе "Управление зависимостями библиотеки" для указания зависимостей.

Настройка ожидаемого времени завершения или времени ожидания для задачи

Можно настроить необязательные пороговые значения длительности для задачи, включая ожидаемое время завершения для задачи и максимальное время завершения для задачи. Чтобы настроить пороговые значения длительности, щелкните пороговое значение длительности.

Чтобы настроить ожидаемое время завершения задачи, введите длительность в поле "Предупреждение ". Если задача превышает это пороговое значение, активируется событие. Это событие можно использовать для уведомления о медленном выполнении задачи. Сведения о настройке уведомлений для медленных или поздних заданий.

Чтобы настроить максимальное время завершения для задачи, введите максимальную длительность в поле "Время ожидания ". Если задача не завершена в это время, Azure Databricks задает для него значение Timed Out.

Настройка политики повторных попыток для задачи

Чтобы настроить политику, которая определяет, когда и сколько раз выполняется неудачная задача, нажмите кнопку + Добавить рядом с повторными попытками. Интервал повторных попыток измеряется в миллисекундах между началом неудачного выполнения и последующим повторным выполнением.

Примечание.

Если вы настроите и Время ожидания, и Повторные попытки, то время ожидания будет применяться к каждой повторной попытке.