Настройка и изменение заданий Databricks
В этой статье рассматриваются инструкции по созданию, настройке и редактированию заданий с помощью пользовательского интерфейса рабочей области Workflows . Azure Databricks имеет другие точки входа и средства для настройки, включая следующие:
- Дополнительные сведения об использовании интерфейса командной строки Databricks для создания и запуска заданий см. в статье "Что такое интерфейс командной строки Databricks?".
- Дополнительные сведения об использовании API заданий для создания и запуска заданий см. в справочнике по REST API.
- Сведения о том, как выполнять и планировать задания непосредственно в записной книжке Databricks, см. в статье "Создание запланированных заданий записной книжки и управление ими".
Совет
Чтобы просмотреть задание как YAML, щелкните меню kebab слева от запуска для задания, а затем нажмите кнопку "Переключиться на версию кода" (YAML).
Создание задания
В этом разделе описывается минимальная конфигурация, необходимая для создания нового задания для планирования задачи записной книжки с пользовательским интерфейсом рабочей области.
Задания содержат одну или несколько задач. Создав новое задание, настроив первую задачу для этого задания.
Примечание.
Каждый тип задачи имеет динамические параметры конфигурации в пользовательском интерфейсе рабочей области. См. статью "Настройка и изменение задач Databricks".
- Щелкните рабочие процессы на боковой панели и щелкните .
- Введите имя задачи.
- Выберите записную книжку для поля "Путь ".
- Нажмите Создать задачу.
Если рабочая область не включена для бессерверных вычислений для заданий, необходимо выбрать параметр вычислений. Databricks рекомендует всегда использовать вычисления заданий при настройке задач.
Новое задание отображается в списке заданий рабочей области с именем New Job <date> <time>
по умолчанию.
Выбор задания для редактирования в рабочей области
Чтобы изменить существующее задание с помощью пользовательского интерфейса рабочей области, сделайте следующее:
- Щелкните рабочие процессы на боковой панели.
- В столбце Имя нажмите на имя задания.
Используйте пользовательский интерфейс заданий для выполнения следующих действий:
- Изменение настроек задания
- Переименование, клонирование или удаление задания
- Добавление новых задач в существующее задание
- Изменение параметров задачи
Примечание.
Вы также можете просмотреть определения JSON для использования с REST API получения, создания и сброса конечных точек.
Изменение параметров задания
На боковой панели содержатся сведения о задании. Триггер задания, конфигурацию вычислений, уведомления, максимальное количество одновременных запусков, настройку пороговых значений длительности и добавление или изменение тегов. Кроме того, можно изменять разрешения задания, если включено управление доступом к заданиям.
Добавление параметров для всех задач задания
Параметры, настроенные на уровне задания, передаются задачам задания, которые принимают параметры ключа-значение, включая файлы колес Python, настроенные для принятия аргументов ключевых слов. См . статью "Параметризация заданий".
Добавление тегов в задание
Чтобы добавить метки или атрибуты key-value в задание, можно добавить теги при редактировании задания. Теги можно использовать для фильтрации заданий в списке заданий. Например, можно использовать department
тег для фильтрации всех заданий, принадлежащих определенному отделу.
Примечание.
Так как теги заданий не предназначены для хранения конфиденциальных данных, таких как личные сведения или пароли, Databricks рекомендует использовать теги только для значений, не являющихся конфиденциальными.
Теги также распространяются на кластеры заданий, созданные при запуске задания, что позволяет использовать теги с существующим механизмом мониторинга кластера.
Нажмите кнопку +Тег на боковой панели сведений о задании, чтобы добавить или изменить теги. Тег можно добавить в виде пары "метка" или "ключ-значение". Чтобы добавить метку, введите метку в поле Ключ, а поле Значение оставьте пустым.
Переименование, клонирование или удаление задания
Чтобы переименовать задание, перейдите в пользовательский интерфейс заданий и щелкните имя задания.
Чтобы быстро создать новое задание, можно клонировать уже существующее. Клонирование задания создает идентичную копию задания, за исключением идентификатора задания. Чтобы клонировать задание, сделайте следующее:
- Перейдите к пользовательскому интерфейсу заданий для задания.
- Нажмите рядом с кнопкой "Запустить сейчас ".
- Выберите задание клонирования в раскрывающемся меню.
- Введите имя клонированного задания.
- Щелкните Клонировать.
Удаление задания
Чтобы удалить задание, перейдите на страницу задания, щелкните рядом с именем задания и выберите " Удалить задание " в раскрывающемся меню.
Использование Git с заданиями
Если задание содержит все задачи, которые поддерживают использование удаленного поставщика Git, пользовательский интерфейс заданий содержит поле Git и параметр добавления или изменения параметров Git.
Вы можете настроить следующие типы задач для использования удаленного репозитория Git:
- Записные книжки
- Сценарии Python
- SQL-файлы
- dbt
Все задачи в задании должны ссылаться на одну фиксацию в удаленный репозиторий. Для задания, использующего удаленный репозиторий, необходимо указать только одно из следующих действий:
- ветвь: имя ветви, например
main
. - tag: имя тега, например
release-1.0.0
. - commit: хэш конкретной фиксации, например
e0056d01
.
При запуске задания Databricks принимает фиксацию моментального снимка удаленный репозиторий, чтобы убедиться, что все задание выполняется в той же версии кода.
При просмотре журнала выполнения задачи, которая выполняет код, хранящийся в удаленном репозитории Git, панель сведений о выполнении задач содержит сведения о Git, включая фиксацию SHA, связанную с выполнением. См. Просмотр журнала выполнения задач.
Примечание.
Задачи, настроенные для использования удаленного репозитория Git, не могут записываться в файлы рабочей области. Они должны записывать временные данные в хранилище временных драйверов и постоянные данные в том или таблицу.
Databricks рекомендует создавать задания, ссылающиеся на пути к рабочей области в папках Git, только для быстрого итерации и тестирования во время разработки. Databricks рекомендует перенастроить задания, чтобы ссылаться на удаленный репозиторий Git при переходе к промежуточной и рабочей среде. Дополнительные сведения о управляемом версиями исходном коде см. в задании Databricks.
Настройка поставщика Git
Пользовательский интерфейс заданий содержит диалоговое окно для настройки удаленного репозитория Git. Это диалоговое окно доступно на панели сведений о задании под заголовком Git или любой задачей, настроенной для использования поставщика Git.
Параметры, отображаемые для доступа к диалогу, зависят от типа задачи и того, настроена ли ссылка на Git для задания. Кнопки для запуска диалогового окна включают добавление параметров Git, правку или добавление ссылки на git.
В диалоговом окне сведений Git (только что помеченный Git при доступе к панели сведений о задании) введите следующие сведения:
- URL-адрес репозитория Git.
- Выберите поставщика Git в раскрывающемся списке.
- В поле ссылки Git введите идентификатор ветви, тега или фиксации, соответствующей версии исходного кода, которую требуется запустить.
- Выберите ветвь, тег или фиксацию из раскрывающегося списка.
Примечание.
Диалоговое окно может предложить вам следующее: учетные данные Git для этой учетной записи отсутствуют. Добавьте учетные данные. Прежде чем использовать его в качестве ссылки, необходимо настроить удаленный репозиторий Git. См. статью "Настройка папок Git Для Databricks(Repos)".
Настройка ожидаемого времени завершения или времени ожидания задания
Можно настроить необязательные пороговые значения длительности для задания, включая ожидаемое и максимальное время завершения. Чтобы настроить пороговые значения длительности, нажмите кнопку "Задать пороговые значения длительности" в области сведений о задании.
Введите длительность в поле "Предупреждение" , чтобы настроить ожидаемое время завершения задания. Если задание превышает это пороговое значение, активируется событие. Это событие можно использовать для уведомления о медленном выполнении задания. Сведения о настройке уведомлений для медленных или поздних заданий.
Чтобы настроить максимальное время завершения задания, введите максимальную длительность в поле "Время ожидания ". Если задание не завершается за это время, Azure Databricks устанавливает для его состояния значение "Время ожидания истекло".
При необходимости можно указать пороговые значения длительности для задач. См. статью "Настройка ожидаемого времени завершения" или времени ожидания для задачи.