Использование вычислений Azure Databricks с заданиями

При запуске задания Azure Databricks задачи, настроенные как часть задания, выполняются в вычислительных средах Azure Databricks, бессерверных вычислений, кластера или хранилища SQL в зависимости от типа задачи. Выбор типа вычислений и параметров конфигурации важен при выполнении задания. В этой статье приведены рекомендации по использованию вычислительных ресурсов Azure Databricks для выполнения заданий.

Дополнительные сведения об использовании бессерверных вычислений с заданиями Azure Databricks см. в статье "Запуск задания Azure Databricks с бессерверными вычислениями для рабочих процессов".

Примечание.

Секреты не редактируются из журнала stdout и stderr потоков драйвера Spark кластера. Для защиты конфиденциальных данных журналы драйверов Spark по умолчанию доступны только пользователям с разрешением CAN MANAGE для задания, режима доступа одного пользователя и кластеров общего доступа. Чтобы разрешить пользователям с разрешением CAN ATTACH TO или CAN RESTART просматривать журналы в этих кластерах, задайте в конфигурации кластера следующее свойство конфигурации Spark: spark.databricks.acl.needAdminPermissionToViewLogs false

В кластерах режима общего доступа без изоляции журналы драйверов Spark могут просматриваться пользователями с разрешением CAN ATTACH TO или CAN MANAGE. Чтобы ограничить, кто может считывать журналы только пользователям с разрешением CAN MANAGE, установите значение spark.databricks.acl.needAdminPermissionToViewLogstrue.

Сведения о добавлении свойств Spark в конфигурацию кластера см . в разделе "Конфигурация Spark".

Использование общих кластеров заданий

Чтобы оптимизировать использование ресурсов в заданиях с оркестрацией задач, используйте общие кластеры заданий. Общий кластер заданий разрешает использовать кластер нескольким задачам из одного задания. Можно использовать отдельный кластер задания для выполнения всех задач, входящих в это задание, или несколько кластеров заданий, оптимизированных для определенных рабочих нагрузок. Чтобы использовать общий кластер заданий, выполните следующие действия:

  1. Выберите Новые кластеры заданий при создании задачи и настройте конфигурацию кластера.
  2. Выберите новый кластер при добавлении задачи в задание или создайте новый кластер задания. Любой кластер, настроенный при выборе команде Новые кластер заданий, будет доступен для любой задачи в задании.

Общий кластер заданий область выполнять одно задание и не может использоваться другими заданиями или выполнением одного задания.

Библиотеки в конфигурации общего кластера заданий объявлять нельзя. Зависимые библиотеки нужно добавить в параметрах задачи.

Выбор типа кластера для задания

  • Новые кластеры заданий — это выделенные кластеры для выполнения задания или задачи. Кластер создается и запускается при запуске первой задачи, использующей кластер, и завершает работу после завершения последней задачи, использующей этот кластер. Кластер не завершается при простое, но только после завершения всех задач. Если общий кластер заданий прекращает работу (с ошибкой или без) до завершения всех задач, создается новый кластер. Кластер, ограниченный одной задачей, создается и запускается, когда запускается задача, и завершается после завершения задачи. В рабочей среде Databricks рекомендует использовать новые общие или область кластеры с область задачами, чтобы каждое задание или задача выполнялось в полностью изолированной среде.
  • При выполнении задачи в новом кластере задача считается рабочей нагрузкой по инжинирингу данных (рабочей нагрузкой задач) и оценивается по тарифам на рабочие нагрузки задач. При выполнении задачи в существующем универсальном кластере задача считается рабочей нагрузкой по аналитике данных (универсальной рабочей нагрузкой) и оценивается по тарифам на универсальные рабочие нагрузки.
  • Если выбрать завершенный существующий кластер и владелец задания имеет разрешение CAN RESTART, Azure Databricks запускает кластер при планировании выполнения задания.
  • Существующие универсальные кластеры лучше всего подходят для таких задач, как обновление панелей мониторинга с регулярной периодичностью.

Использование пула для сокращения времени запуска кластера

Чтобы уменьшить время запуска нового кластера задания, создайте пул и настройте кластер задания на использование этого пула.