Поделиться через


Настройка вычислений для заданий

В этой статье содержатся рекомендации и ресурсы для настройки вычислений для заданий Databricks.

Внимание

Ограничения для бессерверных вычислений для заданий включают следующие:

  • Поддержка непрерывного планирования отсутствует.
  • Поддержка триггеров интервала по умолчанию или времени в структурированной потоковой передаче не поддерживается.

Дополнительные ограничения см. в разделе об ограничениях бессерверных вычислений.

Каждое задание может иметь одну или несколько задач. Вы определяете вычислительные ресурсы для каждой задачи. Несколько задач, определенных для одного задания, могут использовать один вычислительный ресурс.

Изображение, отображающее выполнение задания с несколькими дублями и связанными облачными вычислительными ресурсами

В следующей таблице указаны рекомендуемые и поддерживаемые типы вычислений для каждого типа задачи.

Примечание.

Бессерверные вычисления для заданий имеют ограничения и не поддерживают все рабочие нагрузки. См . ограничения бессерверных вычислений.

Задача Рекомендуемые вычислительные ресурсы Поддерживаемые вычислительные ресурсы
Записные книжки Бессерверные задания Бессерверные задания, классические задания, универсальные классические задания
Скрипт Python Бессерверные задания Бессерверные задания, классические задания, классические универсальные задачи
Колесо Python Бессерверные задания Бессерверные задания, классические задания, классические универсальные задачи
SQL Бессерверное хранилище SQL Бессерверное хранилище SQL, хранилище pro SQL
Конвейер DLT Бессерверный конвейер Бессерверный конвейер, классический конвейер
dbt Бессерверное хранилище SQL Бессерверное хранилище SQL, хранилище pro SQL
команды dbt CLI Бессерверные задания Бессерверные задания, классические задания, универсальные классические задания
JAR Классические задания Классические работы, классические универсальные решения
Отправка задачи в Spark Классические задания Классические задания

Цены на задания привязаны к вычислительным ресурсам, используемым для выполнения задач. Дополнительные сведения см. в разделе о ценах Databricks.

Как настроить вычислительные ресурсы для заданий?

Классические вычисления заданий настраиваются непосредственно из пользовательского интерфейса заданий Databricks, и эти конфигурации являются частью определения задания. Все остальные доступные вычислительные мощности хранят свои конфигурации вместе с другими ресурсами рабочей области. В следующей таблице приведены дополнительные сведения:

Тип вычисления Сведения
Классическое вычисление задач Вы настраиваете вычисления для классических заданий с помощью одного пользовательского интерфейса и параметров, доступных для вычислений всех целей. Смотрите Справочник по конфигурации вычислений.
Бессерверные вычисления для заданий Бессерверные вычисления для заданий — это значение по умолчанию для всех задач, поддерживающих их. Databricks управляет параметрами вычислений для бессерверных вычислений. См. как запустить задание Azure Databricks с бессерверными вычислениями для рабочих процессов. Администратор рабочей области должен включить бессерверные вычисления, чтобы этот параметр был видимым. См. раздел "Включить бессерверные вычисления".
Хранилища SQL Бессерверные и профессиональные хранилища SQL настраиваются администраторами рабочих областей или пользователями с неограниченными привилегиями создания кластера. Вы настраиваете задачи для выполнения в существующих хранилищах SQL. См. статью "Подключение к хранилищу SQL".
Вычисление конвейера DLT Параметры вычислений для конвейеров DLT настраиваются во время настройки конвейера. См. раздел «Настройка вычислений для конвейера DLT». nn Azure Databricks управляет вычислительными ресурсами для бессерверных конвейеров DLT. См. Настроить бессерверный DLT конвейер.
Вычислительные ресурсы для всех целей При необходимости можно настроить задачи с помощью классических вычислений общего назначения. Databricks не рекомендует эту конфигурацию для рабочих заданий. См. справочник по конфигурации вычислений и следует ли использовать все целевые вычисления для заданий?.

Совместное использование вычислительных ресурсов между задачами

Настройте задачи для использования одних и тех же вычислительных ресурсов, чтобы оптимизировать использование ресурсов в заданиях, которые координируют выполнение нескольких задач. Совместное использование вычислительных ресурсов между задачами может снизить задержку, связанную с временем запуска.

Вы можете использовать один вычислительный ресурс задания для выполнения всех задач, которые являются частью задания или нескольких ресурсов заданий, оптимизированных для определенных рабочих нагрузок. Все вычисления заданий, настроенные в рамках задания, доступны для всех остальных задач в задании.

В следующей таблице выделены различия между вычислениями заданий, настроенными для одной задачи и вычислительных вычислений заданий, общими между задачами:

Одна задача Общий доступ между задачами
Начало При начале выполнения задачи. Когда начинается первая задача, настроенная на использование вычислительного ресурса.
Завершение После выполнения задачи. После выполнения финальной задачи, настроенной для использования вычислительного ресурса.
Незадействованные вычислительные мощности Неприменимо. Вычислительный ресурс остается бездействующим, пока задачи не используют его.

Общий кластер заданий ограничен одним выполнением задания и не может использоваться другими заданиями или выполнением того же задания.

Библиотеки в конфигурации общего кластера заданий объявлять нельзя. Зависимые библиотеки нужно добавить в параметрах задачи.

Проверка, настройка и переключение вычислительных заданий

В разделе "Вычисления " на панели сведений о задании перечислены все вычисления, настроенные для задач в текущем задании.

Задачи, настроенные для использования вычислительного ресурса, выделены на графе задач при наведении указателя мыши на спецификацию вычислений.

Используйте кнопку Замена, чтобы изменить вычислительные настройки для всех задач, связанных с вычислительным ресурсом.

Классические вычислительные ресурсы заданий имеют параметр "Настройка". Другие вычислительные ресурсы позволяют просматривать и изменять сведения о конфигурации вычислений.

Рекомендации по настройке классических вычислений заданий

В этом разделе рассматриваются общие рекомендации по функциям и конфигурациям, которые могут принести пользу некоторым рабочим процессам. Конкретные рекомендации по настройке размера и типов вычислительных ресурсов зависят от рабочей нагрузки.

Databricks рекомендует включить Photon Acceleration, использовать последние версии среды выполнения Databricks и вычисления, настроенные для Unity Catalog.

Бессерверные вычисления для заданий управляют всей инфраструктурой, устраняя следующие аспекты. См. запуск задания Azure Databricks с бессерверными вычислениями для рабочих процессов.

Примечание.

Структурированные рабочие процессы потоковой передачи имеют определенные рекомендации. См. Рекомендации по рабочей среде для структурированной потоковой передачи.

Использование стандартного режима доступа (прежнее название — режим общего доступа)

Databricks рекомендует использовать стандартный режим доступа для заданий. См. режимы доступа.

Примечание.

Стандартный режим доступа не поддерживает некоторые рабочие нагрузки и функции. Databricks рекомендует выделенный режим доступа (ранее один режим доступа пользователей) для этих рабочих нагрузок. См. ограничения режима доступа вычислительных ресурсов для Unity Catalog.

Использование политик кластера

Databricks рекомендует администраторам рабочих областей определять политики кластера для заданий и применять эти политики для всех пользователей, которые настраивают задания.

Политики кластера позволяют администраторам рабочей области задавать элементы управления затратами и ограничивать параметры конфигурации пользователей. Дополнительные сведения о настройке политик кластера см. в статье "Создание и управление политиками вычислений".

Azure Databricks предоставляет политику по умолчанию, настроенную для заданий. Администраторы могут сделать эту политику доступной другим пользователям рабочей области. См. раздел " Вычисления заданий".

Использование автомасштабирования

Настройте автомасштабирование, чтобы длительные задачи могли динамически добавлять и удалять рабочие узлы во время выполнения задания. См. раздел "Включить автомасштабирование".

Использование пула для сокращения времени запуска кластера

Пулы вычислений позволяют резервировать вычислительные ресурсы от поставщика облачных служб. Пулы полезны для уменьшения времени начала нового кластера заданий и обеспечения доступности вычислительных ресурсов. См. справочник по конфигурации пула.

Использование точечных экземпляров

Настройте точечные экземпляры для рабочих нагрузок с минимальными требованиями к задержке для оптимизации затрат. См. статью "Точечные экземпляры".

Следует ли использовать универсальные вычисления для задач?

Существует множество причин, по которым Databricks не рекомендует использовать универсальные вычисления для выполнения заданий, включая следующие:

  • Azure Databricks начисляет плату за универсальные вычисления по другой ставке, чем за задания.
  • Вычисления заданий завершаются автоматически после завершения выполнения задания. Все целевые вычисления поддерживают автоматическое завершение, которое связано с бездействием, а не завершением выполнения задания.
  • Универсальные вычислительные ресурсы часто распределяются между командами пользователей. Задания, запланированные для универсальных вычислений, часто испытывают увеличенную задержку из-за конкуренции за вычислительные ресурсы.
  • Многие рекомендации по оптимизации конфигурации вычислительных ресурсов не подходят для нерегламентированных запросов и интерактивных рабочих нагрузок, выполняемых на универсальных вычислительных ресурсах.

Ниже приведены случаи, в которых можно выбрать использование универсальных вычислений для выполнения заданий:

  • Вы выполняете итеративную разработку или тестирование новых заданий. Время запуска вычислительных задач может усложнить итеративную разработку. Все целевые вычислительные ресурсы позволяют быстро применять изменения и выполнять задание.
  • У вас есть короткие задания, которые должны выполняться часто или по конкретному расписанию. Время старта не связано с текущей работой универсальных вычислений. Рассмотрите затраты, связанные с временем простоя, если используется этот шаблон.

Бессерверное вычисление для задач рекомендовано как замена для большинства типов задач, которые вы могли бы запускать на универсальных вычислениях.