Поделиться через


Настройка вычислений для заданий

В этой статье содержатся рекомендации и ресурсы для настройки вычислений для заданий Databricks.

Внимание

Ограничения для бессерверных вычислений для заданий включают следующие:

  • Поддержка непрерывного планирования не поддерживается.
  • Поддержка триггеров интервала по умолчанию или времени в структурированной потоковой передаче не поддерживается.

Дополнительные ограничения см. в разделе об ограничениях бессерверных вычислений.

Каждое задание может иметь одну или несколько задач. Вы определяете вычислительные ресурсы для каждой задачи. Несколько задач, определенных для одного задания, могут использовать один вычислительный ресурс.

Изображение, показывающее задание с несколькими принимают и связанными облачными вычислительными ресурсами

В следующей таблице указаны рекомендуемые и поддерживаемые типы вычислений для каждого типа задачи.

Примечание.

Бессерверные вычисления для заданий имеют ограничения и не поддерживают все рабочие нагрузки. См . ограничения бессерверных вычислений.

Задача Рекомендуемые вычислительные ресурсы Поддерживаемые вычислительные ресурсы
Записные книжки Бессерверные задания Бессерверные задания, классические задания, классические все назначения
Скрипт Python Бессерверные задания Бессерверные задания, классические задания, классические все назначения
Колесо Python Бессерверные задания Бессерверные задания, классические задания, классические все назначения
SQL Бессерверное хранилище SQL Бессерверное хранилище SQL, хранилище pro SQL
Конвейер разностных динамических таблиц Бессерверный конвейер Бессерверный конвейер, классический конвейер
dbt Бессерверное хранилище SQL Бессерверное хранилище SQL, хранилище pro SQL
команды dbt CLI Бессерверные задания Бессерверные задания, классические задания, классические все назначения
JAR Классические задания Классические задания, классические все назначения
Отправка Spark Классические задания Классические задания

Цены на задания привязаны к вычислительным ресурсам, используемым для выполнения задач. Дополнительные сведения см. в разделе о ценах Databricks.

Разделы справки настроить вычисления для заданий?

Классические вычисления заданий настраиваются непосредственно из пользовательского интерфейса заданий Databricks, и эти конфигурации являются частью определения задания. Все остальные доступные типы вычислений хранят конфигурации с другими ресурсами рабочей области. В следующей таблице приведены дополнительные сведения:

Тип вычисления Сведения
Классические вычисления заданий Вы настраиваете вычисления для классических заданий с помощью одного пользовательского интерфейса и параметров, доступных для вычислений всех целей. См . справочник по конфигурации вычислений.
Бессерверные вычисления для заданий Бессерверные вычисления для заданий — это значение по умолчанию для всех задач, поддерживающих их. Databricks управляет параметрами вычислений для бессерверных вычислений. Ознакомьтесь с заданием Azure Databricks с бессерверными вычислениями для рабочих процессов. Администратор рабочей области должен включить бессерверные вычисления, чтобы этот параметр был видимым. См. раздел "Включить бессерверные вычисления".
Хранилища SQL Бессерверные и профессиональные хранилища SQL настраиваются администраторами рабочих областей или пользователями с неограниченными привилегиями создания кластера. Вы настраиваете задачи для выполнения в существующих хранилищах SQL. См. статью "Подключение к хранилищу SQL".
Вычисление конвейера конвейера разностных динамических таблиц Параметры вычислений для конвейеров Delta Live Tables настраивается во время настройки конвейера. Сведения о настройке вычислений для конвейера Delta Live Tables. nn Azure Databricks управляет вычислительными ресурсами для конвейеров бессерверных разностных динамических таблиц. См. статью "Настройка конвейера бессерверных динамических таблиц Delta Live Tables".
Вычислительные ресурсы для всех целей При необходимости можно настроить задачи с помощью классических вычислений всех целей. Databricks не рекомендует эту конфигурацию для рабочих заданий. См. справочник по конфигурации вычислений и следует ли использовать все целевые вычисления для заданий?.

Совместное использование вычислительных ресурсов между задачами

Настройте задачи, чтобы использовать те же вычислительные ресурсы заданий для оптимизации использования ресурсов с заданиями, которые оркестрации нескольких задач. Совместное использование вычислительных ресурсов между задачами может снизить задержку, связанную с временем запуска.

Вы можете использовать один вычислительный ресурс задания для выполнения всех задач, которые являются частью задания или нескольких ресурсов заданий, оптимизированных для определенных рабочих нагрузок. Все вычисления заданий, настроенные в рамках задания, доступны для всех остальных задач в задании.

В следующей таблице выделены различия между вычислениями заданий, настроенными для одной задачи и вычислительных вычислений заданий, общими между задачами:

Одна задача Общий доступ между задачами
Начало При запуске задачи. Когда начинается первая задача, настроенная на использование вычислительного ресурса.
Завершение После выполнения задачи. После завершения задачи, настроенной для использования вычислительного ресурса.
Простой вычислений Неприменимо. Вычисление остается в состоянии простоя, пока задачи не используют выполнение вычислительного ресурса.

Общий кластер заданий ограничен одним выполнением задания и не может использоваться другими заданиями или выполнением того же задания.

Библиотеки в конфигурации общего кластера заданий объявлять нельзя. Зависимые библиотеки нужно добавить в параметрах задачи.

Проверка, настройка и переключение вычислительных заданий

В разделе "Вычисления " на панели сведений о задании перечислены все вычисления, настроенные для задач в текущем задании.

Задачи, настроенные для использования вычислительного ресурса, выделены на графе задач при наведении указателя мыши на спецификацию вычислений.

Нажмите кнопку "Переключение", чтобы изменить вычислительные ресурсы для всех задач, связанных с вычислительным ресурсом.

Классические вычислительные ресурсы заданий имеют параметр "Настройка ". Другие вычислительные ресурсы позволяют просматривать и изменять сведения о конфигурации вычислений.

Рекомендации по настройке классических вычислений заданий

В этом разделе рассматриваются общие рекомендации по функциям и конфигурациям, которые могут воспользоваться некоторыми рабочими процессами. Конкретные рекомендации по настройке размера и типов вычислительных ресурсов зависят от рабочей нагрузки.

Databricks рекомендует включить ускорение Фотона, используя последние версии среды выполнения Databricks и используя вычисления, настроенные для каталога Unity.

Бессерверные вычисления для заданий управляют всей инфраструктурой, устраняя следующие аспекты. Ознакомьтесь с заданием Azure Databricks с бессерверными вычислениями для рабочих процессов.

Примечание.

Структурированные рабочие процессы потоковой передачи имеют определенные рекомендации. Сведения о структурированной потоковой передаче см. в разделе "Рекомендации по рабочей среде".

Использование режима общего доступа

Databricks рекомендует использовать режим общего доступа для заданий. См . режимы доступа.

Примечание.

Режим общего доступа не поддерживает некоторые рабочие нагрузки и функции. Databricks рекомендует единый режим доступа пользователей для этих рабочих нагрузок. Сведения об ограничениях режима доступа к вычислительным ресурсам для каталога Unity.

Использование политик кластера

Databricks рекомендует администраторам рабочих областей определять политики кластера для заданий и применять эти политики для всех пользователей, которые настраивают задания.

Политики кластера позволяют администраторам рабочей области задавать элементы управления затратами и ограничивать параметры конфигурации пользователей. Дополнительные сведения о настройке политик кластера см. в статье "Создание и управление политиками вычислений".

Azure Databricks предоставляет политику по умолчанию, настроенную для заданий. Администраторы могут сделать эту политику доступной другим пользователям рабочей области. См. раздел " Вычисления заданий".

Использование автомасштабирования

Настройте автомасштабирование, чтобы длительные задачи могли динамически добавлять и удалять рабочие узлы во время выполнения задания. См. раздел "Включить автомасштабирование".

Использование пула для сокращения времени запуска кластера

Пулы вычислений позволяют резервировать вычислительные ресурсы от поставщика облачных служб. Пулы полезны для уменьшения времени начала нового кластера заданий и обеспечения доступности вычислительных ресурсов. См . справочник по конфигурации пула.

Использование точечных экземпляров

Настройте точечные экземпляры для рабочих нагрузок с минимальными требованиями к задержке для оптимизации затрат. См. статью "Точечные экземпляры".

Следует ли использовать все целевые вычисления для заданий?

Существует множество причин, по которым Databricks рекомендует использовать все целевые вычисления для заданий, в том числе следующие:

  • Счета за все целевые вычисления Azure Databricks по сравнению с вычислениями заданий.
  • Вычисления заданий завершаются автоматически после завершения выполнения задания. Все целевые вычисления поддерживают автоматическое завершение, которое связано с бездействием, а не завершением выполнения задания.
  • Все целевые вычислительные ресурсы часто используются для групп пользователей. Задания, запланированные для вычислений всех целей, часто имеют повышенную задержку из-за конкуренции за вычислительные ресурсы.
  • Многие рекомендации по оптимизации конфигурации вычислений заданий не подходят для типа нерегламентированных запросов и интерактивных рабочих нагрузок, выполняемых на всех вычислительных ресурсах.

Ниже приведены варианты использования, в которых можно использовать все целевые вычисления для заданий:

  • Вы выполняете итеративную разработку или тестирование новых заданий. Время запуска для вычислений заданий может сделать итеративную разработку емким. Все целевые вычислительные ресурсы позволяют быстро применять изменения и выполнять задание.
  • У вас есть короткие задания, которые должны выполняться часто или по конкретному расписанию. Время запуска не связано с текущим выполнением вычислительных ресурсов для всех целей. Рассмотрите затраты, связанные с временем простоя, если используется этот шаблон.

Бессерверные вычисления для заданий рекомендуется заменить большинство типов задач, которые можно использовать для вычислений всех целей.