Справочник по конфигурации пула

В этой статье описываются доступные параметры при создании пула с помощью пользовательского интерфейса. Чтобы узнать, как использовать интерфейс командной строки Databricks для создания пула, ознакомьтесь с интерфейсом командной строки пулов экземпляров (устаревшая версия). Чтобы узнать, как использовать REST API для создания пула, ознакомьтесь с API пулов экземпляров.

Размер пула и автоматическое завершение работы

При создании пула для управления его размером можно задать три параметра: минимальное число бездействующих экземпляров, максимальная емкость и автоматическое завершение бездействующего экземпляра.

Минимальное число бездействующих экземпляров

Минимальное число экземпляров в пуле, которые остаются бездействующими. Эти экземпляры не завершаются независимо от параметров автоматического завершения. Если кластер потребляет бездействующие экземпляры из пула, Azure Databricks подготавливает дополнительные экземпляры для поддержания их количества на минимальном уровне.

Максимальная емкость

Максимальное количество экземпляров пула может подготавливать. Если этот параметр задан, его значение устанавливает ограничение для всех экземпляров (бездействующих и используемых). Если кластер с использованием пула запрашивает больше экземпляров, чем это число во время автомасштабирования, запрос завершается ошибкой INSTANCE_POOL_MAX_CAPACITY_FAILURE .

Эта конфигурация является необязательной. Azure Databricks рекомендует устанавливать значение только в следующих случаях:

  • У вас есть квота на число экземпляров, которую необходимо соблюдать.
  • Один набор задач необходимо защитить от воздействия со стороны другого набора. Например, предположим, что квота экземпляров — 100, и у вас есть команды А и Б, которым требуется выполнять задания. Вы можете создать пул А с максимальным количеством 50 и пул Б также с максимальным количеством 50, чтобы две группы совместно использовали квоту 100 в равных долях.
  • Необходимо ограничить расходы.

Автоматическое завершение бездействующего экземпляра

Время в минутах выше значения, заданного в минимальных экземплярах бездействия, которые экземпляры могут быть простои перед завершением пулом.

Типы экземпляров

Пул состоит как из бездействующих экземпляров, готовых для использования новыми кластерами, так и из экземпляров, уже используемых работающими кластерами. Все эти экземпляры относятся к одному типу поставщика экземпляров, выбранному при создании пула.

Изменить тип экземпляра пула невозможно. Кластеры, подключенные к пулу, используют одинаковый тип экземпляра для драйверов и рабочих узлов. Различные семейства типов экземпляров подходят для различных вариантов использования, таких как рабочие нагрузки, потребляющие большой объем памяти или вычислительных ресурсов.

Azure Databricks всегда направляет уведомление за один год, прежде чем прекращать поддержку определенного типа экземпляров.

Примечание.

Если требования к безопасности включают изоляцию вычислений, выберите экземпляр Standard_F72s_V2 в качестве типа рабочей роли. Такие типы экземпляра представляют изолированные виртуальные машины, которые занимают весь физический узел и обеспечивают достаточный уровень изоляции, требуемый, например, для поддержки рабочих нагрузок уровня защиты 5 (IL5) Министерства обороны США.

Предварительная версия databricks Runtime

Чтобы ускорить запуск кластеров, выберите версию Databricks Runtime, которая будет загружаться на бездействующих экземплярах в пуле. Если пользователь выбирает эту среду выполнения при создании кластера на основе пула, этот кластер будет запускаться быстрее, чем кластер на основе пула, который не использует предварительно загруженную версию Databricks Runtime.

Если для этого параметра задано значение Нет, запуск кластера замедляется, так как соответствующая версия Databricks Runtime скачивается при необходимости на бездействующие экземпляры в пуле. Когда кластер освобождает экземпляры в пуле, версия Databricks Runtime остается в кэше на этих экземплярах. Следующая операция создания кластера, использующая ту же версию Databricks Runtime, может воспользоваться этим кэшем, однако это не гарантировано.

Предварительно загруженное изображение Docker

Образы Docker поддерживаются пулами при использовании API пулов экземпляров для создания пула.

Теги пула

Теги пула позволяют легко отслеживать затраты на облачные ресурсы, используемые различными группами в организации. Теги можно указать в виде пар "ключ-значение" при создании пула, после чего Azure Databricks применяет их к облачным ресурсам, таким как виртуальные машины и тома дисков, а также отчеты о потреблении единиц Databricks.

Для удобства Azure Databricks применяет к каждому пулу три стандартных тега: Vendor, DatabricksInstancePoolId и DatabricksInstancePoolCreatorId. Пользовательские теги также можно добавить при создании пула. Можно добавить до 41 пользовательского тега.

Пользовательские теги

Чтобы добавить дополнительные теги в пул, перейдите на вкладку Tabs в нижней части страницы создания пула. Нажмите кнопку +Добавить , а затем введите пару "ключ-значение".

Кластеры на основе пула наследуют теги по умолчанию и пользовательские теги из конфигурации пула. Подробные сведения о совместной работе тегов пула и тегов кластера см. в статье "Мониторинг использования с помощью тегов".

Автомасштабирование локального хранилища

Зачастую бывает трудно оценить, сколько дискового пространства потребуется на определенное задание. Чтобы не подсчитывать, сколько гигабайт на управляемом диске будет присоединено к пулу во время создания, Azure Databricks автоматически включает автомасштабирование локального хранилища во всех пулах Azure Databricks.

При автомасштабировании локального хранилища Azure Databricks отслеживает объем свободного дискового пространства, доступного в экземплярах пула. Если экземпляр на диске начинает работать слишком медленно, автоматически подключается новый управляемый диск, прежде чем место на текущем диске закончится. Диски присоединяются до достижения общего объема дискового пространства 5 ТБ для каждой виртуальной машины (включая исходное локальное хранилище виртуальной машины).

Управляемые диски, присоединенные к виртуальной машине, отсоединяются только при возврате виртуальной машины в Azure. Таким образом, управляемые диски никогда не отсоединяются от виртуальной машины, пока она является частью пула.

Экземпляры точечных виртуальных машин

Чтобы сэкономить средства, можно использовать экземпляры точечных виртуальных машин, установив переключатель Все точки.

Кластеры в пуле будут запускаться с использованием экземпляров точечных виртуальных машин для всех узлов, драйверов и рабочих ролей (в отличие от гибридных драйверов по запросу и рабочих ролей экземпляров точечных виртуальных машин для кластеров без пула).

Если экземпляры точечных виртуальных машин удаляются из-за недоступности, они не заменяются экземплярами по запросу.