Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье описываются доступные параметры при создании пула с помощью пользовательского интерфейса. Сведения об использовании интерфейса командной строки Databricks для создания пула см. в командах CLI Databricks. Чтобы узнать, как использовать REST API для создания пула, ознакомьтесь с API пулов экземпляров.
Замечание
Если рабочая нагрузка поддерживает бессерверные вычисления, Databricks рекомендует использовать бессерверные вычисления вместо пулов, чтобы воспользоваться преимуществами постоянно масштабируемых вычислений. См. раздел "Подключение к бессерверным вычислениям".
Размер пула
При создании пула, для управления его размером, можно задать три параметра: минимальные простои, максимальное количество, и автоматическое завершение простоев.
Минимальные экземпляры простоя
Минимальное количество экземпляров, которое пул оставляет в состоянии простоя. Эти экземпляры не завершаются независимо от параметров автоматического завершения. Если кластер использует неактивные экземпляры из пула, Azure Databricks подготавливает дополнительные экземпляры для поддержания минимального значения.
Максимальная емкость
Максимальное количество экземпляров, которые пул может подготовить. Если задано, это значение ограничивает все экземпляры (включая бездействующие и используемые). Если кластер с использованием пула запрашивает больше экземпляров, чем это число во время автомасштабирования, запрос завершается ошибкой INSTANCE_POOL_MAX_CAPACITY_FAILURE .
Эта конфигурация является необязательной. Azure Databricks рекомендует задать значение только в следующих случаях:
- У вас есть лимит на экземпляры, который нельзя превышать.
- Вы хотите защитить один набор работ от влияния на другой набор работ. Например, предположим, что квота экземпляра составляет 100, и у вас есть команды A и B, которые должны выполнять задания. Вы можете создать пул A с максимум 50 и пул B с максимум 50, чтобы две команды справедливо делили квоту из 100.
- Вам нужно ограничить затраты.
Автоматическое завершение простоя экземпляра
Время в минутах сверх значения, заданного в Минимальных экземплярах простоя, в течение которого экземпляры могут находиться в простое, прежде чем быть завершёнными пулом.
Типы экземпляров
Пул состоит из ожидающих экземпляров, готовых к новым кластерам, и экземпляров, используемых в рамках запущенных кластеров. Все эти экземпляры имеют одинаковый тип поставщика экземпляров, выбранный при создании пула.
Не удается изменить тип экземпляра пула. Кластеры, подключенные к пулу, используют тот же тип экземпляра для драйвера и рабочих узлов. Различные семейства типов экземпляров подходят для различных вариантов использования, таких как рабочие нагрузки, потребляющие большой объем памяти или вычислительных ресурсов.
Azure Databricks всегда предоставляет уведомление за год до прекращения поддержки типа экземпляра.
Замечание
Если требования к безопасности включают изоляцию вычислений, выберите экземпляр Standard_F72s_V2 в качестве рабочего типа. Эти типы экземпляров представляют собой изолированные виртуальные машины, которые используют весь физический хост и обеспечивают необходимый уровень изоляции для поддержки, например, рабочих нагрузок Министерства обороны США уровня влияния 5 (IL5).
Предварительно загруженная версия Databricks Runtime
Вы можете ускорить запуск кластера, выбрав версию среды выполнения Databricks для загрузки на неактивные экземпляры в пуле. Если пользователь выбирает среду выполнения при создании кластера, поддерживаемого пулом, этот кластер будет запускаться еще быстрее, чем кластер с поддержкой пула, который не использует предварительно загруженную версию среды выполнения Databricks.
Если установить этот параметр на None, запуск кластеров замедляется, так как это приводит к скачиванию версии среды выполнения Databricks по запросу для простаивающих экземпляров в пуле. Когда кластер освобождает экземпляры в пуле, версия среды выполнения Databricks остается кэширована на этих экземплярах. Следующая операция создания кластера, использующая ту же версию Databricks Runtime, может воспользоваться этим поведением кэширования, но оно не гарантируется.
Предварительно загруженное изображение Docker
Docker-образы поддерживаются в пулах, если вы используете API пулов экземпляров для их создания.
Теги пула
Теги пула позволяют легко отслеживать стоимость облачных ресурсов, используемых различными группами в организации. Теги можно указать как пары "ключ-значение" при создании пула, а Azure Databricks применяет эти теги к облачным ресурсам, таким как виртуальные машины и тома дисков, а также отчеты об использовании DBU.
Для удобства Azure Databricks применяет три тега по умолчанию к каждому пулу: Vendorи DatabricksInstancePoolIdDatabricksInstancePoolCreatorId. При создании пула можно также добавлять настраиваемые теги. Можно добавить до 41 пользовательских тегов.
Настраиваемые теги
Чтобы добавить дополнительные теги в пул, перейдите на вкладку Tabs в нижней части страницысоздания пула . Нажмите + Добавить, а затем введите пару "ключ-значение".
Кластеры, поддерживаемые пулом, наследуют значения по умолчанию и настраиваемые теги из конфигурации пула. Подробные сведения о совместной работе тегов пула и тегов кластера см. в разделе "Использование тегов для атрибута и отслеживания использования".
Автоматическое масштабирование локального хранилища
Зачастую бывает трудно оценить, сколько дискового пространства потребуется на определенное задание. Чтобы сэкономить от необходимости оценить количество гигабайт управляемых дисков для подключения к пулу во время создания, Azure Databricks автоматически включает автоматическое масштабирование локального хранилища во всех пулах Azure Databricks.
При автоматическом масштабировании локального хранилища Azure Databricks мониторит объем свободного места на диске в экземплярах вашего пула. Если экземпляр испытывает нехватку места на диске, новый управляемый диск будет подключен автоматически, до того как место на диске закончится. Диски подключены до предела 5 ТБ общего дискового пространства на каждую виртуальную машину (включая начальное локальное хранилище виртуальной машины).
Управляемые диски, присоединенные к виртуальной машине, отсоединяются только при возврате виртуальной машины в Azure. То есть управляемые диски никогда не отсоединяются от виртуальной машины, пока она является частью пула.
SPOT-экземпляры
Чтобы сократить расходы, можно использовать точечные экземпляры, выбрав переключатель «All Spot».
Кластеры в пуле будут запускаться со спотовыми экземплярами для всех узлов: драйвера и рабочих узлов (в отличие от гибридного драйвера по запросу и рабочих узлов со спотовыми экземплярами для кластеров вне пула).
Если точечные экземпляры вытесняются из-за недоступности, экземпляры по запросу не заменяют вытесненные экземпляры.