Использование виртуальных машин с низким приоритетом в пакетных развертываниях

Статья
06/13/2024

ОБЛАСТЬ ПРИМЕНЕНИЯ:Расширение машинного обучения Azure CLI версии 2 (current)Python SDK azure-ai-ml версии 2 (current)

пакетная служба Azure Развертывания поддерживают низкоприоритетные виртуальные машины, чтобы снизить затраты на выполнение пакетного вывода рабочих нагрузок. Низкоприоритетные виртуальные машины позволяют использовать большое количество вычислительных ресурсов для низкой стоимости. Виртуальные машины с низким приоритетом используют преимущества избыточной емкости в Azure. При указании низкоприоритетных виртуальных машин в пулах Azure может использовать этот профицит при наличии.

Компромисс по использованию заключается в том, что эти виртуальные машины не всегда могут быть доступны для выделения или могут быть упрежены в любое время в зависимости от доступной емкости. По этой причине они наиболее подходят для рабочих нагрузок пакетной и асинхронной обработки, где время завершения задания является гибким, и работа распределяется по многим виртуальным машинам.

Низкоприоритетные виртуальные машины предлагаются по значительно сниженной цене по сравнению с выделенными виртуальными машинами. Сведения о ценах см. в Машинное обучение Azure ценах.

Как пакетное развертывание работает с виртуальными машинами с низким приоритетом

Машинное обучение Azure пакетные развертывания предоставляют несколько возможностей, которые упрощают использование и преимущества виртуальных машин с низким приоритетом:

Задания пакетного развертывания используют виртуальные машины с низким приоритетом, выполняя Машинное обучение Azure вычислительные кластеры, созданные с низкоприоритетными виртуальными машинами. После того как развертывание связано с кластером виртуальных машин с низким приоритетом, все задания, созданные таким развертыванием, будут использовать виртуальные машины с низким приоритетом. Конфигурация для каждого задания невозможна.
Задания пакетного развертывания автоматически ищут целевое число виртуальных машин в доступном вычислительном кластере на основе количества задач для отправки. Если виртуальные машины предварительно или недоступны, задания пакетного развертывания пытаются заменить потерянную емкость путем очереди неудачных задач в кластер.
Низкоприоритетные виртуальные машины имеют отдельную квоту виртуального ЦП, которая отличается от одной для выделенных виртуальных машин. Квота ядер с низким приоритетом на регион по умолчанию составляет от 100 до 3000, в зависимости от типа предложения подписки. Количество ядер с низким приоритетом для каждой подписки можно увеличить, и оно является одним значением в разных семействах виртуальных машин. См. Машинное обучение Azure квоты вычислений.

Создание пакетных развертываний с низкоприоритетными виртуальными машинами

Задания пакетного развертывания используют виртуальные машины с низким приоритетом, выполняя Машинное обучение Azure вычислительные кластеры, созданные с низкоприоритетными виртуальными машинами.

Примечание.

После того как развертывание связано с кластером виртуальных машин с низким приоритетом, все задания, созданные таким развертыванием, будут использовать виртуальные машины с низким приоритетом. Конфигурация для каждого задания невозможна.

Вы можете создать низкоприоритетный Машинное обучение Azure вычислительный кластер следующим образом:

Azure CLI
Python

Создайте определение YAML вычислений, например следующее:

low-pri-cluster.yml

$schema: https://azuremlschemas.azureedge.net/latest/amlCompute.schema.json 
name: low-pri-cluster
type: amlcompute
size: STANDARD_DS3_v2
min_instances: 0
max_instances: 2
idle_time_before_scale_down: 120
tier: low_priority

Создайте вычислительные ресурсы с помощью следующей команды:

az ml compute create -f low-pri-cluster.yml

Чтобы создать новый вычислительный кластер с низкоприоритетными виртуальными машинами, где необходимо создать развертывание, используйте следующий сценарий:

compute_name = "low-pri-cluster"
compute_cluster = AmlCompute(
   name=compute_name, 
   description="Low priority compute cluster", 
   min_instances=0, 
   max_instances=2,
   tier='LowPriority'
)
 
ml_client.begin_create_or_update(compute_cluster)

После создания новых вычислительных ресурсов можно создать или обновить развертывание, чтобы использовать новый кластер:

Azure CLI
Python

Чтобы создать или обновить развертывание в новом вычислительном кластере, создайте YAML конфигурацию следующим образом:

$schema: https://azuremlschemas.azureedge.net/latest/batchDeployment.schema.json
endpoint_name: heart-classifier-batch
name: classifier-xgboost
description: A heart condition classifier based on XGBoost
type: model
model: azureml:heart-classifier@latest
compute: azureml:low-pri-cluster
resources:
  instance_count: 2
settings:
  max_concurrency_per_instance: 2
  mini_batch_size: 2
  output_action: append_row
  output_file_name: predictions.csv
  retry_settings:
    max_retries: 3
    timeout: 300

Затем создайте развертывание с помощью следующей команды:

az ml batch-endpoint create -f endpoint.yml

Чтобы создать или обновить развертывание в новом вычислительном кластере, используйте следующий сценарий:

deployment = ModelBatchDeployment(
    name="classifier-xgboost",
    description="A heart condition classifier based on XGBoost",
    endpoint_name=endpoint.name,
    model=model,
    compute=compute_name,
    settings=ModelBatchDeploymentSettings(
      instance_count=2,
      max_concurrency_per_instance=2,
      mini_batch_size=2,
      output_action=BatchDeploymentOutputAction.APPEND_ROW,
      output_file_name="predictions.csv",
      retry_settings=BatchRetrySettings(max_retries=3, timeout=300),
   )
)

ml_client.batch_deployments.begin_create_or_update(deployment)

Просмотр и мониторинг размещения сделки узлов

Новые метрики доступны в портал Azure для виртуальных машин с низким приоритетом для мониторинга виртуальных машин с низким приоритетом. Эти метрики перечислены ниже.

Замещенные узлы
Предварительно подготовленные ядра

Для просмотра метрик на портале Azure

Перейдите к рабочей области Машинное обучение Azure в портал Azure.
В разделе Мониторинг щелкните Метрики.
Выберите нужные показатели из списка Показатель.

Снимок экрана: раздел метрик в колонке мониторинга ресурсов с соответствующими метриками для виртуальных машин с низким приоритетом.

Ограничения

После того как развертывание связано с кластером виртуальных машин с низким приоритетом, все задания, созданные таким развертыванием, будут использовать виртуальные машины с низким приоритетом. Конфигурация для каждого задания невозможна.
Перепланирование выполняется на мини-пакетном уровне независимо от хода выполнения. Возможность контрольных точек не предоставляется.

Предупреждение

В случаях, когда весь кластер преумножен (или запущен в кластере с одним узлом), задание будет отменено, так как для него не будет доступной емкости. Повторная отправка потребуется в этом случае.

Поделиться через

Использование виртуальных машин с низким приоритетом в пакетных развертываниях

Как пакетное развертывание работает с виртуальными машинами с низким приоритетом

Рекомендации и варианты использования

Создание пакетных развертываний с низкоприоритетными виртуальными машинами

Просмотр и мониторинг размещения сделки узлов

Ограничения

Дополнительные ресурсы