Создание вычислительного кластера Машинного обучения Azure

Статья
01/25/2024

ОБЛАСТЬ ПРИМЕНЕНИЯ:Расширение машинного обучения Azure CLI версии 2 (current)Python SDK azure-ai-ml версии 2 (current)

В этой статье объясняется, как создать вычислительный кластер и управлять им в рабочей области Машинное обучение Azure.

Вычислительную среду Машинного обучения Azure можно использовать для распространения процесса обучения или пакетного вывода в кластере вычислительных узлов на основе ЦП или GPU, размещенном в облаке. Дополнительные сведения о размерах виртуальных машин, которые содержат GPU, см. в статье Размеры виртуальных машин, оптимизированных для GPU.

Вы узнаете, как выполнять следующие задачи:

Создайте вычислительный кластер.
Снижение затрат на вычислительный кластер с низкоприоритетными виртуальными машинами.
Настройте управляемое удостоверение для кластера.

Примечание.

Вместо создания вычислительного кластера используйте бессерверные вычисления для разгрузки управления жизненным циклом вычислений в Машинное обучение Azure.

Необходимые компоненты

Рабочая область Машинного обучения Azure. Дополнительные сведения см. в статье Управление рабочей областью Машинного обучения Azure.
Расширение Azure CLI для службы "Машинное обучение" версии 2, пакет SDK для Python для службы "Машинное обучение Azure" или расширение Visual Studio Code для службы "Машинное обучение Azure".
При использовании пакета SDK для Python настройте среду разработки с использованием рабочей области. После настройки среды подключитесь к рабочей области в скрипте Python:

ОБЛАСТЬ ПРИМЕНЕНИЯ: Пакет SDK для Python azure-ai-ml версии 2 (current)

Запустите этот код, чтобы подключиться к рабочей области Машинного обучения Azure.

Замените идентификатор подписки, имя группы ресурсов и имя рабочей области в приведенном ниже коде. Вот как найти эти значения:
1. Войдите в Студию машинного обучения Azure.
2. Откройте рабочую область, которую вы хотите использовать.
3. На панели инструментов в правом верхнем углу Студии машинного обучения Azure выберите имя рабочей области.
4. Скопируйте значение для рабочей области, группы ресурсов и идентификатора подписки в код.
5. Если вы используете записную книжку внутри студии, необходимо скопировать одно значение, закрыть область и вставить, а затем вернуться к следующей.
```
# Enter details of your AML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"
```
```
# get a handle to the workspace
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)
```
ml_client — это обработчик рабочей области, которую вы будете использовать для управления другими ресурсами и заданиями.

Что такое вычислительный кластер?

Вычислительный кластер Машинного обучения Azure — это управляемая вычислительная инфраструктура, которая позволяет c легкостью создавать одно- и многоузловые вычислительные среды. Вычислительный кластер — это ресурс, который можно использовать совместно с другими пользователями в рабочей области. Вычислительная среда автоматически масштабируется при отправке задания, а также может быть размещена в виртуальной сети Azure. Вычислительный кластер не поддерживает развертывание общедоступных IP-адресов , а также в виртуальной сети. Она выполняется в контейнерной среде, упаковывая зависимости вашей модели в контейнер Docker.

Вычислительные кластеры могут безопасно выполнять задания в управляемой виртуальной сети или виртуальной сети Azure, не требуя от предприятий открывать порты SSH. Задание выполняется в контейнерной среде и упаковывает зависимости модели в контейнер Docker.

Ограничения

Вычислительные кластеры можно создать в регионе, отличном от региона рабочей области. Эта функция доступна только для вычислительных кластеров, а не для вычислительных экземпляров.

Предупреждение

При использовании вычислительного кластера в другом регионе, отличном от рабочей области или хранилища данных, может возникнуть повышенная задержка сети и затраты на передачу данных. Задержка и затраты могут возникать при создании кластера и при выполнении заданий на нем.
Вычислительная среда Машинного обучения Azure имеет ограничения по умолчанию, такие как количество ядер, которые могут быть выделены. Дополнительные сведения см. в статье Управление квотами для ресурсов Azure и их запрашивание.
Azure позволяет размещать блокировки ресурсов, чтобы их нельзя было удалить или можно было использовать только для чтения. Не применяйте блокировки ресурсов к группе ресурсов, содержащей рабочую область. Применение блокировки к группе ресурсов, содержащей рабочую область, предотвращает масштабирование для Машинное обучение Azure вычислительных кластеров. Дополнительные сведения о блокировке ресурсов см. в статье Блокировка ресурсов для предотвращения непредвиденных изменений.

Создание

Оценка времени: около пяти минут.

Примечание.

Если вы используете бессерверные вычисления, вам не нужно создавать вычислительный кластер.

Вычислительную среду Машинного обучения Azure можно многократно использовать при различных запусках. Вычислительные ресурсы можно совместно использовать с другими пользователями в рабочей области и храниться между запусками, автоматически масштабировать узлы вверх или вниз на основе количества отправленных запусков и max_nodes набора в кластере. Параметр min_nodes управляет минимальными доступными узлами.

Квота выделенных ядер на регион на семейство ВМ и суммарная региональная квота, применяемая при создании вычислительного кластера, объединяется и используется совместно с квотой вычислительного экземпляра Машинного обучения Azure.

Важно!

Чтобы исключить взимание оплаты при отсутствии выполняющихся заданий, установите минимальное количество узлов равным 0. Такая настройка позволяет службе Машинного обучения Azure отменять распределение узлов, когда они не используются. При любом значении больше 0 количество работающих узлов остается равным этому значению, даже если они не используются.

Когда вычислительная среда не используется, она автоматически масштабируется до нуля узлов. Выделенные виртуальные машины создаются для выполнения заданий по мере необходимости.

Используйте следующие примеры для создания вычислительного кластера:

Чтобы создать постоянный Машинное обучение Azure вычислительный ресурс в Python, укажите size и max_instances свойства. Затем Машинное обучение Azure использует интеллектуальные значения по умолчанию для остальных свойств.

размер: семейство виртуальных машин узлов, созданных Машинное обучение Azure Вычисление.
max_instances. Максимальное количество узлов для автомасштабирования до запуска задания в Машинное обучение Azure вычислений.

ОБЛАСТЬ ПРИМЕНЕНИЯ: Пакет SDK для Python azure-ai-ml версии 2 (current)

from azure.ai.ml.entities import AmlCompute

cluster_basic = AmlCompute(
    name="basic-example",
    type="amlcompute",
    size="STANDARD_DS3_v2",
    location="westus",
    min_instances=0,
    max_instances=2,
    idle_time_before_scale_down=120,
)
ml_client.begin_create_or_update(cluster_basic).result()

При создании Вычислительной среды машинного обучения Azure вы можете также настроить несколько дополнительных свойств. Эти свойства позволяют создать постоянный кластер фиксированного размера, который может размещаться в существующей виртуальной сети Azure в вашей подписке. Дополнительные сведения см. в разделе о классе AmlCompute.

Предупреждение

При настройке location параметра, если это другой регион, отличный от рабочей области или хранилища данных, может возникнуть повышенная задержка сети и затраты на передачу данных. Задержка и затраты могут возникать при создании кластера и при выполнении заданий на нем.

ОБЛАСТЬ ПРИМЕНЕНИЯ:расширение Машинного обучения для Azure CLI версии 2 (текущая версия)

az ml compute create -f create-cluster.yml

Где файл create-cluster.yml:

$schema: https://azuremlschemas.azureedge.net/latest/amlCompute.schema.json 
name: location-example
type: amlcompute
size: STANDARD_DS3_v2
min_instances: 0
max_instances: 2
idle_time_before_scale_down: 120
location: westus

Предупреждение

При использовании вычислительного кластера в другом регионе, отличном от рабочей области или хранилища данных, может возникнуть повышенная задержка сети и затраты на передачу данных. Задержка и затраты могут возникать при создании кластера и при выполнении заданий на нем.

Создайте вычислительный кластер с одним или несколькими узлами для обучения, пакетного вывода или рабочих нагрузок обучения с подкреплением.

Перейдите в Студию машинного обучения Azure.
В разделе Управление выберите элемент Вычисления.
Если у вас еще нет вычислительных ресурсов, щелкните команду Создать в центре страницы.
Если отображается список ресурсов вычислений, щелкните действие + Создать над этим списком.
На вкладках вверху выберите вычислительный кластер.

Заполните форму следующим образом:

Поле	Description
Местонахождение	Регион Azure, в котором создается вычислительный кластер. По умолчанию у него то же расположение, что и у рабочей области. Если у вас нет достаточной квоты в регионе по умолчанию, перейдите в другой регион для получения дополнительных параметров. При использовании другого региона, отличного от рабочей области или хранилища данных, может возникнуть повышенная задержка сети и затраты на передачу данных. Задержка и затраты могут возникать при создании кластера и при выполнении заданий на нем.
Тип виртуальной машины	Выберите ЦП или GPU. Этот тип нельзя изменить после создания.
Приоритет виртуальной машины	Выберите элемент Выделенный или Низкий приоритет. Низкоприоритетные виртуальные машины дешевле, но не гарантируют доступность вычислительных узлов. Возможно, ваша работа будет упрещена.
размер виртуальной машины;	В некоторых регионах поддерживаются не все размеры виртуальных машин. Изучите список доступности.

Выберите Далее, чтобы перейти к Дополнительным параметрам и заполнить форму следующим образом.

Поле	Description
Имя вычислительной среды	* Имя является обязательным. Допустимая длина имени — от 3 до 24 символов. * Допускаются прописные и строчные буквы, цифры и символ -. * Имя должно начинаться с буквы. * Имя должно быть уникальным среди всех существующих вычислительных ресурсов в регионе Azure. Вы увидите оповещение, если выбранное имя не является уникальным. * Если - используется символ, за ним следует по крайней мере одна буква позже в имени.
Минимальное количество узлов	Минимальное число узлов, которые вам нужно подготовить к работе. Если вам требуется всегда выделять определенное количество узлов, настройте это число здесь. Экономите деньги, задав минимальное значение 0, поэтому вы не платите за какие-либо узлы при простое кластера.
Максимальное число узлов	Максимальное количество узлов, которые вам нужно подготовить к работе. Вычисление автоматически масштабируется до максимального числа узлов при отправке задания.
Время до уменьшения масштаба (сек)	Время ожидания перед уменьшением масштаба кластера до минимального количества узлов.
Включение доступа по протоколу SSH	Используйте те же инструкции, что и включение доступа SSH для вычислительного экземпляра.
Дополнительные настройки	Необязательно. Настраивать параметры сети. * Если виртуальная сеть Azure, укажите группу ресурсов, виртуальную сеть и подсеть для создания вычислительного экземпляра в сети. Дополнительные сведения см. в разделе о требованиях к сети. * Если управляемая сеть Машинное обучение Azure, вычислительный кластер автоматически находится в управляемой сети. Дополнительные сведения см. в статье об управляемых вычислениях с помощью управляемой сети. * Общедоступный IP-адрес не настраивается, имеет ли вычислительный кластер общедоступный IP-адрес при использовании сети. * Назначьте управляемое удостоверение для предоставления доступа к ресурсам.

Нажмите кнопку создания.

Включение доступа по протоколу SSH

По умолчанию доступ по протоколу SSH отключен. Заданное состояние доступа по протоколу SSH не может быть изменено после создания. Обязательно включите доступ, если планируется интерактивная отладка с помощью VS Code Remote.

После выбора Далее: Расширенные параметры сделайте следующее:

Включите параметр Включить доступ по SSH.
В источнике открытого ключа SSH выберите один из вариантов в раскрывающемся списке:
- Если создать новую пару ключей:
  1. Введите имя ключа в поле Имя пары ключей.
  2. Нажмите кнопку создания.
  3. Выберите Скачать закрытый ключ и создать вычисление. Ключ обычно скачивается в папку Загрузки.
- Если вы выбрали Использовать существующий открытый ключ, хранимый в Azure, найдите и выберите ключ в разделе Хранимый ключ.
- Если выбран параметр Использовать существующий открытый ключ, укажите открытый ключ RSA в формате одной строки (начинается с "ssh-rsa") или в формате PEM с несколькими строками. Ключи SSH можно создать с помощью ssh-keygen (в Linux и OS X) или PuTTYGen (в Windows).

Подключение с доступом SSH

Создав вычислительный ресурс с поддержкой доступа по протоколу SSH, выполните указанные ниже действия для доступа к нему.

Найдите вычислительный ресурс среди ресурсов рабочей области.
1. Слева выберите Вычисление.
2. Выберите на верхних вкладках Compute instance (Вычислительный экземпляр) или Compute cluster (Вычислительный кластер), чтобы найти свой компьютер.
Выберите имя вычислительного ресурса в списке ресурсов.
Найдите строку подключения.
- Если выбран вариант Compute instance (Вычислительный экземпляр), выберите Connect (Подключить) в верхней части раздела Details (Сведения).
- Если же выбран вариант Compute cluster (Вычислительный кластер), выберите вверху Nodes (Узлы), а затем выберите в таблице для своего узла Connection string (Строка подключения).
Скопируйте строку подключения.
Откройте окно командной строки или PowerShell в Windows.
1. Откройте каталог или папку, где хранится ваш ключ.
2. Добавьте флаг -i в строку подключения, чтобы выполнить поиск закрытого ключа и указать место его хранения.
  
  ssh -i <keyname.pem> azureuser@... (rest of connection string)
Пользователям Linux рекомендуется выполнить действия, описанные в статье Создание и использование пары ключей SSH для виртуальных машин Linux в Azure.
Для использования SCP:

scp -i key.pem -P {port} {fileToCopyFromLocal } azureuser@yourComputeInstancePublicIP:~/{destination}

Снижение затрат на вычислительный кластер с низкоприоритетными виртуальными машинами

Вы также можете использовать низкоприоритетные виртуальные машины для выполнения некоторых или всех рабочих нагрузок. Эти виртуальные машины не имеют гарантированной доступности и могут быть упрещены во время использования. Необходимо перезапустить предварительно созданное задание.

Использование Виртуальные машины с низким приоритетом Azure позволяет воспользоваться неиспользуемой емкостью Azure при значительной экономии затрат. В любой момент времени, когда Azure нуждается в емкости, инфраструктура Azure вытесниет azure с низким приоритетом Виртуальные машины. Поэтому виртуальная машина с низким приоритетом Azure отлично подходит для рабочих нагрузок, которые могут обрабатывать прерывания. Объем доступной емкости может варьироваться в зависимости от размера, региона, времени суток и других параметров. При развертывании azure с низким приоритетом Виртуальные машины Azure выделяет виртуальные машины, если есть доступная емкость, но для этих виртуальных машин нет соглашение об уровне обслуживания. Виртуальная машина с низким приоритетом Azure не гарантирует высокий уровень доступности. В любой момент времени, когда Azure нуждается в емкости, инфраструктура Azure вытесниет azure с низким приоритетом Виртуальные машины.

Используйте любой из следующих способов, чтобы указать виртуальную машину с низким приоритетом:

ОБЛАСТЬ ПРИМЕНЕНИЯ: Пакет SDK для Python azure-ai-ml версии 2 (current)

from azure.ai.ml.entities import AmlCompute

cluster_low_pri = AmlCompute(
    name="low-pri-example",
    size="STANDARD_DS3_v2",
    min_instances=0,
    max_instances=2,
    idle_time_before_scale_down=120,
    tier="low_priority",
)
ml_client.begin_create_or_update(cluster_low_pri).result()

ОБЛАСТЬ ПРИМЕНЕНИЯ:расширение Машинного обучения для Azure CLI версии 2 (текущая версия)

Задайте vm-priority:

az ml compute create -f create-cluster.yml

Где файл create-cluster.yml:

$schema: https://azuremlschemas.azureedge.net/latest/amlCompute.schema.json 
name: low-pri-example
type: amlcompute
size: STANDARD_DS3_v2
min_instances: 0
max_instances: 2
idle_time_before_scale_down: 120
tier: low_priority

Примечание.

Если вы используете бессерверные вычисления, вам не нужно создавать вычислительный кластер. Чтобы указать бессерверные вычисления с низким приоритетом, задайте job_tier значение Spot в параметрах очереди.

Настройка управляемого удостоверения

Сведения о настройке управляемого удостоверения в вычислительном кластере см. в статье "Настройка проверки подлинности между Машинное обучение Azure и другими службами".

Устранение неполадок

Существует вероятность того, что некоторые пользователи, создавшие свою рабочую область Машинного обучения Azure на портале Azure до выпуска общедоступной версии, не смогут создать AmlCompute в этой рабочей области. Можно отправить соответствующий запрос в службу поддержки или создать новую рабочую область с помощью портала или пакета SDK, чтобы немедленно устранить эту проблему.

Важно!

Если вычислительный экземпляр или вычислительные кластеры основаны на любой из этих рядов, повторно создайте еще один размер виртуальной машины до даты выхода на пенсию, чтобы избежать сбоев в работе служб.

Эти серии выходят на пенсию 31 августа 2023 г.:

Эти серии выходят на пенсию 31 августа 2024 г.:

Зависание при изменении размера

Если Машинное обучение Azure вычислительный кластер отображается с изменением размера (0 –> 0) для состояния узла, блокировка ресурсов Azure может быть причиной.

Azure позволяет размещать блокировки ресурсов, чтобы их нельзя было удалить или можно было использовать только для чтения. Блокировка ресурса может привести к непредвиденным результатам. Для некоторых операций, которые на первый взгляд не изменяют ресурс, на самом деле требуются действия, выполнение которых становится невозможным из-за блокировки.

При работе с Машинным обучением Azure применение блокировки удаления к группе ресурсов для рабочей области препятствует масштабированию для вычислительных кластеров Azure ML. Чтобы обойти эту проблему, рекомендуется удалить блокировку из группы ресурсов, а затем применить ее к отдельным элементам в группе.

Важно!

Не применяйте блокировку к следующим ресурсам:

Имя ресурса	Тип ресурса
`<GUID>-azurebatch-cloudservicenetworksecurityggroup`	группу безопасности сети;
`<GUID>-azurebatch-cloudservicepublicip`	Общедоступный IP-адрес
`<GUID>-azurebatch-cloudserviceloadbalancer`	Подсистема балансировки нагрузки

Эти ресурсы используются для взаимодействия с вычислительным кластером и выполнения в нем таких операций, как масштабирование. Удаление блокировки для этих ресурсов разрешает автоматическое масштабирование для вычислительных кластеров.

Дополнительные сведения о блокировке ресурсов см. в статье Блокировка ресурсов для предотвращения непредвиденных изменений.

Следующий шаг

Используйте вычислительный кластер для следующего:

Создание вычислительного кластера Машинного обучения Azure

Необходимые компоненты

Что такое вычислительный кластер?

Ограничения

Создание

Снижение затрат на вычислительный кластер с низкоприоритетными виртуальными машинами

Настройка управляемого удостоверения

Устранение неполадок

Зависание при изменении размера

Следующий шаг

Дополнительные ресурсы