Что такое целевые объекты вычислений в Машинном обучении Azure?

Целевой объект вычисления – это назначенный вычислительный ресурс для выполнения сценария обучения или размещения развертывания службы. Это может быть локальный компьютер или облачный ресурс вычислений. С помощью целевых объектов вычислений можно легко менять среду вычислений, не изменяя код.

Машинное обучение Azure по-разному поддерживает разные целевые объекты вычислений. В типичном цикле разработки модели вы можете:

  1. Начать с разработки и экспериментирования с небольшим объемом данных. На этом этапе используйте локальную среду, например локальный компьютер или облачную виртуальную машину (ВМ) в качестве целевого объекта вычислений.
  2. Масштабируйте до больших данных или выполняйте распределенное обучение с помощью одной из этих обучающих вычислительных целей.
  3. Когда модель будет готова, разверните ее в среде веб-размещения, используя один из этих целевых объектов для вычислений развертывания.

Ресурсы вычислений, используемые для целевых объектов вычислений, присоединяются к рабочей области. Ресурсы вычислений, кроме локального компьютера, являются общими для пользователей рабочей области.

Обучение целевых объектов вычислений

По мере вертикального увеличения масштабов обучения на основе более крупных наборов данных или выполнения распределенного обучения используйте вычислительные ресурсы Машинного обучения Azure для создания одно- или многоузлового кластера, который автоматически масштабируется при каждой отправке задания. Можно также присоединить собственный ресурс вычислений, хотя поддержка может различаться в зависимости от сценария.

Целевые объекты вычислений могут использоваться повторно для разных заданий обучения. Например, после подключения удаленной виртуальной машины к вашей рабочей области ее можно многократно использовать для нескольких заданий. В конвейерах машинного обучения используйте правильный шаг конвейера для каждого целевого объекта вычислений.

Для большинства заданий можно использовать любой из приведенных ниже ресурсов для обучающего целевого объекта вычислений. Не все ресурсы можно использовать для автоматизированного машинного обучения, конвейеров машинного обучения или конструктора. Azure Databricks можно использовать в качестве учебного ресурса для локальных запусков и конвейеров машинного обучения, но не в качестве удаленного целевого объекта для других видов обучения.

Целевые объекты обучения Автоматизированное машинное обучение Конвейеры машинного обучения Конструктор Машинного обучения Azure
Локальный компьютер Да    
Вычислительный кластер Машинного обучения Azure Да Да Да
Машинное обучение Azure бессерверные вычисления Да Да Да
Вычислительная операция Машинного обучения Azure да (с помощью пакета SDK) Да Да
Kubernetes для Машинного обучения Azure Да Да
Удаленная виртуальная машина Да Да  
Пулы Apache Spark (предварительная версия) да (только в локальном режиме SDK) Да  
Azure Databricks да (только в локальном режиме SDK) Да  
Azure Data Lake Analytics   Да  
Azure HDInsight   Да  
Пакетная служба Azure   Да  

Совет

Размер диска ОС вычислительного экземпляра составляет 120 ГБ. Если на диске заканчивается свободное место, очистите с помощью терминала по крайней мере 1–2 ГБ, прежде чем остановить или перезапустить вычислительный экземпляр.

Целевые объекты вычислений для вывода

При выполнении вывода Машинное обучение Azure создает контейнер Docker, в котором размещается модель и связанные ресурсы, необходимые для ее использования. Этот контейнер затем используется в целевом объекте вычислений.

Целевой объект вычислений, используемый для размещения модели, влияет на стоимость и доступность развернутой конечной точки. Для выбора подходящего целевого объекта вычислений используйте приведенную таблицу.

Целевой объект вычислений Используется для Поддержка GPU Description
Машинное обучение Azure — конечные точки Вывод в режиме реального времени

Пакетный вывод
Да Полностью управляемые вычисления для управляемых конечных точек в режиме реального времени (управляемые сетевые конечные точки) и пакетной оценки (конечные точки пакетной службы) на бессерверных вычислительных ресурсах.
Kubernetes для Машинного обучения Azure Вывод в режиме реального времени

Пакетный вывод
Да Запустите рабочие нагрузки вывода в локальных, облачных и пограничных кластерах Kubernetes.
Целевой объект вычислений Используется для Поддержка GPU Description
Локальная веб-служба Тестирование и отладка   Используется для ограниченного тестирования и устранения неполадок. Аппаратное ускорение зависит от использования библиотек в локальной системе.
Kubernetes для Машинного обучения Azure Вывод в реальном времени Да Запустите рабочие нагрузки вывода в облаке.
Экземпляры контейнеров Azure Вывод в режиме реального времени

Рекомендуется только для разработки и тестирования.
  Используйте для небольших рабочих нагрузок на основе ЦП, которым требуется менее 48 ГБ ОЗУ. Не требует управления кластером.

Подходит только для моделей размером менее 1 ГБ.

Поддерживается в конструкторе.

Примечание.

При выборе SKU кластера сначала масштабируйте и масштабируйте. Начните с компьютера с 150% ОЗУ, который требуется для вашей модели, профилируйте результат и найдите компьютер с необходимой производительностью. После этого увеличьте количество компьютеров в соответствии с объемом параллельного вывода.

Вычислительная среда Машинного обучения Azure (управляемая)

Машинное обучение Azure создает управляемые вычислительные ресурсы и управляет ими. Этот тип вычислений оптимизирован для рабочих нагрузок машинного обучения. Машинное обучение Azure вычислительных кластеров, бессерверных вычислений и вычислительных экземпляров являются единственными управляемыми вычислениями.

Нет необходимости создавать бессерверные вычисления. Вы можете создавать вычислительные экземпляры или вычислительные кластеры Машинного обучение Azure из:

Примечание.

Вместо создания вычислительного кластера используйте бессерверные вычисления для разгрузки управления жизненным циклом вычислений в Машинное обучение Azure.

При создании эти ресурсы вычислений автоматически являются частью рабочей области, в отличие от других типов целевых объектов вычислений.

Возможность Вычислительный кластер Вычислительная операция
Кластер с одним или несколькими узлами Кластер с одним узлом
Автоматическое масштабирование при каждой отправке задания
Автоматическое управление кластерами и планирование заданий
поддерживает ресурсы ЦП и GPU;

Примечание.

Чтобы избежать расходов при простое вычислении, выполните следующие действия.

  • Для вычислительного кластера убедитесь, что для минимального количества узлов задано значение 0 или бессерверные вычисления.
  • Для вычислительного экземпляра включите завершение простоя.

Поддерживаемые размеры и серии виртуальных машин

Важно!

Если вычислительный экземпляр или вычислительные кластеры основаны на любой из этих рядов, повторно создайте еще один размер виртуальной машины до даты выхода на пенсию, чтобы избежать сбоев в работе служб.

Эти серии выходят на пенсию 31 августа 2023 г.:

Эти серии выходят на пенсию 31 августа 2024 г.:

При выборе размера узла для управляемого ресурса вычислений в Машинном обучении Azure, вы можете выбрать один из доступных в Azure размеров виртуальной машины. В Azure предоставлен диапазон размеров виртуальных машин Windows и Linux для разных рабочих нагрузок. Дополнительные сведения см. в статье Типы и размеры виртуальных машин.

При выборе размера виртуальной машины существует несколько исключений и ограничений.

  • Некоторые серии виртуальных машин не поддерживаются в Машинном обучении Azure.
  • Некоторые серии виртуальных машин, такие как GPU и другие специальные номера SKU, могут не отображаться в списке доступных виртуальных машин. Но вы по-прежнему можете использовать их после запроса на изменение квоты. Дополнительные сведения о запросах квот см. в разделе "Увеличение квоты запросов и предельных ограничений". Дополнительные сведения о поддерживаемых сериях см. в следующей таблице.
Поддерживаемые серии виртуальных машин Категория Поддерживается
DDSv4 Универсальные Вычислительные кластеры и экземпляры
Dv2 Универсальные Вычислительные кластеры и экземпляры
Dv3 Универсальные Вычислительные кластеры и экземпляры
DSv2 Универсальные Вычислительные кластеры и экземпляры
DSv3 Универсальные Вычислительные кластеры и экземпляры
EAv4 Оптимизированные для памяти Вычислительные кластеры и экземпляры
Ev3 Оптимизированные для памяти Вычислительные кластеры и экземпляры
ESv3 Оптимизированные для памяти Вычислительные кластеры и экземпляры
FSv2 Оптимизированные для вычислений Вычислительные кластеры и экземпляры
FX Оптимизированные для вычислений Вычислительные кластеры
H Для высокопроизводительных вычислений Вычислительные кластеры и экземпляры
HB Для высокопроизводительных вычислений Вычислительные кластеры и экземпляры
HBv2 Для высокопроизводительных вычислений Вычислительные кластеры и экземпляры
HBv3 Для высокопроизводительных вычислений Вычислительные кластеры и экземпляры
HC Для высокопроизводительных вычислений Вычислительные кластеры и экземпляры
LSv2 Оптимизированные для хранилища Вычислительные кластеры и экземпляры
M Оптимизированные для памяти Вычислительные кластеры и экземпляры
NC GPU Вычислительные кластеры и экземпляры
Рекламные акции NC GPU Вычислительные кластеры и экземпляры
NCv2 GPU Вычислительные кластеры и экземпляры
NCv3 GPU Вычислительные кластеры и экземпляры
ND GPU Вычислительные кластеры и экземпляры
NDv2 GPU Вычислительные кластеры и экземпляры
NV GPU Вычислительные кластеры и экземпляры
NVv3 GPU Вычислительные кластеры и экземпляры
NCasT4_v3 GPU Вычислительные кластеры и экземпляры
NDasrA100_v4 GPU Вычислительные кластеры и экземпляры

Хотя Машинное обучение Azure поддерживает эти серии виртуальных машин, они могут быть доступны не во всех регионах Azure. Чтобы проверить, доступна ли серия виртуальных машин, ознакомьтесь со статьей Доступность продуктов по регионам.

Примечание.

Машинное обучение Azure поддерживает не все размеры виртуальных машин, поддерживаемые в Вычислениях Azure. Чтобы получить список доступных размеров виртуальных машин, используйте следующий метод:

Примечание.

Машинное обучение Azure поддерживает не все размеры виртуальных машин, поддерживаемые в Вычислениях Azure. Чтобы получить список доступных размеров виртуальных машин, используйте один из следующих методов:

Если вы используете целевые объекты вычислений с поддержкой GPU, важно убедиться, что правильные драйверы CUDA установлены в среде обучения. Воспользуйтесь следующей таблицей, чтобы определить правильную версию CUDA:

Архитектура GPU Серия виртуальных машин Azure Поддерживаемые версии CUDA
Ampere NDA100_v4 11.0+
Турин NCT4_v3 10.0+
Volta NCv3, NDv2 9.0+
Pascal NCv2, ND 9.0+
Maxwell NV, NVv3 9.0+
Kepler NC, NC Promo 9.0+

Помимо обеспечения совместимости версии И оборудования CUDA, также убедитесь, что версия CUDA совместима с версией платформы машинного обучения, которую вы используете:

Изоляция вычислительных ресурсов

Машинное обучение Azure предлагает размеры виртуальных машин, которые используют оборудование строго определенного типа и выделяются отдельному клиенту. Такие изолированные размеры лучше всего подходят для рабочих нагрузок, требующих высокого уровня изоляции от рабочих нагрузок других клиентов, например для обеспечения соответствия нормативным требованиям. Использование изолированного размера гарантирует, что виртуальная машина является единственной, работающей на этом конкретном экземпляре сервера.

Текущие предложения изолированных виртуальных машин включают в себя:

  • Standard_M128ms
  • Standard_F72s_v2
  • Standard_NC24s_v3
  • Standard_NC24rs_v3 (с поддержкой RDMA)

Дополнительные сведения о изоляции см. в Изоляция в общедоступном облаке Azure.

Неуправляемые вычисления

Машинное обучение Azure не управляет неуправляемым целевым объектом вычислений. Этот тип целевого объекта вычислений можно создать за пределами Машинного обучения Azure, а затем подключить его к рабочей области. Неуправляемые вычислительные ресурсы могут потребовать дополнительных шагов для поддержания или повышения производительности рабочих нагрузок машинного обучения.

Машинное обучение Azure поддерживает следующие типы неуправляемых вычислений:

  • Удаленные виртуальные машины
  • Azure HDInsight
  • Azure Databricks
  • Аналитика озера данных Azure

Дополнительные сведения см. в разделе "Управление вычислительными ресурсами".

Следующий шаг