Что такое целевые объекты вычислений в Машинное обучение Azure?

Целевой объект вычисления – это назначенный вычислительный ресурс или среда, где выполняется ваш учебный сценарий или размещается развёртывание службы. Это может быть локальный компьютер или облачный ресурс вычислений. С помощью целевых объектов вычислений можно легко изменить среду вычислений позже, не изменив код.

Машинное обучение Azure поддерживает различные целевые объекты вычислений. В типичном цикле разработки модели вы можете:

  1. Начать с разработки и экспериментирования с небольшим объемом данных. На этом этапе используйте локальную среду, например локальный компьютер или облачную виртуальную машину (ВМ) в качестве целевого объекта вычислений.
  2. Увеличьте масштаб обработки данных или выполняйте распределенное обучение с помощью одной из этих вычислительных ресурсов для обучения.
  3. После готовности модели разверните ее в среде веб-размещения с помощью одного из этих целевых объектов вычислений развертывания.

Подключите вычислительные ресурсы, используемые для целевых объектов вычислений, в рабочую область. Пользователи рабочей области используют вычислительные ресурсы, отличные от локального компьютера.

Обучение целевых объектов вычислений

При масштабировании обучения на более крупных наборах данных или выполнении дистрибутированного обучения используйте Машинное обучение Azure вычислений для создания одноузлового или многоузлового кластера, который автоматически масштабируется при каждом отправке задания. Можно также присоединить собственный ресурс вычислений, хотя поддержка может различаться в зависимости от сценария.

Вы можете повторно использовать целевые объекты вычислений из одного задания обучения на следующее. Например, после подключения удаленной виртуальной машины к вашей рабочей области ее можно многократно использовать для нескольких заданий.

В конвейерах машинного обучения используйте правильный шаг конвейера для каждого целевого объекта вычислений.

Для большинства заданий можно использовать любой из представленных ниже ресурсов в качестве целевой вычислительной платформы для обучения. Не все ресурсы можно использовать для автоматизированного машинного обучения, конвейеров машинного обучения или конструктора. Azure Databricks можно использовать в качестве ресурса обучения для локальных запусков и конвейеров машинного обучения, но не в качестве удаленного целевого объекта для других учебных занятий.

Цели обучения Автоматизированное машинное обучение Конвейеры машинного обучения Дизайнер Azure Machine Learning
Машинное обучение Azure вычислительный кластер Да Да Да
Машинное обучение Azure бессерверные вычисления Да Да Да
вычислительный экземпляр Машинное обучение Azure да (с помощью пакета SDK) Да Да
Машинное обучение Azure в Kubernetes Да Да
Удаленная виртуальная машина Да Да  
Пулы Apache Spark (предварительный просмотр) да (только в локальном режиме SDK) Да  
Azure Databricks да (только в локальном режиме SDK) Да  
Azure Data Lake Analytics   Да  
Azure HDInsight   Да  
Пакетная служба Azure   Да  
Цели обучения Автоматизированное машинное обучение Конвейеры машинного обучения Дизайнер Azure Machine Learning
Локальный компьютер Да    
Машинное обучение Azure вычислительный кластер Да Да Да
вычислительный экземпляр Машинное обучение Azure да (с помощью пакета SDK) Да Да
Машинное обучение Azure в Kubernetes Да Да
Удаленная виртуальная машина Да Да  
Пулы Apache Spark (предварительный просмотр) да (только в локальном режиме SDK) Да  
Azure Databricks да (только в локальном режиме SDK) Да  
Azure HDInsight   Да  
Пакетная служба Azure   Да  

Совет

Вычислительный экземпляр имеет диск ОС размером 120 ГБ. Если на диске заканчивается свободное место, очистите с помощью терминала по крайней мере 1–2 ГБ, прежде чем остановить или перезапустить вычислительный экземпляр.

Целевые объекты вычислений для вывода

При выполнении вывода Машинное обучение Azure создает контейнер Docker, на котором размещена модель и связанные ресурсы, необходимые для его использования. Вы используете этот контейнер в целевом вычислительном объекте.

Целевой объект вычислений, используемый для размещения модели, влияет на стоимость и доступность развернутой конечной точки. Для выбора подходящего целевого объекта вычислений используйте приведенную таблицу.

Целевой объект вычислений Используется для Поддержка GPU Описание
Машинное обучение Azure конечные точки Вывод в режиме реального времени

Пакетный вывод
Да Полностью управляемые вычисления для управляемых окончательных точек в реальном времени (сетевые конечные точки) и для пакетной оценки (пакетные конечные точки) на платформе бессерверных вычислений.
Машинное обучение Azure в Kubernetes Вывод в режиме реального времени

Пакетный вывод
Да Запускайте вычислительные задачи на локальных, облачных и граничных кластерах Kubernetes.
Целевой объект вычислений Используется для Поддержка GPU Описание
Локальная веб-служба Тестирование и отладка   Используется для ограниченного тестирования и устранения неполадок. Аппаратное ускорение зависит от использования библиотек в локальной системе.
Машинное обучение Azure в Kubernetes Инференция в реальном времени Да Запускайте инференсные рабочие нагрузки в облаке.
Экземпляры контейнеров Azure Вывод в режиме реального времени

Рекомендуется только для разработки и тестирования.
  Используйте для небольших рабочих нагрузок на основе ЦП, которым требуется менее 48 ГБ ОЗУ. Вам не нужно управлять кластером.

Подходит только для моделей размером менее 1 ГБ.

Поддерживается в конструкторе.

Примечание.

При выборе SKU кластера сначала увеличьте масштаб, затем расширьте его. Начните с машины, оснащенной объемом памяти, превышающим необходимые вашей модели на 150%, выполните профилирование результата и найдите машину с необходимой вам производительностью. Как только вы это освоите, увеличьте количество компьютеров в соответствии с вашими потребностями в параллельных вычислениях.

Развертывание и оценка модели машинного обучения с помощью сетевой конечной точки.

Развертывание моделей машинного обучения в Azure.

Машинное обучение Azure вычислительные мощности (управляемые)

Машинное обучение Azure создает управляемые вычислительные ресурсы и управляет ими. Этот тип вычислений оптимизирован для рабочих нагрузок машинного обучения. Управляемыми вычислительными ресурсами являются только кластеры вычислений Машинное обучение Azure, бессерверные вычисления и экземпляры вычислений.

Вам не нужно создавать бессерверные вычисления. Вы можете создавать вычислительные экземпляры или вычислительные кластеры в Машинное обучение Azure из:

Примечание.

Вместо создания вычислительного кластера используйте бессерверные вычисления, чтобы передать управление жизненным циклом вычислений службе Машинное обучение Azure.

При создании этих вычислительных ресурсов они автоматически становятся частью рабочей области, в отличие от других типов целевых объектов вычислений.

Возможность Вычислительный кластер Вычислительный экземпляр
Кластер с одним узлом или несколькими узлами Кластер с одним узлом
Автоматическое масштабирование при каждой отправке задания
Автоматическое управление кластерами и планирование заданий
поддерживает ресурсы ЦП и GPU;

Примечание.

Чтобы избежать расходов, когда вычислительные ресурсы бездействуют, выполните следующие действия.

  • Для вычислительного кластера убедитесь, что минимальное количество узлов установлено на 0, или используйте бессерверные вычислительные ресурсы.
  • Для вычислительного экземпляравключите отключение при простое. Хотя остановка вычислительного экземпляра прекращает начисление платы за вычислительные часы, вам все равно придется платить за диск, общедоступный IP-адрес и стандартный балансировщик нагрузки.

Поддерживаемые размеры и серии виртуальных машин

Внимание

Если вычислительный экземпляр или вычислительные кластеры основаны на любой из этих серий, воссоздайте их с другим размером виртуальной машины.

Эта серия прекращена 31 августа 2023 г.:

Эта серия прекращена 31 августа 2024 г.:

Эта серия прекращена 30 сентября 2025 г.:

При выборе размера узла для управляемого вычислительного ресурса в Машинное обучение Azure можно выбрать размеры виртуальных машин, доступные в Azure. Azure предлагает диапазон размеров для Linux и Windows для разных рабочих нагрузок. Дополнительные сведения см. в разделе "Типы и размеры виртуальных машин".

При выборе размера виртуальной машины применяются некоторые исключения и ограничения.

  • Машинное обучение Azure не поддерживает некоторые серии виртуальных машин.
  • Некоторые серии виртуальных машин, такие как GPU и другие специальные номера SKU, могут не отображаться в списке доступных виртуальных машин. Однако их можно использовать после запроса изменения квоты. Дополнительные сведения о запросах квот см. в разделе "Увеличение квоты запросов и предельных ограничений".

Дополнительные сведения о поддерживаемых сериях см. в следующей таблице.

Поддерживаемые серии виртуальных машин Категория Поддерживается
Av2 Общее назначение Вычислительные кластеры и экземпляры
DDSv4 Общее назначение Вычислительные кластеры и экземпляры
Dv2 Общее назначение Вычислительные кластеры и экземпляры
Dv3 Общее назначение Вычислительные кластеры и экземпляры
DSv2 Общее назначение Вычислительные кластеры и экземпляры
DSv3 Общее назначение Вычислительные кластеры и экземпляры
EAv4 Оптимизация памяти Вычислительные кластеры и экземпляры
Ev3 Оптимизация памяти Вычислительные кластеры и экземпляры
ESv3 Оптимизация памяти Вычислительные кластеры и экземпляры
FSv2 Оптимизированные для вычислений Вычислительные кластеры и экземпляры
FX Оптимизированные для вычислений Вычислительные кластеры
H Высокопроизводительные вычисления Вычислительные кластеры и экземпляры
HB Высокопроизводительные вычисления Вычислительные кластеры и экземпляры
HBv2 Высокопроизводительные вычисления Вычислительные кластеры и экземпляры
HBv3 Высокопроизводительные вычисления Вычислительные кластеры и экземпляры
ХК Высокопроизводительные вычисления Вычислительные кластеры и экземпляры
LSv2 Оптимизированные под хранение Вычислительные кластеры и экземпляры
M Оптимизация памяти Вычислительные кластеры и экземпляры
NC GPU (K80) Вычислительные кластеры и экземпляры
Рекламные акции NC GPU (K80) Вычислительные кластеры и экземпляры
NCv2 GPU (P100) Вычислительные кластеры и экземпляры
NCv3 GPU (V100) Вычислительные кластеры и экземпляры
ND GPU (P40) Вычислительные кластеры и экземпляры
NDv2 GPU (V100) Вычислительные кластеры и экземпляры
NV GPU (M60) Вычислительные кластеры и экземпляры
NVv3 GPU (M60) Вычислительные кластеры и экземпляры
NCasT4_v3 GPU (T4) Вычислительные кластеры и экземпляры
NCads_A100_v4 GPU (A100) Вычислительные кластеры и экземпляры
NDasrA100_v4 GPU (A100) Вычислительные кластеры и экземпляры
NCads_H100_v5 GPU (H100) Вычислительные кластеры и экземпляры
ND-H100-v5 GPU (H100) Вычислительные кластеры и экземпляры
ND-H200-v5 GPU (H200) Вычислительные кластеры и экземпляры

Хотя Машинное обучение Azure поддерживает эти серии виртуальных машин, они могут быть недоступны во всех Azure регионах. Чтобы проверить, доступна ли серия виртуальных машин, ознакомьтесь со статьей Доступность продуктов по регионам.

Примечание.

Машинное обучение Azure не поддерживает все размеры виртуальных машин, которые поддерживает Azure Compute. Чтобы получить список доступных размеров виртуальных машин, используйте следующий метод:

Примечание.

Машинное обучение Azure не поддерживает все размеры виртуальных машин, которые поддерживает Azure Compute. Чтобы получить список доступных размеров виртуальных машин, поддерживаемых определенными типами вычислительных виртуальных машин, используйте один из следующих методов:

Если вы используете целевые объекты вычислений с поддержкой GPU, убедитесь, что в среде обучения установлены правильные драйверы CUDA. Воспользуйтесь следующей таблицей, чтобы определить правильную версию CUDA:

Архитектура GPU Azure серии виртуальных машин Поддерживаемые версии CUDA
Бункер NCadsH100_v5, ND-H100-v5, ND-H200-v5 12.0+
Ампер NDA100_v4, NCA100_v4 11.0+
Турин NCT4_v3 10.0+
Вольта NCv3, NDv2 9.0+
Паскаль NCv2, ND 9.0+
Максвелл NV, NVv3 9.0+
Кеплер NC, NC Промо 9.0+

Помимо обеспечения совместимости версии И оборудования CUDA, также убедитесь, что версия CUDA совместима с версией платформы машинного обучения, которую вы используете:

Изоляция вычислительных ресурсов

Вычислительные ресурсы Машинного обучения Azure предоставляют размеры виртуальных машин, изолированные от определенного типа оборудования и выделенные одному клиенту. Размеры изолированных виртуальных машин лучше всего работают для рабочих нагрузок, требующих высокой степени изоляции от рабочих нагрузок других клиентов, таких как при необходимости соответствовать требованиям соответствия и нормативным требованиям. При использовании изолированного размера виртуальная машина является единственной, работающей на этом конкретном экземпляре сервера.

Текущие предложения изолированных виртуальных машин включают в себя:

  • Standard_M128ms
  • Standard_F72s_v2
  • Standard_NC24s_v3
  • Standard_NC24rs_v3 (с поддержкой RDMA)

Дополнительные сведения об изоляции см. в разделе Isolation в общедоступном облаке Azure.

Неуправляемые вычисления

Машинное обучение Azure не управляет целевым объектом вычислений unmanaged. Вы создаете этот тип целевого объекта вычислений вне Машинное обучение Azure, а затем присоединяете его к рабочей области. Вам может потребоваться выполнить дополнительные действия для поддержания неуправляемых вычислительных ресурсов или повышения производительности рабочих нагрузок машинного обучения.

Машинное обучение Azure поддерживает следующие неуправляемые типы вычислений:

  • Удаленные виртуальные машины
  • Azure HDInsight
  • Azure Databricks
  • Azure Data Lake Analytics

Дополнительные сведения см. в разделе "Управление вычислительными ресурсами".