Что такое целевые объекты вычислений в Машинном обучении Azure?
Целевой объект вычисления – это назначенный вычислительный ресурс для выполнения сценария обучения или размещения развертывания службы. Это может быть локальный компьютер или облачный ресурс вычислений. С помощью целевых объектов вычислений можно легко менять среду вычислений, не изменяя код.
Машинное обучение Azure по-разному поддерживает разные целевые объекты вычислений. В типичном цикле разработки модели вы можете:
- Начать с разработки и экспериментирования с небольшим объемом данных. На этом этапе используйте локальную среду, например локальный компьютер или облачную виртуальную машину (ВМ) в качестве целевого объекта вычислений.
- Масштабируйте до больших данных или выполняйте распределенное обучение с помощью одной из этих обучающих вычислительных целей.
- Когда модель будет готова, разверните ее в среде веб-размещения, используя один из этих целевых объектов для вычислений развертывания.
Ресурсы вычислений, используемые для целевых объектов вычислений, присоединяются к рабочей области. Ресурсы вычислений, кроме локального компьютера, являются общими для пользователей рабочей области.
Обучение целевых объектов вычислений
По мере вертикального увеличения масштабов обучения на основе более крупных наборов данных или выполнения распределенного обучения используйте вычислительные ресурсы Машинного обучения Azure для создания одно- или многоузлового кластера, который автоматически масштабируется при каждой отправке задания. Можно также присоединить собственный ресурс вычислений, хотя поддержка может различаться в зависимости от сценария.
Целевые объекты вычислений могут использоваться повторно для разных заданий обучения. Например, после подключения удаленной виртуальной машины к вашей рабочей области ее можно многократно использовать для нескольких заданий. В конвейерах машинного обучения используйте правильный шаг конвейера для каждого целевого объекта вычислений.
Для большинства заданий можно использовать любой из приведенных ниже ресурсов для обучающего целевого объекта вычислений. Не все ресурсы можно использовать для автоматизированного машинного обучения, конвейеров машинного обучения или конструктора. Azure Databricks можно использовать в качестве учебного ресурса для локальных запусков и конвейеров машинного обучения, но не в качестве удаленного целевого объекта для других видов обучения.
Целевые объекты обучения | Автоматизированное машинное обучение | Конвейеры машинного обучения | Конструктор Машинного обучения Azure |
---|---|---|---|
Локальный компьютер | Да | ||
Вычислительный кластер Машинного обучения Azure | Да | Да | Да |
Машинное обучение Azure бессерверные вычисления | Да | Да | Да |
Вычислительная операция Машинного обучения Azure | да (с помощью пакета SDK) | Да | Да |
Kubernetes для Машинного обучения Azure | Да | Да | |
Удаленная виртуальная машина | Да | Да | |
Пулы Apache Spark (предварительная версия) | да (только в локальном режиме SDK) | Да | |
Azure Databricks | да (только в локальном режиме SDK) | Да | |
Azure Data Lake Analytics | Да | ||
Azure HDInsight | Да | ||
Пакетная служба Azure | Да |
Совет
Размер диска ОС вычислительного экземпляра составляет 120 ГБ. Если на диске заканчивается свободное место, очистите с помощью терминала по крайней мере 1–2 ГБ, прежде чем остановить или перезапустить вычислительный экземпляр.
Целевые объекты вычислений для вывода
При выполнении вывода Машинное обучение Azure создает контейнер Docker, в котором размещается модель и связанные ресурсы, необходимые для ее использования. Этот контейнер затем используется в целевом объекте вычислений.
Целевой объект вычислений, используемый для размещения модели, влияет на стоимость и доступность развернутой конечной точки. Для выбора подходящего целевого объекта вычислений используйте приведенную таблицу.
Целевой объект вычислений | Используется для | Поддержка GPU | Description |
---|---|---|---|
Машинное обучение Azure — конечные точки | Вывод в режиме реального времени Пакетный вывод |
Да | Полностью управляемые вычисления для управляемых конечных точек в режиме реального времени (управляемые сетевые конечные точки) и пакетной оценки (конечные точки пакетной службы) на бессерверных вычислительных ресурсах. |
Kubernetes для Машинного обучения Azure | Вывод в режиме реального времени Пакетный вывод |
Да | Запустите рабочие нагрузки вывода в локальных, облачных и пограничных кластерах Kubernetes. |
Целевой объект вычислений | Используется для | Поддержка GPU | Description |
---|---|---|---|
Локальная веб-служба | Тестирование и отладка | Используется для ограниченного тестирования и устранения неполадок. Аппаратное ускорение зависит от использования библиотек в локальной системе. | |
Kubernetes для Машинного обучения Azure | Вывод в реальном времени | Да | Запустите рабочие нагрузки вывода в облаке. |
Экземпляры контейнеров Azure | Вывод в режиме реального времени Рекомендуется только для разработки и тестирования. |
Используйте для небольших рабочих нагрузок на основе ЦП, которым требуется менее 48 ГБ ОЗУ. Не требует управления кластером. Подходит только для моделей размером менее 1 ГБ. Поддерживается в конструкторе. |
Примечание.
При выборе SKU кластера сначала масштабируйте и масштабируйте. Начните с компьютера с 150% ОЗУ, который требуется для вашей модели, профилируйте результат и найдите компьютер с необходимой производительностью. После этого увеличьте количество компьютеров в соответствии с объемом параллельного вывода.
Вычислительная среда Машинного обучения Azure (управляемая)
Машинное обучение Azure создает управляемые вычислительные ресурсы и управляет ими. Этот тип вычислений оптимизирован для рабочих нагрузок машинного обучения. Машинное обучение Azure вычислительных кластеров, бессерверных вычислений и вычислительных экземпляров являются единственными управляемыми вычислениями.
Нет необходимости создавать бессерверные вычисления. Вы можете создавать вычислительные экземпляры или вычислительные кластеры Машинного обучение Azure из:
- Студия машинного обучения Azure
- Пакет SDK для Python и Azure CLI:
- Шаблон Azure Resource Manager. Пример шаблона см. в Создание вычислительного кластера Машинного обучение Azure.
Примечание.
Вместо создания вычислительного кластера используйте бессерверные вычисления для разгрузки управления жизненным циклом вычислений в Машинное обучение Azure.
При создании эти ресурсы вычислений автоматически являются частью рабочей области, в отличие от других типов целевых объектов вычислений.
Возможность | Вычислительный кластер | Вычислительная операция |
---|---|---|
Кластер с одним или несколькими узлами | ✓ | Кластер с одним узлом |
Автоматическое масштабирование при каждой отправке задания | ✓ | |
Автоматическое управление кластерами и планирование заданий | ✓ | ✓ |
поддерживает ресурсы ЦП и GPU; | ✓ | ✓ |
Примечание.
Чтобы избежать расходов при простое вычислении, выполните следующие действия.
- Для вычислительного кластера убедитесь, что для минимального количества узлов задано значение 0 или бессерверные вычисления.
- Для вычислительного экземпляра включите завершение простоя. Обратите внимание на то, что при остановке вычислительного экземпляра останавливается начисление платы за часы вычислений, однако будет продолжать начисляться плата за диск, общедоступный IP-адрес и стандартную подсистему балансировки нагрузки.
Поддерживаемые размеры и серии виртуальных машин
Внимание
Если вычислительный экземпляр или вычислительные кластеры основаны на любой из этих рядов, создайте повторное создание с другим размером виртуальной машины.
Эта серия прекращена 31 августа 2023 г.:
Эта серия прекращена 31 августа 2024 г.:
При выборе размера узла для управляемого ресурса вычислений в Машинном обучении Azure, вы можете выбрать один из доступных в Azure размеров виртуальной машины. В Azure предоставлен диапазон размеров виртуальных машин Windows и Linux для разных рабочих нагрузок. Дополнительные сведения см. в статье Типы и размеры виртуальных машин.
При выборе размера виртуальной машины существует несколько исключений и ограничений.
- Некоторые серии виртуальных машин не поддерживаются в Машинном обучении Azure.
- Некоторые серии виртуальных машин, такие как GPU и другие специальные номера SKU, могут не отображаться в списке доступных виртуальных машин. Но вы по-прежнему можете использовать их после запроса на изменение квоты. Дополнительные сведения о запросах квот см. в разделе "Увеличение квоты запросов и предельных ограничений".
Дополнительные сведения о поддерживаемых сериях см. в следующей таблице.
Поддерживаемые серии виртуальных машин | Категория | Поддерживается |
---|---|---|
DDSv4 | Универсальные | Вычислительные кластеры и экземпляры |
Dv2 | Универсальные | Вычислительные кластеры и экземпляры |
Dv3 | Универсальные | Вычислительные кластеры и экземпляры |
DSv2 | Универсальные | Вычислительные кластеры и экземпляры |
DSv3 | Универсальные | Вычислительные кластеры и экземпляры |
EAv4 | Оптимизированные для памяти | Вычислительные кластеры и экземпляры |
Ev3 | Оптимизированные для памяти | Вычислительные кластеры и экземпляры |
ESv3 | Оптимизированные для памяти | Вычислительные кластеры и экземпляры |
FSv2 | Оптимизированные для вычислений | Вычислительные кластеры и экземпляры |
FX | Оптимизированные для вычислений | Вычислительные кластеры |
H | Для высокопроизводительных вычислений | Вычислительные кластеры и экземпляры |
HB | Для высокопроизводительных вычислений | Вычислительные кластеры и экземпляры |
HBv2 | Для высокопроизводительных вычислений | Вычислительные кластеры и экземпляры |
HBv3 | Для высокопроизводительных вычислений | Вычислительные кластеры и экземпляры |
HC | Для высокопроизводительных вычислений | Вычислительные кластеры и экземпляры |
LSv2 | Оптимизированные для хранилища | Вычислительные кластеры и экземпляры |
M | Оптимизированные для памяти | Вычислительные кластеры и экземпляры |
NC | GPU | Вычислительные кластеры и экземпляры |
Рекламные акции NC | GPU | Вычислительные кластеры и экземпляры |
NCv2 | GPU | Вычислительные кластеры и экземпляры |
NCv3 | GPU | Вычислительные кластеры и экземпляры |
ND | GPU | Вычислительные кластеры и экземпляры |
NDv2 | GPU | Вычислительные кластеры и экземпляры |
NV | GPU | Вычислительные кластеры и экземпляры |
NVv3 | GPU | Вычислительные кластеры и экземпляры |
NCasT4_v3 | GPU | Вычислительные кластеры и экземпляры |
NDasrA100_v4 | GPU | Вычислительные кластеры и экземпляры |
Хотя Машинное обучение Azure поддерживает эти серии виртуальных машин, они могут быть доступны не во всех регионах Azure. Чтобы проверить, доступна ли серия виртуальных машин, ознакомьтесь со статьей Доступность продуктов по регионам.
Примечание.
Машинное обучение Azure поддерживает не все размеры виртуальных машин, поддерживаемые в Вычислениях Azure. Чтобы получить список доступных размеров виртуальных машин, используйте следующий метод:
Примечание.
Машинное обучение Azure поддерживает не все размеры виртуальных машин, поддерживаемые в Вычислениях Azure. Чтобы получить список доступных размеров виртуальных машин, поддерживаемых определенными типами вычислительных виртуальных машин, используйте один из следующих методов:
Если вы используете целевые объекты вычислений с поддержкой GPU, важно убедиться, что правильные драйверы CUDA установлены в среде обучения. Воспользуйтесь следующей таблицей, чтобы определить правильную версию CUDA:
Архитектура GPU | Серия виртуальных машин Azure | Поддерживаемые версии CUDA |
---|---|---|
Ampere | NDA100_v4 | 11.0+ |
Турин | NCT4_v3 | 10.0+ |
Volta | NCv3, NDv2 | 9.0+ |
Pascal | NCv2, ND | 9.0+ |
Maxwell | NV, NVv3 | 9.0+ |
Kepler | NC, NC Promo | 9.0+ |
Помимо обеспечения совместимости версии И оборудования CUDA, также убедитесь, что версия CUDA совместима с версией платформы машинного обучения, которую вы используете:
- Для PyTorch можно проверить совместимость на странице предыдущих версий PyTorch.
- Для Tensorflow можно проверить совместимость на странице сборки Tensorflow из исходного кода.
Изоляция вычислительных ресурсов
Машинное обучение Azure предлагает размеры виртуальных машин, которые используют оборудование строго определенного типа и выделяются отдельному клиенту. Такие изолированные размеры лучше всего подходят для рабочих нагрузок, требующих высокого уровня изоляции от рабочих нагрузок других клиентов, например для обеспечения соответствия нормативным требованиям. Использование изолированного размера гарантирует, что виртуальная машина является единственной, работающей на этом конкретном экземпляре сервера.
Текущие предложения изолированных виртуальных машин включают в себя:
- Standard_M128ms
- Standard_F72s_v2
- Standard_NC24s_v3
- Standard_NC24rs_v3 (с поддержкой RDMA)
Дополнительные сведения о изоляции см. в Изоляция в общедоступном облаке Azure.
Неуправляемые вычисления
Машинное обучение Azure не управляет неуправляемым целевым объектом вычислений. Этот тип целевого объекта вычислений можно создать за пределами Машинного обучения Azure, а затем подключить его к рабочей области. Неуправляемые вычислительные ресурсы могут потребовать дополнительных шагов для поддержания или повышения производительности рабочих нагрузок машинного обучения.
Машинное обучение Azure поддерживает следующие типы неуправляемых вычислений:
- Удаленные виртуальные машины
- Azure HDInsight
- Azure Databricks
- Аналитика озера данных Azure
- Служба Azure Kubernetes
- Пул Azure Synapse Spark (не рекомендуется)
Дополнительные сведения см. в разделе "Управление вычислительными ресурсами".