Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье рассматриваются причины сбоев развертывания экземпляра контейнера Azure с поддержкой GPU и предоставляются решения.
Симптомы
При попытке развернуть контейнер с поддержкой GPU в Экземпляры контейнеров Azure (ACI) возникают следующие симптомы:
Отображается следующее сообщение об ошибке:
Служба недоступна. Повторите попытку позже или обратитесь в службу поддержки, если эта проблема сохранится.
При проверке состояния группы контейнеров вы увидите, что состояние подготовки GPU ACI равно "Сбой", а код ошибки — ServiceUnavailable.
При просмотре журналов группы контейнеров вы увидите, что установка драйвера GPU завершилась сбоем или истекло время ожидания.
Причина 1. Недостаточно квоты GPU
У вашей подписки или региона недостаточно квоты GPU для развертывания группы контейнеров. Квота GPU ограничена и подвержена доступности.
Решение 1. Увеличение квоты GPU
Проверьте квоту и доступность GPU для подписки и региона, а также увеличьте квоту GPU с помощью Azure CLI или портал Azure.
Причина 2. Несовместимая конфигурация группы контейнеров
Конфигурация группы контейнеров несовместима с номером SKU GPU. Для выполнения контейнеров с поддержкой GPU требуются определенные параметры ЦП, памяти и операционной системы .
Решение 2. Обновление конфигурации группы контейнеров для сопоставления SKU GPU
Проверьте конфигурацию группы контейнеров и убедитесь, что она соответствует требованиям SKU GPU. Вы можете повторно создать или обновить конфигурацию группы контейнеров с помощью Azure CLI или портал Azure.
Проверьте доступность номеров SKU GPU, которые вы хотите использовать. Не все регионы поддерживают все номера SKU GPU. В следующей таблице показана текущая доступность номеров SKU GPU для ОС Linux.
Область/регион | ОС | Доступный номер SKU GPU |
---|---|---|
Восточная часть США | Linux | V100 |
Западная Европа | Linux | V100 |
западная часть США 2 | Linux | V100 |
Юго-Восточная Азия | Linux | V100 |
Центральная Индия | Linux | V100 |
Если регион не поддерживает нужный номер SKU GPU, можно выбрать другой регион или номер SKU GPU, доступный в вашем регионе.
Причина 3. Установлен неправильный драйвер gpu или набор средств
Образ контейнера не имеет правильного драйвера gpu или набора средств. Для доступа к ресурсам GPU требуются драйверы NVIDIA и библиотеки CUDA или TensorRT.
Решение 3. Установка набора средств контейнеров NVIDIA или использование базовых образов Машинное обучение Azure
Проверьте образ контейнера и убедитесь, что он имеет правильный драйвер GPU и набор средств. Вы можете установить набор средств контейнеров NVIDIA или использовать базовые образы Машинное обучение Azure для создания и запуска контейнеров с поддержкой GPU.
Причина 4. Драйверы или библиотеки NVIDIA не установлены
Образ контейнера не установлен в драйверах или библиотеках NVIDIA. Для доступа к ресурсам GPU требуются драйверы NVIDIA и библиотеки CUDA или TensorRT.
Решение 4. Использование репозитория NVIDIA GPU Cloud (NGC)
Проверьте образ контейнера и убедитесь, что у него установлены драйверы и библиотеки NVIDIA. Репозиторий NVIDIA GPU Cloud (NGC) можно использовать для поиска и извлечения предварительно созданных образов GPU с ускорением GPU для различных платформ и приложений.
Свяжитесь с нами для получения помощи
Если у вас есть вопросы или вам нужна помощь, создайте запрос в службу поддержки или обратитесь за поддержкой сообщества Azure. Вы также можете отправить отзыв о продукте в сообщество отзывов Azure.