Поделиться через


Развертывание контейнеров с поддержкой GPU завершается сбоем с ошибкой "служба недоступна"

В этой статье рассматриваются причины сбоев развертывания экземпляра контейнера Azure с поддержкой GPU и предоставляются решения.

Симптомы

При попытке развернуть контейнер с поддержкой GPU в Экземпляры контейнеров Azure (ACI) возникают следующие симптомы:

  • Отображается следующее сообщение об ошибке:

    Служба недоступна. Повторите попытку позже или обратитесь в службу поддержки, если эта проблема сохранится.

  • При проверке состояния группы контейнеров вы увидите, что состояние подготовки GPU ACI равно "Сбой", а код ошибки — ServiceUnavailable.

  • При просмотре журналов группы контейнеров вы увидите, что установка драйвера GPU завершилась сбоем или истекло время ожидания.

Причина 1. Недостаточно квоты GPU

У вашей подписки или региона недостаточно квоты GPU для развертывания группы контейнеров. Квота GPU ограничена и подвержена доступности.

Решение 1. Увеличение квоты GPU

Проверьте квоту и доступность GPU для подписки и региона, а также увеличьте квоту GPU с помощью Azure CLI или портал Azure.

Причина 2. Несовместимая конфигурация группы контейнеров

Конфигурация группы контейнеров несовместима с номером SKU GPU. Для выполнения контейнеров с поддержкой GPU требуются определенные параметры ЦП, памяти и операционной системы .

Решение 2. Обновление конфигурации группы контейнеров для сопоставления SKU GPU

Проверьте конфигурацию группы контейнеров и убедитесь, что она соответствует требованиям SKU GPU. Вы можете повторно создать или обновить конфигурацию группы контейнеров с помощью Azure CLI или портал Azure.

Проверьте доступность номеров SKU GPU, которые вы хотите использовать. Не все регионы поддерживают все номера SKU GPU. В следующей таблице показана текущая доступность номеров SKU GPU для ОС Linux.

Область/регион ОС Доступный номер SKU GPU
Восточная часть США Linux V100
Западная Европа Linux V100
западная часть США 2 Linux V100
Юго-Восточная Азия Linux V100
Центральная Индия Linux V100

Если регион не поддерживает нужный номер SKU GPU, можно выбрать другой регион или номер SKU GPU, доступный в вашем регионе.

Причина 3. Установлен неправильный драйвер gpu или набор средств

Образ контейнера не имеет правильного драйвера gpu или набора средств. Для доступа к ресурсам GPU требуются драйверы NVIDIA и библиотеки CUDA или TensorRT.

Решение 3. Установка набора средств контейнеров NVIDIA или использование базовых образов Машинное обучение Azure

Проверьте образ контейнера и убедитесь, что он имеет правильный драйвер GPU и набор средств. Вы можете установить набор средств контейнеров NVIDIA или использовать базовые образы Машинное обучение Azure для создания и запуска контейнеров с поддержкой GPU.

Причина 4. Драйверы или библиотеки NVIDIA не установлены

Образ контейнера не установлен в драйверах или библиотеках NVIDIA. Для доступа к ресурсам GPU требуются драйверы NVIDIA и библиотеки CUDA или TensorRT.

Решение 4. Использование репозитория NVIDIA GPU Cloud (NGC)

Проверьте образ контейнера и убедитесь, что у него установлены драйверы и библиотеки NVIDIA. Репозиторий NVIDIA GPU Cloud (NGC) можно использовать для поиска и извлечения предварительно созданных образов GPU с ускорением GPU для различных платформ и приложений.

Свяжитесь с нами для получения помощи

Если у вас есть вопросы или вам нужна помощь, создайте запрос в службу поддержки или обратитесь за поддержкой сообщества Azure. Вы также можете отправить отзыв о продукте в сообщество отзывов Azure.