Поделиться через


Использование оператора GPU NVIDIA в службе Azure Kubernetes (AKS)

Оператор GPU NVIDIA автоматизирует управление и развертывание всех программных компонентов NVIDIA, необходимых для подготовки GPU, включая установку драйверов, подключаемый модуль устройства NVIDIA для Kubernetes, среду выполнения контейнера NVIDIA и многое другое. Так как оператор GPU NVIDIA обрабатывает эти компоненты, не требуется отдельно устанавливать подключаемый модуль устройства NVIDIA в кластере AKS. Это также означает, что для использования оператора NVIDIA GPU на AKS следует отказаться от автоматической установки драйвера GPU.

Это важно

Программное обеспечение с открытым кодом упоминается во всей документации и примерах AKS. Программное обеспечение, которое вы развертываете, не покрывается соглашениями об уровне обслуживания AKS, ограниченной гарантией и поддержкой Azure. При использовании технологии с открытым исходным кодом вместе с AKS ознакомьтесь с вариантами поддержки, доступными от соответствующих сообществ и обслуживающих проектов для разработки плана.

Корпорация Майкрософт несет ответственность за создание пакетов с открытым кодом, которые мы развертываем в AKS. Эта ответственность включает полное управление процессами сборки, сканирования, подписывания, проверки и исправления ошибок, а также контроль над двоичными файлами в образах контейнеров. Для получения дополнительной информации см. Управление уязвимостями в AKS и Покрытие поддержки AKS.

Перед тем как начать

  • В данной статье предполагается, что у вас уже есть существующий кластер AKS. Если у вас нет кластера, создайте его с помощью Azure CLI, Azure PowerShell или портала Azure.
  • Чтобы задать --gpu-driver поле, необходимо установить Azure CLI версии 2.72.2 или более поздней версии. Чтобы узнать версию, выполните команду az --version. Если вам нужно установить или обновить, см. статью "Установка Azure CLI".

Замечание

ВМ с поддержкой GPU содержат специализированное оборудование, что обуславливает их более высокие цены и доступность в регионе. Дополнительные сведения см. в инструменте ценообразования и доступности региона.

Ограничения

Получите учетные данные для вашего кластера

Получите учетные данные для вашего кластера AKS, используя команду az aks get-credentials. Следующая команда получает учетные данные для кластера myAKSCluster в myResourceGroup группе ресурсов:

az aks get-credentials --resource-group myResourceGroup --name myAKSCluster

Замечание

Оператор GPU NVIDIA несовместим с несколькими версиями ОС в одном кластере AKS.

  1. Пропустите автоматическую установку драйвера GPU, создав пул узлов с поддержкой GPU NVIDIA с помощью команды [][az aks nodepool addaz-aks-nodepool-add] и установив для поля --gpu-driver API значение none. Указывая это поле none API при создании пула узлов, можно пропустить установку драйвера GPU по умолчанию, см. этот пример. Существующие узлы не изменяются. Вы можете уменьшить размер пула узлов до нуля, а затем увеличить обратно, чтобы изменения вступили в силу.

  2. Следуйте документации NVIDIA, чтобы установить GPU Operator.

  3. Теперь, когда вы успешно установили GPU Operator, вы можете убедиться, что ваши графические процессоры доступны для планирования и запустить рабочую нагрузку на GPU.

Замечание

Возможно, потребуется учесть дополнительные факторы при использовании оператора GPU NVIDIA и развертывании на SPOT-инстансах. Пожалуйста, обратитесь к https://github.com/NVIDIA/gpu-operator/issues/577

Дальнейшие шаги