Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
При запуске рабочих нагрузок GPU в службе Azure Kubernetes (AKS) необходимо установить и поддерживать несколько программных компонентов, включая драйвер GPU, подключаемый модуль устройства Kubernetes и экспортер метрик GPU для телеметрии. Эти компоненты необходимы для активации планирования GPU, доступа к GPU на уровне контейнера, мониторинга использования ресурсов и правильного функционирования узлов с поддержкой GPU AKS. Ранее операторы кластера должны были установить эти компоненты вручную или использовать альтернативные варианты с открытым исходным кодом, такие как оператор GPU NVIDIA, который может привести к сложности и операционным издержкам.
AKS теперь поддерживает полностью управляемые узлы GPU (предварительная версия) и теперь по умолчанию устанавливает драйвер GPU NVIDIA, подключаемый модуль устройства и Data Center GPU Manager (DCGM) метрик экспортер. Эта функция обеспечивает одношаговую создание пула узлов GPU и обеспечивает доступность ресурсов GPU в AKS так же просто, как узлы ЦП общего назначения.
В этой статье вы узнаете, как подготовить полностью управляемый пул узлов GPU (предварительная версия) в кластере AKS, включая установку драйвера GPU NVIDIA, подключаемого модуля устройства и экспортера метрик.
Это важно
Предварительные версии функций AKS доступны на условиях самообслуживания и добровольного выбора. Предварительные версии предоставляются "как есть" и "при наличии". На них не распространяются соглашения об уровне обслуживания и ограниченная гарантия. Предварительные версии AKS сопровождаются частичной поддержкой клиентов на основе принципа лучших усилий. Как таковые, эти функции не предназначены для использования в производстве. Для получения дополнительной информации ознакомьтесь со следующими статьями поддержки:
Перед тем как начать
- В данной статье предполагается, что у вас уже есть существующий кластер AKS. Если у вас нет кластера, создайте его с помощью Azure CLI, Azure PowerShell или портала Azure.
- Вам потребуется установить Azure CLI версии 2.72.2 или более поздней версии. Чтобы узнать версию, выполните команду
az --version. Если вам нужно установить или обновить, см. статью "Установка Azure CLI". - Необходимо установить и обновить до последней
aks-previewверсии расширения. - Необходимо зарегистрировать флажок функции
ManagedGPUExperiencePreviewв вашей подписке.
Ограничения
- Эта функция в настоящее время поддерживает только размеры виртуальных машин с поддержкой GPU NVIDIA .
- Обновление пула узлов общего назначения для добавления размера виртуальной машины GPU не поддерживается в AKS.
- Пулы узлов Windows не поддерживаются с этой функцией, так как метрики GPU не поддерживаются. При создании пулов узлов GPU Windows AKS автоматически устанавливает и управляет драйверами и подключаемым модулем устройства Directx. Дополнительные сведения см. в документации по Windows GPU AKS.
- Перенос существующих пулов узлов GPU с несколькими экземплярами для использования данной функции не поддерживается.
- Обновление на месте для использования этой функции на существующих узлах с поддержкой GPU не поддерживается.
Замечание
ВМ с поддержкой GPU содержат специализированное оборудование, что обуславливает их более высокие цены и доступность в регионе. Дополнительные сведения см. в инструменте ценообразования и доступности региона.
aks-preview Установка расширения CLI
aks-previewУстановите расширение CLI с помощьюaz extension addкоманды.az extension add --name aks-previewОбновите расширение, чтобы убедиться, что установлена последняя версия с помощью
az extension updateкоманды.az extension update --name aks-preview
Зарегистрируйте флаг функции ManagedGPUExperiencePreview в вашей подписке
Зарегистрируйте флаг функции в вашей подписке с помощью команды
ManagedGPUExperiencePreview.az feature register --namespace Microsoft.ContainerService --name ManagedGPUExperiencePreview
Получите учетные данные для вашего кластера
Получите учетные данные для вашего кластера AKS, используя команду
az aks get-credentials.az aks get-credentials --resource-group $RESOURCE_GROUP --name $CLUSTER_NAME
Создание пула узлов GPU, управляемого AKS (предварительная версия)
Вы можете добавить полностью управляемый пул узлов GPU (предварительный просмотр) в существующий кластер AKS, указав SKU ОС и команду --tags EnableManagedGPUExperience=true. Когда вы это делаете, AKS автоматически установит драйвер GPU, плагин устройства GPU и экспортер метрик.
Чтобы использовать номер SKU операционной системы Ubuntu (OS) по умолчанию, создайте пул узлов без указания номера SKU ОС. Пул узлов настроен для операционной системы по умолчанию на основе версии Kubernetes кластера.
Добавьте пул узлов в кластер, используя команду
az aks nodepool addс командой--tags EnableManagedGPUExperience=true.az aks nodepool add \ --resource‐group MyResourceGroup \ --cluster‐name MyAKSCluster \ --name gpunp \ --node‐count 1 \ --node‐vm‐size Standard_NC6s_v3 \ --node‐taints sku=gpu:NoSchedule \ --enable‐cluster‐autoscaler \ --min‐count 1 \ --max‐count 3 \ --tags EnableManagedGPUExperience=trueУбедитесь, что управляемые компоненты программного обеспечения GPU NVIDIA успешно установлены:
az aks nodepool show \ --resource-group myResourceGroup \ --cluster-name myAKSCluster \ --name gpunp \Выходные данные должны содержать следующие значения:
... ... "gpuInstanceProfile": … "gpuProfile": { "driver": "Install" }, ... ...
Перенос существующих рабочих нагрузок GPU в пул узлов GPU, управляемый AKS
Обновление на месте с помощью стандартного пула узлов GPU NVIDIA до полностью управляемого пула узлов GPU NVIDIA (предварительная версия) в кластере AKS не поддерживается. Мы рекомендуем изолировать и разгружать существующие узлы GPU, а затем повторно развернуть задачи в новом пуле узлов с поддержкой GPU. Дополнительные сведения см. в статье "Изменение размера пулов узлов" в AKS .
Приносите свой драйвер GPU (BYO)
Если вы хотите контролировать установку драйверов NVIDIA или использовать оператор GPU NVIDIA, можно обойти установку драйвера GPU во время создания пула узлов. В этом случае корпорация Майкрософт не поддерживает или управляет обслуживанием и совместимостью драйверов NVIDIA в процессе развертывания образа узла. Дополнительные сведения см. в статье "Пропустить установку драйвера GPU для узлов с поддержкой GPU NVIDIA" в AKS.
Дальнейшие шаги
- Разверните пример рабочей нагрузки GPU на узлах AKS с поддержкой GPU.
- Узнайте об использовании GPU и метриках производительности из управляемого экспортера NVIDIA DCGM в пуле узлов GPU.
Связанные статьи
- Узнайте о мониторинге работоспособности GPU с помощью детектора проблем с узлами (NPD) в AKS.
- Запустите распределённую инференцию на нескольких узлах GPU AKS.