Compartilhar via


Criar um pool de nós de GPU totalmente gerenciado no AKS (Serviço de Kubernetes do Azure) (versão prévia)

Ao executar cargas de trabalho de GPU no AKS (Serviço de Kubernetes do Azure), você precisa instalar e manter vários componentes de software, incluindo o driver de GPU, o plug-in de dispositivo kubernetes e o exportador de métricas de GPU para telemetria. Esses componentes são essenciais para habilitar o agendamento de GPU, o acesso à GPU no nível do contêiner, a observabilidade do uso de recursos e o funcionamento adequado dos nós habilitados para GPU do AKS. Anteriormente, os operadores de cluster tinham que instalar esses componentes manualmente ou usar alternativas de software livre, como o Operador de GPU NVIDIA, que pode introduzir complexidade e sobrecarga operacional.

O AKS agora dá suporte a nós de GPU totalmente gerenciados (versão prévia) e instala o driver de GPU NVIDIA, o plug-in do dispositivo e o exportador de métricas do DCGM ( Data Center GPU Manager) por padrão. Esse recurso permite a criação de pool de nós de GPU em uma etapa e torna a disponibilidade de recursos de GPU no AKS tão simples quanto os nós de CPU de uso geral.

Neste artigo, você aprenderá a provisionar um pool de nós de GPU totalmente gerenciado (versão prévia) no cluster do AKS, incluindo a instalação padrão do driver de GPU NVIDIA, do plug-in do dispositivo e do exportador de métricas.

Importante

As funcionalidades em versão preliminar do AKS estão disponíveis de forma optativa e por autoatendimento. As versões prévias são fornecidas “no estado em que se encontram” e “conforme disponíveis” e são excluídas dos contratos de nível de serviço e da garantia limitada. As versões prévias do AKS são parcialmente cobertas pelo suporte ao cliente em uma base de melhor esforço. Dessa forma, esses recursos não são destinados ao uso em produção. Para obter mais informações, consulte os seguintes artigos:

Antes de começar

Limitações

  • Atualmente, esse recurso dá suporte apenas a tamanhos de VM (máquina virtual) habilitada para GPU da NVIDIA .
  • Não há suporte para atualizar um pool de nós de uso geral para adicionar um tamanho de VM de GPU no AKS.
  • Não há suporte para pools de nós do Windows com esse recurso, pois não há suporte para métricas de GPU. Ao criar pools de nós de GPU do Windows, o AKS instala e gerencia automaticamente os drivers e o plug-in do dispositivo Directx. Consulte a documentação da GPU do Windows do AKS para obter mais informações.
  • Não há suporte para migrar os pools de nós de GPU de várias instâncias existentes para usar esse recurso.
  • As atualizações no local para usar esse recurso nos nós habilitados para GPU existentes não têm suporte.

Observação

As VMs habilitadas para GPU contêm um hardware especializado sujeito a preços mais altos e disponibilidade da região. Para obter mais informações, confira a ferramenta preço e a disponibilidade de região.

Instalar a extensão da CLI aks-preview

  1. Instale a extensão da CLI aks-preview usando o comando az extension add.

    az extension add --name aks-preview
    
  2. Atualize a extensão para garantir que você tenha a versão mais recente usando o comando az extension update.

    az extension update --name aks-preview
    

Registrar o sinalizador de recurso ManagedGPUExperiencePreview na assinatura

  • Registre o sinalizador de recurso ManagedGPUExperiencePreview na assinatura usando o comando az feature register.

    az feature register --namespace Microsoft.ContainerService --name ManagedGPUExperiencePreview
    

Obter as credenciais para o cluster

  • Obtenha as credenciais do cluster do AKS usando o comando az aks get-credentials.

    az aks get-credentials --resource-group $RESOURCE_GROUP --name $CLUSTER_NAME
    

Criar um pool de nós de GPU gerenciado pelo AKS (versão prévia)

Você pode adicionar um pool de nós de GPU totalmente gerenciado (versão prévia) a um cluster do AKS existente especificando o SKU do sistema operacional e o comando --tags EnableManagedGPUExperience=true. Quando você fizer isso, o AKS instalará automaticamente o driver de GPU, o plug-in de dispositivo gpu e o exportador de métricas.

Para usar o SKU padrão do sistema operacional Ubuntu, crie o pool de nós sem especificar um SKU do sistema operacional. O pool de nós está configurado para o sistema operacional padrão com base na versão do Kubernetes do cluster.

  1. Adicione um pool de nós ao cluster usando os comandos az aks nodepool add e --tags EnableManagedGPUExperience=true.

    az aks nodepool add \
        --resource‐group MyResourceGroup \
        --cluster‐name MyAKSCluster \
        --name gpunp \
        --node‐count 1 \
        --node‐vm‐size Standard_NC6s_v3 \
        --node‐taints sku=gpu:NoSchedule \
        --enable‐cluster‐autoscaler \
        --min‐count 1 \
        --max‐count 3 \
        --tags EnableManagedGPUExperience=true
    
  2. Confirme se os componentes de software de GPU NVIDIA gerenciados foram instalados com êxito:

    az aks nodepool show \
        --resource-group myResourceGroup \
        --cluster-name myAKSCluster \
        --name gpunp \
    

    Sua saída deve incluir os seguintes valores:

    ...
    ...
    "gpuInstanceProfile": …
        "gpuProfile": {
            "driver": "Install"
        },
    ...
    ...
    

Migrar cargas de trabalho de GPU existentes para um pool de nós de GPU gerenciado pelo AKS

As atualizações no local de um pool de nós de GPU NVIDIA padrão para um pool de nós de GPU NVIDIA totalmente gerenciado (versão prévia) no seu cluster AKS não têm suporte. Recomendamos isolar e drenar seus nós de GPU existentes e reimplantar suas cargas de trabalho em um novo pool de nós habilitado para GPU com esse recurso ativado. Consulte Redimensionar pools de nós no AKS para saber mais.

Traga seu próprio driver de GPU (BYO)

Se você quiser controlar a instalação dos drivers NVIDIA ou usar o Operador de GPU NVIDIA, poderá ignorar a instalação do driver de GPU durante a criação do pool de nós. Nesse caso, a Microsoft não dá suporte nem gerencia a manutenção e a compatibilidade dos drivers NVIDIA como parte da implantação da imagem do nó. Consulte Ignorar a instalação do driver de GPU nos nós habilitados para GPU da NVIDIA no AKS para obter mais informações.

Próximas etapas