Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Ao executar cargas de trabalho de GPU no AKS (Serviço de Kubernetes do Azure), você precisa instalar e manter vários componentes de software, incluindo o driver de GPU, o plug-in de dispositivo kubernetes e o exportador de métricas de GPU para telemetria. Esses componentes são essenciais para habilitar o agendamento de GPU, o acesso à GPU no nível do contêiner, a observabilidade do uso de recursos e o funcionamento adequado dos nós habilitados para GPU do AKS. Anteriormente, os operadores de cluster tinham que instalar esses componentes manualmente ou usar alternativas de software livre, como o Operador de GPU NVIDIA, que pode introduzir complexidade e sobrecarga operacional.
O AKS agora dá suporte a nós de GPU totalmente gerenciados (versão prévia) e instala o driver de GPU NVIDIA, o plug-in do dispositivo e o exportador de métricas do DCGM ( Data Center GPU Manager) por padrão. Esse recurso permite a criação de pool de nós de GPU em uma etapa e torna a disponibilidade de recursos de GPU no AKS tão simples quanto os nós de CPU de uso geral.
Neste artigo, você aprenderá a provisionar um pool de nós de GPU totalmente gerenciado (versão prévia) no cluster do AKS, incluindo a instalação padrão do driver de GPU NVIDIA, do plug-in do dispositivo e do exportador de métricas.
Importante
As funcionalidades em versão preliminar do AKS estão disponíveis de forma optativa e por autoatendimento. As versões prévias são fornecidas “no estado em que se encontram” e “conforme disponíveis” e são excluídas dos contratos de nível de serviço e da garantia limitada. As versões prévias do AKS são parcialmente cobertas pelo suporte ao cliente em uma base de melhor esforço. Dessa forma, esses recursos não são destinados ao uso em produção. Para obter mais informações, consulte os seguintes artigos:
Antes de começar
- Este artigo considera que você tenha um cluster do AKS. Se você não tiver um cluster, crie um usando a CLI do Azure, Azure PowerShell, ou o portal do Azure.
- Você precisa da CLI do Azure versão 2.72.2 ou posterior instalada. Para saber qual é a versão, execute
az --version. Se você precisa instalar ou atualizar, consulte Instalar a CLI do Azure. - Você precisa instalar e atualizar para a versão mais recente da
aks-previewextensão. - Você precisa registrar o sinalizador de recurso
ManagedGPUExperiencePreviewna sua assinatura.
Limitações
- Atualmente, esse recurso dá suporte apenas a tamanhos de VM (máquina virtual) habilitada para GPU da NVIDIA .
- Não há suporte para atualizar um pool de nós de uso geral para adicionar um tamanho de VM de GPU no AKS.
- Não há suporte para pools de nós do Windows com esse recurso, pois não há suporte para métricas de GPU. Ao criar pools de nós de GPU do Windows, o AKS instala e gerencia automaticamente os drivers e o plug-in do dispositivo Directx. Consulte a documentação da GPU do Windows do AKS para obter mais informações.
- Não há suporte para migrar os pools de nós de GPU de várias instâncias existentes para usar esse recurso.
- As atualizações no local para usar esse recurso nos nós habilitados para GPU existentes não têm suporte.
Observação
As VMs habilitadas para GPU contêm um hardware especializado sujeito a preços mais altos e disponibilidade da região. Para obter mais informações, confira a ferramenta preço e a disponibilidade de região.
Instalar a extensão da CLI aks-preview
Instale a extensão da CLI
aks-previewusando o comandoaz extension add.az extension add --name aks-previewAtualize a extensão para garantir que você tenha a versão mais recente usando o comando
az extension update.az extension update --name aks-preview
Registrar o sinalizador de recurso ManagedGPUExperiencePreview na assinatura
Registre o sinalizador de recurso
ManagedGPUExperiencePreviewna assinatura usando o comandoaz feature register.az feature register --namespace Microsoft.ContainerService --name ManagedGPUExperiencePreview
Obter as credenciais para o cluster
Obtenha as credenciais do cluster do AKS usando o comando
az aks get-credentials.az aks get-credentials --resource-group $RESOURCE_GROUP --name $CLUSTER_NAME
Criar um pool de nós de GPU gerenciado pelo AKS (versão prévia)
Você pode adicionar um pool de nós de GPU totalmente gerenciado (versão prévia) a um cluster do AKS existente especificando o SKU do sistema operacional e o comando --tags EnableManagedGPUExperience=true. Quando você fizer isso, o AKS instalará automaticamente o driver de GPU, o plug-in de dispositivo gpu e o exportador de métricas.
Para usar o SKU padrão do sistema operacional Ubuntu, crie o pool de nós sem especificar um SKU do sistema operacional. O pool de nós está configurado para o sistema operacional padrão com base na versão do Kubernetes do cluster.
Adicione um pool de nós ao cluster usando os comandos
az aks nodepool adde--tags EnableManagedGPUExperience=true.az aks nodepool add \ --resource‐group MyResourceGroup \ --cluster‐name MyAKSCluster \ --name gpunp \ --node‐count 1 \ --node‐vm‐size Standard_NC6s_v3 \ --node‐taints sku=gpu:NoSchedule \ --enable‐cluster‐autoscaler \ --min‐count 1 \ --max‐count 3 \ --tags EnableManagedGPUExperience=trueConfirme se os componentes de software de GPU NVIDIA gerenciados foram instalados com êxito:
az aks nodepool show \ --resource-group myResourceGroup \ --cluster-name myAKSCluster \ --name gpunp \Sua saída deve incluir os seguintes valores:
... ... "gpuInstanceProfile": … "gpuProfile": { "driver": "Install" }, ... ...
Migrar cargas de trabalho de GPU existentes para um pool de nós de GPU gerenciado pelo AKS
As atualizações no local de um pool de nós de GPU NVIDIA padrão para um pool de nós de GPU NVIDIA totalmente gerenciado (versão prévia) no seu cluster AKS não têm suporte. Recomendamos isolar e drenar seus nós de GPU existentes e reimplantar suas cargas de trabalho em um novo pool de nós habilitado para GPU com esse recurso ativado. Consulte Redimensionar pools de nós no AKS para saber mais.
Traga seu próprio driver de GPU (BYO)
Se você quiser controlar a instalação dos drivers NVIDIA ou usar o Operador de GPU NVIDIA, poderá ignorar a instalação do driver de GPU durante a criação do pool de nós. Nesse caso, a Microsoft não dá suporte nem gerencia a manutenção e a compatibilidade dos drivers NVIDIA como parte da implantação da imagem do nó. Consulte Ignorar a instalação do driver de GPU nos nós habilitados para GPU da NVIDIA no AKS para obter mais informações.
Próximas etapas
- Implante um exemplo de carga de trabalho de GPU em seus nós habilitados para GPU gerenciados pelo AKS.
- Saiba mais sobre a utilização da GPU e as métricas de desempenho do exportador gerenciado do NVIDIA DCGM em seu pool de nós de GPU.
Artigos relacionados
- Saiba mais sobre o monitoramento de integridade da GPU com o Node Problem Detector (NPD) no AKS.
- Realize inferência distribuída em múltiplos nós GPU AKS.