Compartilhar via


Usar o operador de GPU NVIDIA no AKS (Serviço de Kubernetes do Azure)

O Operador de GPU NVIDIA automatiza o gerenciamento e a implantação de todos os componentes de software NVIDIA necessários para provisionar a GPU, incluindo a instalação do driver, o plug-in de dispositivo NVIDIA para Kubernetes, o runtime de contêiner NVIDIA e muito mais. Como o Operador de GPU NVIDIA manipula esses componentes, não é necessário instalar separadamente o plug-in de dispositivo NVIDIA no cluster do AKS. Isso também significa que a instalação automática do driver de GPU deve ser ignorada para usar o Operador de GPU NVIDIA no AKS.

Importante

O software de código aberto é mencionado em toda a documentação e amostras do AKS. O software que você implanta está excluído dos contratos de nível de serviço do AKS, garantia limitada e suporte do Azure. Ao usar tecnologia de código aberto junto com o AKS, consulte as opções de suporte disponíveis nas comunidades e mantenedores de projetos respectivos para desenvolver um plano.

A Microsoft assume a responsabilidade por criar os pacotes de código aberto que implantamos no AKS. Essa responsabilidade inclui ter propriedade completa do processo de criação, verificação, sinalização, validação e hotfix, junto com o controle sobre os binários em imagens de contêiner. Para obter mais informações, confira Gerenciamento de vulnerabilidades para o AKS e Cobertura de suporte do AKS.

Antes de começar

  • Este artigo considera que você tenha um cluster do AKS. Se você não tiver um cluster, crie um usando a CLI do Azure, Azure PowerShell, ou o portal do Azure.
  • Você precisa da CLI do Azure versão 2.72.2 ou posterior instalada para definir o --gpu-driver campo. Execute az --version para encontrar a versão. Se você precisa instalar ou atualizar, consulte Instalar a CLI do Azure.

Observação

As VMs habilitadas para GPU contêm um hardware especializado sujeito a preços mais altos e disponibilidade da região. Para obter mais informações, confira a ferramenta preço e a disponibilidade de região.

Limitações

Obter as credenciais para o cluster

Obtenha as credenciais do cluster do AKS usando o comando az aks get-credentials. O seguinte comando de exemplo obtém as credenciais do cluster myAKSCluster no myResourceGroup grupo de recursos:

az aks get-credentials --resource-group myResourceGroup --name myAKSCluster

Observação

O Operador de GPU NVIDIA não é compatível com várias versões do sistema operacional no mesmo cluster do AKS.

  1. Pule a instalação automática do driver de GPU criando um pool de nós habilitado para GPU NVIDIA usando o comando [az aks nodepool add][az-aks-nodepool-add] e definindo o campo de API --gpu-driver para o valor none. A definição desse campo de API como none durante a criação do pool de nós pula a instalação padrão do driver de GPU, confira este exemplo. Os nós existentes não são alterados. Você pode dimensionar o pool de nós para zero e fazer backup para fazer a alteração entrar em vigor.

  2. Siga a documentação da NVIDIA para instalar o operador de GPU.

  3. Agora que você instalou com êxito o Operador GPU, você pode verificar se suas GPUs são programáveis e executar uma carga de trabalho de GPU.

Observação

Pode haver considerações adicionais a serem feitas ao usar o Operador de GPU NVIDIA e implantar em instâncias SPOT. Consulte https://github.com/NVIDIA/gpu-operator/issues/577

Próximas etapas