Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O Operador de GPU NVIDIA automatiza o gerenciamento e a implantação de todos os componentes de software NVIDIA necessários para provisionar a GPU, incluindo a instalação do driver, o plug-in de dispositivo NVIDIA para Kubernetes, o runtime de contêiner NVIDIA e muito mais. Como o Operador de GPU NVIDIA manipula esses componentes, não é necessário instalar separadamente o plug-in de dispositivo NVIDIA no cluster do AKS. Isso também significa que a instalação automática do driver de GPU deve ser ignorada para usar o Operador de GPU NVIDIA no AKS.
Importante
O software de código aberto é mencionado em toda a documentação e amostras do AKS. O software que você implanta está excluído dos contratos de nível de serviço do AKS, garantia limitada e suporte do Azure. Ao usar tecnologia de código aberto junto com o AKS, consulte as opções de suporte disponíveis nas comunidades e mantenedores de projetos respectivos para desenvolver um plano.
A Microsoft assume a responsabilidade por criar os pacotes de código aberto que implantamos no AKS. Essa responsabilidade inclui ter propriedade completa do processo de criação, verificação, sinalização, validação e hotfix, junto com o controle sobre os binários em imagens de contêiner. Para obter mais informações, confira Gerenciamento de vulnerabilidades para o AKS e Cobertura de suporte do AKS.
Antes de começar
- Este artigo considera que você tenha um cluster do AKS. Se você não tiver um cluster, crie um usando a CLI do Azure, Azure PowerShell, ou o portal do Azure.
- Você precisa da CLI do Azure versão 2.72.2 ou posterior instalada para definir o
--gpu-drivercampo. Executeaz --versionpara encontrar a versão. Se você precisa instalar ou atualizar, consulte Instalar a CLI do Azure.
Observação
As VMs habilitadas para GPU contêm um hardware especializado sujeito a preços mais altos e disponibilidade da região. Para obter mais informações, confira a ferramenta preço e a disponibilidade de região.
Limitações
- O Operador de GPU NVIDIA não é suportado para as seguintes opções de sistema operacional: versões do Windows Server, Flatcar Container Linux para AKS (versão prévia) e Azure Linux com o OS Guard para AKS (versão prévia).
Obter as credenciais para o cluster
Obtenha as credenciais do cluster do AKS usando o comando az aks get-credentials. O seguinte comando de exemplo obtém as credenciais do cluster myAKSCluster no myResourceGroup grupo de recursos:
az aks get-credentials --resource-group myResourceGroup --name myAKSCluster
Observação
O Operador de GPU NVIDIA não é compatível com várias versões do sistema operacional no mesmo cluster do AKS.
Pule a instalação automática do driver de GPU criando um pool de nós habilitado para GPU NVIDIA usando o comando [
az aks nodepool add][az-aks-nodepool-add] e definindo o campo de API--gpu-driverpara o valornone. A definição desse campo de API comononedurante a criação do pool de nós pula a instalação padrão do driver de GPU, confira este exemplo. Os nós existentes não são alterados. Você pode dimensionar o pool de nós para zero e fazer backup para fazer a alteração entrar em vigor.Siga a documentação da NVIDIA para instalar o operador de GPU.
Agora que você instalou com êxito o Operador GPU, você pode verificar se suas GPUs são programáveis e executar uma carga de trabalho de GPU.
Observação
Pode haver considerações adicionais a serem feitas ao usar o Operador de GPU NVIDIA e implantar em instâncias SPOT. Consulte https://github.com/NVIDIA/gpu-operator/issues/577
Próximas etapas
- Monitore as métricas de GPU da NVIDIA usando o Prometheus Gerenciado do Azure e o Grafana Gerenciado do Azure.
- Saiba mais sobre clusters Ray no AKS.