Solucionar problemas de extensão de GPU para VMs de GPU na GPU do Azure Stack Edge Pro
APLICA-SE A: Azure Stack Edge Pro - GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
Este artigo fornece orientação para resolver os problemas mais comuns que fazem com que a instalação da extensão GPU em uma VM GPU falhe em um dispositivo GPU Azure Stack Edge Pro.
Para conhecer as etapas de instalação, consulte Instalar extensão GPU.
Em versões inferiores a 2205, a extensão GPU Linux instala chaves de assinatura antigas: assinatura e/ou chave necessária ausente
Descrição do erro: A extensão GPU Linux instala chaves de assinatura antigas, impedindo o download do driver de GPU necessário. Nesse caso, você verá o seguinte erro no syslog da VM Linux:
/var/log/syslog and /var/log/waagent.log
May 5 06:04:53 gpuvm12 kernel: [ 833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel
Soluções sugeridas: você tem duas opções para mitigar esse problema:
Opção 1: Aplique as atualizações do Azure Stack Edge 2205 ao seu dispositivo.
Opção 2: Depois de criar uma máquina virtual GPU de tamanho na série NCasT4_v3, instale manualmente as novas chaves de assinatura antes de instalar a extensão e, em seguida, defina as chaves de assinatura necessárias usando as etapas em Atualizando a chave do repositório CUDA Linux GPG | Blog técnico da NVIDIA.
Aqui está um exemplo que instala chaves de assinatura em uma máquina virtual Ubuntu 1804:
$ sudo apt-key adv --fetch- keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub
Falha ao instalar a extensão GPU em um VHD do Windows 2016
Descrição do erro: Este é um problema conhecido em versões inferiores a 2205. A extensão GPU requer TLS 1.2. Nesse caso, você verá a seguinte mensagem de erro:
Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!
Detalhes adicionais:
- Verifique o log de convidado para o erro associado. Para coletar os logs de convidado, consulte Coletar logs de convidado para VMs em um dispositivo de GPU do Azure Stack Edge Pro.
- Em uma VM Linux, procure ou
/var/log/waagent.log
/var/log/azure/nvidia-vmext-status
. - Em uma VM do Windows, localize o status do erro em
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
. - Revise o log de execução completo .
C:\WindowsAzure\Logs\WaAppAgent.txt
Se a instalação falhou durante o download do pacote, esse erro indica que a VM não pôde acessar a rede pública para baixar o driver.
Solução sugerida: use as etapas a seguir para habilitar o TLS 1.2 em uma VM do Windows 2016 e implante a extensão da GPU.
Execute o seguinte comando dentro da VM para habilitar o TLS 1.2:
sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
Implante o modelo
addGPUextensiontoVM.json
para instalar a extensão em uma VM existente. Você pode instalar a extensão manualmente ou pode instalá-la a partir do portal do Azure.- Para instalar a extensão manualmente, consulte Instalar extensão de GPU em VMs para seu dispositivo GPU Azure Stack Edge Pro
- Para instalar o modelo usando o portal do Azure, consulte Implantar VMs de GPU em seu dispositivo de GPU Azure Stack Edge Pro.
Nota
A implantação da extensão é um trabalho de longa execução e leva cerca de 10 minutos para ser concluída.
Instale manualmente o driver Nvidia no RHEL 7
Descrição do erro: Ao instalar a extensão GPU em uma VM RHEL 7, a instalação pode falhar devido a um problema de rotação de certificado e uma versão de driver incompatível.
Solução sugerida: Neste caso, você tem duas opções:
Opção 1: Resolva o problema de rotação do certificado e, em seguida, instale um driver Nvidia inferior à versão 510.
Para resolver o problema de rotação de certificados, execute o seguinte comando:
$ sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
Instale um driver Nvidia inferior à versão 510.
Opção 2: Implante a extensão da GPU. Use as seguintes configurações ao implantar a extensão ARM:
settings": { "isCustomInstall": true, "InstallMethod": 0, "DRIVER_URL": " https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", "DKMS_URL" : " https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", "LIS_URL": " https://aka.ms/lis", "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" }
O tamanho da VM não é o tamanho da VM da GPU
Descrição do erro: Uma VM GPU deve ter Standard_NC4as_T4_v3 ou Standard_NC8as_T4_v3 tamanho. Se qualquer outro tamanho de VM for usado, a extensão da GPU não será anexada.
Solução sugerida: crie uma VM com o tamanho Standard_NC4as_T4_v3 ou Standard_NC8as_T4_v3 VM. Para obter mais informações, consulte Tamanhos de VM suportados para VMs GPU. Para obter informações sobre como especificar o tamanho, consulte Criar VMs de GPU.
O SO de imagem não é suportado
Descrição do erro: A extensão GPU não suporta o sistema operacional instalado na imagem da VM.
Solução sugerida: prepare uma nova imagem de VM que tenha um sistema operacional suportado pela extensão GPU.
Para obter uma lista de sistemas operacionais suportados, consulte Drivers de SO e GPU suportados para VMs GPU.
Para obter os requisitos de preparação de imagem para uma VM GPU, consulte Criar VMs GPU.
O parâmetro de extensão está incorreto
Descrição do erro: Configurações de extensão incorretas foram usadas ao implantar a extensão GPU em uma VM Linux.
Solução sugerida: edite o arquivo de parâmetros antes de implantar a extensão GPU. Para obter mais informações, consulte Instalar extensão GPU.
Falha na instalação da extensão VM ao baixar o pacote
Descrição do erro: O provisionamento da extensão falhou durante a instalação da extensão ou enquanto estava no estado Ativar.
Verifique o log de convidado para o erro associado. Para coletar os logs de convidado, consulte Coletar logs de convidado para VMs em um Azure Stack Edge Pro.
Em uma VM Linux:
- Olhe para dentro
/var/log/waagent.log
ou/var/log/azure/nvidia-vmext-status
.
Em uma VM do Windows:
- Descubra o status do erro em
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
. - Revise o log de execução completo:
C:\WindowsAzure\Logs\WaAppAgent.txt
.
Se a instalação falhou durante o download do pacote, esse erro indica que a VM não pôde acessar a rede pública para baixar o driver.
- Olhe para dentro
Solução sugerida:
Habilite a computação em uma porta conectada à Internet. Para obter orientações, consulte Criar VMs GPU.
Desaloque a VM interrompendo a VM no portal. Para parar a VM, vá para Visão geral das máquinas>virtuais e selecione a VM. Em seguida, na página de propriedades da VM, selecione Parar.
Crie uma nova VM.
Falha na extensão da VM com erro dpkg is used/yum lock is used
(VM Linux)
Descrição do erro: A implantação da extensão GPU em uma VM Linux falhou porque outro processo estava usando dpkg
ou outro processo criou um yum lock
arquivo .
Solução sugerida: para resolver o problema, siga estas etapas:
Para descobrir qual processo está aplicando o bloqueio, pesquise no log \var\log\azure\nvidia-vmext-status por um erro como "dpkg is used by another process" ou "Another app is holding
yum lock
".Aguarde a conclusão do processo ou termine o processo.
Instale a extensão GPU novamente.
Se a implantação da extensão falhar novamente, crie uma nova VM e verifique se o bloqueio não está presente antes de instalar a extensão da GPU.