Condividi tramite


Risolvere i problemi di estensione GPU per le macchine virtuali GPU in Azure Stack Edge Pro GPU

SI APPLICA A:Yes for Pro - GPU SKUAzure Stack Edge Pro - GPUYes for Pro 2 SKUAzure Stack Edge Pro 2Yes for Pro R SKUAzure Stack Edge Pro R

Questo articolo fornisce indicazioni per la risoluzione dei problemi più comuni che causano l'installazione dell'estensione GPU in una macchina virtuale GPU non riuscita in un dispositivo Azure Stack Edge Pro GPU.

Per la procedura di installazione, vedere Installare l'estensione GPU.

Nelle versioni precedenti alla 2205, l'estensione GPU Linux installa le chiavi di firma precedenti: firma e/o chiave richiesta mancante

Descrizione errore: l'estensione GPU Linux installa le chiavi di firma precedenti, impedendo il download del driver GPU richiesto. In questo caso, verrà visualizzato l'errore seguente nel syslog della macchina virtuale Linux:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

Soluzioni suggerite: sono disponibili due opzioni per attenuare questo problema:

  • Opzione 1: applicare gli aggiornamenti di Azure Stack Edge 2205 al dispositivo.

  • Opzione 2: Dopo aver creato una macchina virtuale GPU di dimensioni in NCasT4_v3 serie, installare manualmente le nuove chiavi di firma prima di installare l'estensione, quindi impostare le chiavi di firma necessarie usando la procedura descritta in Aggiornamento della chiave del repository GPG Linux CUDA | Blog tecnico NVIDIA.

    Ecco un esempio che installa le chiavi di firma in una macchina virtuale Ubuntu 1804:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

Errore di installazione dell'estensione GPU in un disco rigido virtuale Windows 2016

Descrizione dell'errore: si tratta di un problema noto nelle versioni precedenti alla 2205. L'estensione GPU richiede TLS 1.2. In questo caso, è possibile che venga visualizzato il messaggio di errore seguente:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

Dettagli aggiuntivi:

  • Controllare il log guest per l'errore associato. Per raccogliere i log guest, vedere Raccogliere i log guest per le macchine virtuali in un dispositivo Azure Stack Edge Pro GPU.
  • In una macchina virtuale Linux cercare o /var/log/waagent.log/var/log/azure/nvidia-vmext-status.
  • In una macchina virtuale Windows trovare lo stato di errore in C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
  • Esaminare il log di esecuzione completo in C:\WindowsAzure\Logs\WaAppAgent.txt.

Se l'installazione non è riuscita durante il download del pacchetto, tale errore indica che la macchina virtuale non è riuscita ad accedere alla rete pubblica per scaricare il driver.

Soluzione suggerita: usare la procedura seguente per abilitare TLS 1.2 in una macchina virtuale Windows 2016 e quindi distribuire l'estensione GPU.

  1. Eseguire il comando seguente all'interno della macchina virtuale per abilitare TLS 1.2:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. Distribuire il modello addGPUextensiontoVM.json per installare l'estensione in una macchina virtuale esistente. È possibile installare l'estensione manualmente oppure installare l'estensione dal portale di Azure.

    Nota

    La distribuzione dell'estensione è un processo a esecuzione prolungata e il completamento richiede circa 10 minuti.

Installare manualmente il driver Nvidia in RHEL 7

Descrizione dell'errore: quando si installa l'estensione GPU in una macchina virtuale RHEL 7, l'installazione potrebbe non riuscire a causa di un problema di rotazione del certificato e di una versione del driver incompatibile.

Soluzione suggerita: in questo caso, sono disponibili due opzioni:

  • Opzione 1: risolvere il problema di rotazione del certificato e quindi installare un driver Nvidia inferiore alla versione 510.

    1. Per risolvere il problema di rotazione dei certificati, eseguire il comando seguente:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. Installare un driver Nvidia inferiore alla versione 510.

  • Opzione 2: Distribuire l'estensione GPU. Usare le impostazioni seguenti quando si distribuisce l'estensione ARM:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

Le dimensioni della macchina virtuale non sono dimensioni della MACCHINA virtuale GPU

Descrizione dell'errore: una macchina virtuale GPU deve essere Standard_NC4as_T4_v3 o Standard_NC8as_T4_v3 dimensioni. Se si usano altre dimensioni della macchina virtuale, l'estensione GPU non verrà collegata.

Soluzione suggerita: creare una macchina virtuale con le dimensioni della macchina virtuale Standard_NC4as_T4_v3 o Standard_NC8as_T4_v3. Per altre informazioni, vedere Dimensioni delle macchine virtuali supportate per le macchine virtuali GPU. Per informazioni sulla specifica delle dimensioni, vedere Creare macchine virtuali GPU.

Il sistema operativo immagine non è supportato

Descrizione dell'errore: l'estensione GPU non supporta il sistema operativo installato nell'immagine della macchina virtuale.

Soluzione suggerita: preparare una nuova immagine di macchina virtuale con un sistema operativo supportato dall'estensione GPU.

Il parametro di estensione non è corretto

Descrizione dell'errore: sono state usate impostazioni di estensione non corrette durante la distribuzione dell'estensione GPU in una macchina virtuale Linux.

Soluzione suggerita: modificare il file dei parametri prima di distribuire l'estensione GPU. Per altre informazioni, vedere Installare l'estensione GPU.

Installazione dell'estensione macchina virtuale non riuscita nel download del pacchetto

Descrizione errore: il provisioning dell'estensione non è riuscito durante l'installazione dell'estensione o durante lo stato Abilita.

  1. Controllare il log guest per l'errore associato. Per raccogliere i log guest, vedere Raccogliere i log guest per le macchine virtuali in Azure Stack Edge Pro.

    In una macchina virtuale Linux:

    • Cercare in /var/log/waagent.log o /var/log/azure/nvidia-vmext-status.

    In una macchina virtuale Windows:

    • Individuare lo stato dell'errore in C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
    • Esaminare il log di esecuzione completo: C:\WindowsAzure\Logs\WaAppAgent.txt.

    Se l'installazione non è riuscita durante il download del pacchetto, questo errore indica che la macchina virtuale non è riuscita ad accedere alla rete pubblica per scaricare il driver.

Soluzione suggerita:

  1. Abilitare il calcolo su una porta connessa a Internet. Per indicazioni, vedere Creare macchine virtuali GPU.

  2. Deallocare la macchina virtuale arrestando la macchina virtuale nel portale. Per arrestare la macchina virtuale, passare a Panoramica delle macchine>virtuali e selezionare la macchina virtuale. Quindi, nella pagina delle proprietà della macchina virtuale selezionare Arresta.

  3. Creare una nuova macchina virtuale.

L'estensione macchina virtuale non è riuscita con errore dpkg is used/yum lock is used (macchina virtuale Linux)

Descrizione dell'errore: la distribuzione dell'estensione GPU in una macchina virtuale Linux non è riuscita perché è stato usato dpkg un altro processo o un altro processo ha creato un oggetto yum lock.

Soluzione suggerita: per risolvere il problema, seguire questa procedura:

  1. Per scoprire quale processo sta applicando il blocco, cercare il log \var\log\azure\nvidia-vmext-status per un errore, ad esempio "dpkg viene usato da un altro processo" o "Un'altra app contiene yum lock".

  2. Attendere il completamento del processo o terminare il processo.

  3. Installare di nuovo l'estensione GPU.

  4. Se la distribuzione dell'estensione ha esito negativo, creare una nuova macchina virtuale e assicurarsi che il blocco non sia presente prima di installare l'estensione GPU.

Passaggi successivi

Raccogliere i log guest e creare un pacchetto di supporto