Dela via


Felsöka GPU-tilläggsproblem för virtuella GPU-datorer på Azure Stack Edge Pro GPU

GÄLLER FÖR:Yes for Pro - GPU SKUAzure Stack Edge Pro – GPUYes for Pro 2 SKUAzure Stack Edge Pro 2Yes for Pro R SKUAzure Stack Edge Pro R

Den här artikeln ger vägledning för att lösa de vanligaste problemen som gör att installationen av GPU-tillägget på en virtuell GPU-dator misslyckas på en Azure Stack Edge Pro GPU-enhet.

Installationssteg finns i Installera GPU-tillägget.

I versioner som är lägre än 2205 installerar Linux GPU-tillägget gamla signeringsnycklar: signatur och/eller nödvändig nyckel saknas

Felbeskrivning: Linux GPU-tillägget installerar gamla signeringsnycklar, vilket förhindrar nedladdning av den nödvändiga GPU-drivrutinen. I det här fallet visas följande fel i syslog för den virtuella Linux-datorn:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

Föreslagna lösningar: Du har två alternativ för att åtgärda problemet:

  • Alternativ 1: Tillämpa Azure Stack Edge 2205-uppdateringarna på enheten.

  • Alternativ 2: När du har skapat en virtuell GPU-dator med storlek i NCasT4_v3-serien installerar du de nya signeringsnycklarna manuellt innan du installerar tillägget och anger sedan nödvändiga signeringsnycklar med hjälp av stegen i Uppdatera CUDA Linux GPG-lagringsnyckeln | NVIDIA Technical Blog.

    Här är ett exempel som installerar signeringsnycklar på en virtuell Ubuntu 1804-dator:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

Det gick inte att installera GPU-tillägget på en virtuell hårddisk i Windows 2016

Felbeskrivning: Det här är ett känt problem i versioner som är lägre än 2205. GPU-tillägget kräver TLS 1.2. I det här fallet kan följande felmeddelande visas:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

Ytterligare information:

  • Kontrollera gästloggen för det associerade felet. Information om hur du samlar in gästloggarna finns i Samla in gästloggar för virtuella datorer på en Azure Stack Edge Pro GPU-enhet.
  • På en virtuell Linux-dator tittar du i /var/log/waagent.log eller /var/log/azure/nvidia-vmext-status.
  • På en virtuell Windows-dator hittar du felstatusen i C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
  • Granska den fullständiga körningsloggen i C:\WindowsAzure\Logs\WaAppAgent.txt.

Om installationen misslyckades under pakethämtningen anger det felet att den virtuella datorn inte kunde komma åt det offentliga nätverket för att ladda ned drivrutinen.

Föreslagen lösning: Använd följande steg för att aktivera TLS 1.2 på en virtuell Windows 2016-dator och distribuera sedan GPU-tillägget.

  1. Kör följande kommando på den virtuella datorn för att aktivera TLS 1.2:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. Distribuera mallen addGPUextensiontoVM.json för att installera tillägget på en befintlig virtuell dator. Du kan installera tillägget manuellt, eller så kan du installera tillägget från Azure-portalen.

    Kommentar

    Tilläggsdistributionen är ett tidskrävande jobb och tar cirka 10 minuter att slutföra.

Installera Nvidia-drivrutinen manuellt på RHEL 7

Felbeskrivning: När du installerar GPU-tillägget på en virtuell RHEL 7-dator kan installationen misslyckas på grund av ett certifikatrotationsproblem och en inkompatibel drivrutinsversion.

Föreslagen lösning: I det här fallet har du två alternativ:

  • Alternativ 1: Lös problemet med certifikatrotation och installera sedan en Nvidia-drivrutin som är lägre än version 510.

    1. Lös problemet med certifikatrotation genom att köra följande kommando:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. Installera en Nvidia-drivrutin som är lägre än version 510.

  • Alternativ 2: Distribuera GPU-tillägget. Använd följande inställningar när du distribuerar ARM-tillägget:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

VM-storleken är inte GPU VM-storlek

Felbeskrivning: En virtuell GPU-dator måste vara antingen Standard_NC4as_T4_v3 eller Standard_NC8as_T4_v3 storlek. Om någon annan VM-storlek används kan GPU-tillägget inte kopplas.

Föreslagen lösning: Skapa en virtuell dator med Standard_NC4as_T4_v3 eller Standard_NC8as_T4_v3 VM-storlek. Mer information finns i Vm-storlekar som stöds för virtuella GPU-datorer. Information om hur du anger storleken finns i Skapa virtuella GPU-datorer.

Avbildningsoperativsystem stöds inte

Felbeskrivning: GPU-tillägget stöder inte det operativsystem som är installerat på den virtuella datorns avbildning.

Föreslagen lösning: Förbereda en ny VM-avbildning som har ett operativsystem som GPU-tillägget stöder.

Tilläggsparametern är felaktig

Felbeskrivning: Felaktiga tilläggsinställningar användes när GPU-tillägget distribuerades på en virtuell Linux-dator.

Föreslagen lösning: Redigera parameterfilen innan du distribuerar GPU-tillägget. Mer information finns i Installera GPU-tillägget.

Installationen av VM-tillägget misslyckades vid nedladdning av paketet

Felbeskrivning: Tilläggsetablering misslyckades under tilläggsinstallationen eller under aktiveringstillståndet.

  1. Kontrollera gästloggen för det associerade felet. Information om hur du samlar in gästloggarna finns i Samla in gästloggar för virtuella datorer på en Azure Stack Edge Pro.

    På en virtuell Linux-dator:

    • Titta in /var/log/waagent.log eller /var/log/azure/nvidia-vmext-status.

    På en virtuell Windows-dator:

    • Ta reda på felstatusen i C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
    • Granska den fullständiga körningsloggen: C:\WindowsAzure\Logs\WaAppAgent.txt.

    Om installationen misslyckades under paketnedladdningen anger det felet att den virtuella datorn inte kunde komma åt det offentliga nätverket för att ladda ned drivrutinen.

Föreslagen lösning:

  1. Aktivera beräkning på en port som är ansluten till Internet. Vägledning finns i Skapa virtuella GPU-datorer.

  2. Frigör den virtuella datorn genom att stoppa den virtuella datorn i portalen. Om du vill stoppa den virtuella datorn går du till Översikt över virtuella datorer>och väljer den virtuella datorn. Välj sedan Stoppa på sidan egenskaper för den virtuella datorn.

  3. Skapa en ny virtuell dator.

VM-tillägget misslyckades med fel dpkg is used/yum lock is used (virtuell Linux-dator)

Felbeskrivning: GPU-tilläggsdistributionen på en virtuell Linux-dator misslyckades eftersom en annan process använde dpkg eller en annan process har skapat en yum lock.

Föreslagen lösning: Lös problemet genom att göra följande:

  1. Om du vill ta reda på vilken process som tillämpar låset söker du i loggen \var\log\azure\nvidia-vmext-status efter ett fel som "dpkg används av en annan process" eller "En annan app håller " yum lock.

  2. Vänta antingen tills processen har slutförts eller avsluta processen.

  3. Installera GPU-tillägget igen.

  4. Om tilläggsdistributionen misslyckas igen skapar du en ny virtuell dator och kontrollerar att låset inte finns innan du installerar GPU-tillägget.

Nästa steg

Samla in gästloggar och skapa ett supportpaket