Share via


GPU-bővítményekkel kapcsolatos problémák elhárítása GPU-virtuális gépekhez az Azure Stack Edge Pro GPU-n

A következőre vonatkozik:Yes for Pro - GPU SKU Azure Stack Edge Pro – GPUYes for Pro 2 SKUAzure Stack Edge Pro 2Yes for Pro R SKUAzure Stack Edge Pro R

Ez a cikk útmutatást nyújt azoknak a leggyakoribb problémáknak a megoldásához, amelyek miatt a GPU-bővítmény gpu-alapú virtuális gépen való telepítése meghiúsul egy Azure Stack Edge Pro GPU-eszközön.

A telepítés lépéseit a GPU-bővítmény telepítése című témakörben találja.

A 2205-ösnél kisebb verziókban a Linux GPU-bővítmény régi aláírókulcsokat telepít: az aláírás és/vagy a szükséges kulcs hiányzik

Hiba leírása: A Linux GPU-bővítmény régi aláírókulcsokat telepít, megakadályozva a szükséges GPU-illesztőprogram letöltését. Ebben az esetben a következő hibaüzenet jelenik meg a Linux rendszerű virtuális gép syslogjában:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

Javasolt megoldások: Két lehetősége van a probléma megoldására:

  • 1. lehetőség: Alkalmazza az Azure Stack Edge 2205-frissítéseket az eszközére.

  • 2. lehetőség: Miután NCasT4_v3 sorozatban létrehozott gpu virtuális gépet, a bővítmény telepítése előtt manuálisan telepítse az új aláírókulcsokat, majd állítsa be a szükséges aláíró kulcsokat a CUDA Linux GPG-adattárkulcsának frissítésével | NVIDIA Technical Blog.

    Íme egy példa, amely aláírási kulcsokat telepít egy Ubuntu 1804 rendszerű virtuális gépre:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

A GPU-bővítmény telepítése sikertelen Windows 2016 VHD-n

Hiba leírása: Ez egy ismert probléma a 2205-nél kisebb verziókban. A GPU-bővítményhez TLS 1.2 szükséges. Ebben az esetben a következő hibaüzenet jelenhet meg:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

További részletek:

  • Ellenőrizze a vendégnaplóban a társított hibát. A vendégnaplók gyűjtéséről az Azure Stack Edge Pro GPU-eszközön lévő virtuális gépek vendégnaplóinak gyűjtése című témakörben olvashat.
  • Linux rendszerű virtuális gépen keresse meg vagy/var/log/azure/nvidia-vmext-status./var/log/waagent.log
  • Windows rendszerű virtuális gépen keresse meg a hiba állapotát a következőben C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status: .
  • Tekintse át a teljes végrehajtási naplót.C:\WindowsAzure\Logs\WaAppAgent.txt

Ha a telepítés a csomag letöltése során meghiúsult, a hiba azt jelzi, hogy a virtuális gép nem tudott hozzáférni a nyilvános hálózathoz az illesztőprogram letöltéséhez.

Javasolt megoldás: Az alábbi lépésekkel engedélyezze a TLS 1.2-t Windows 2016 rendszerű virtuális gépen, majd telepítse a GPU-bővítményt.

  1. Futtassa a következő parancsot a virtuális gépen a TLS 1.2 engedélyezéséhez:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. Telepítse a sablont addGPUextensiontoVM.json a bővítmény meglévő virtuális gépre való telepítéséhez. A bővítményt manuálisan is telepítheti, vagy telepítheti a bővítményt az Azure Portalról.

    Megjegyzés:

    A bővítmény üzembe helyezése hosszú ideig futó feladat, és körülbelül 10 percet vesz igénybe.

Az Nvidia-illesztőprogram manuális telepítése az RHEL 7-re

Hiba leírása: Ha RHEL 7 virtuális gépre telepíti a GPU-bővítményt, a telepítés sikertelen lehet a tanúsítvány rotálási hibája és az illesztőprogram nem kompatibilis verziója miatt.

Javasolt megoldás: Ebben az esetben két lehetőség közül választhat:

  • 1. lehetőség: Oldja meg a tanúsítvány rotálásával kapcsolatos problémát, majd telepítsen egy 510-es verziónál alacsonyabb Nvidia-illesztőprogramot.

    1. A tanúsítvány rotálásával kapcsolatos probléma megoldásához futtassa a következő parancsot:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. Telepítse az 510-es verziónál alacsonyabb Nvidia-illesztőprogramot.

  • 2. lehetőség: A GPU-bővítmény üzembe helyezése. Az ARM-bővítmény telepítésekor használja a következő beállításokat:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

A virtuális gép mérete nem GPU virtuális gép mérete

Hiba leírása: A GPU-beli virtuális gépeknek Standard_NC4as_T4_v3 vagy Standard_NC8as_T4_v3 méretűnek kell lenniük. Ha bármilyen más virtuálisgép-méretet használ, a GPU-bővítmény nem lesz csatolva.

Javasolt megoldás: Virtuális gép létrehozása Standard_NC4as_T4_v3 vagy Standard_NC8as_T4_v3 virtuális gép méretével. További információ: GPU-beli virtuális gépek támogatott virtuálisgép-méretei. A méret megadásáról további információt a GPU-beli virtuális gépek létrehozása című témakörben talál.

A rendszerkép operációs rendszere nem támogatott

Hiba leírása: A GPU-bővítmény nem támogatja a virtuálisgép-lemezképre telepített operációs rendszert.

Javasolt megoldás: Készítsen elő egy új virtuálisgép-lemezképet, amely rendelkezik a GPU-bővítmény által támogatott operációs rendszerrel.

A bővítményparaméter helytelen

Hiba leírása: Helytelen bővítménybeállítások lettek használva a GPU-bővítmény Linux rendszerű virtuális gépen való üzembe helyezésekor.

Javasolt megoldás: A GPU-bővítmény telepítése előtt szerkessze a paraméterfájlt. További információ: GPU-bővítmény telepítése.

A virtuálisgép-bővítmény telepítése sikertelen volt a csomag letöltésekor

Hiba leírása: A bővítmények kiépítése sikertelen volt a bővítmény telepítése során vagy az Engedélyezés állapotban.

  1. Ellenőrizze a vendégnaplóban a társított hibát. A vendégnaplók gyűjtéséről az Azure Stack Edge Pro virtuális gépeinek vendégnaplóinak gyűjtése című témakörben olvashat.

    Linux rendszerű virtuális gépen:

    • /var/log/waagent.log/var/log/azure/nvidia-vmext-statusBe vagy .

    Windows rendszerű virtuális gépen:

    • A hibaállapot megkeresése a következőben: C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
    • Tekintse át a teljes végrehajtási naplót: C:\WindowsAzure\Logs\WaAppAgent.txt.

    Ha a telepítés sikertelen volt a csomag letöltése során, a hiba azt jelzi, hogy a virtuális gép nem tudott hozzáférni a nyilvános hálózathoz az illesztőprogram letöltéséhez.

Javasolt megoldás:

  1. Engedélyezze a számítást az internethez csatlakoztatott porton. Útmutatásért tekintse meg a GPU-beli virtuális gépek létrehozását ismertető témakört.

  2. A virtuális gép felszabadítása a virtuális gép portálon való leállításával. A virtuális gép leállításához lépjen a Virtuális gépek>áttekintése elemre, és válassza ki a virtuális gépet. Ezután a virtuális gép tulajdonságai lapon válassza a Leállítás lehetőséget.

  3. Create a new VM.

A virtuálisgép-bővítmény hiba miatt dpkg is used/yum lock is used meghiúsult (Linux rendszerű virtuális gép)

Hiba leírása: A GPU-bővítmény üzembe helyezése Linux rendszerű virtuális gépen meghiúsult, mert egy másik folyamat használt dpkg , vagy egy másik folyamat létrehozott egy yum lock.

Javasolt megoldás: A probléma megoldásához hajtsa végre az alábbi lépéseket:

  1. Ha meg szeretné tudni, hogy milyen folyamat alkalmazza a zárolást, keressen rá a \var\log\azure\nvidia-vmext-status naplóban egy olyan hibára, mint például a "dpkg egy másik folyamat által használt" vagy "Egy másik alkalmazás " yum lock.

  2. Várjon, amíg a folyamat befejeződik, vagy fejezze be a folyamatot.

  3. Telepítse újra a GPU-bővítményt .

  4. Ha a bővítmények üzembe helyezése ismét meghiúsul, hozzon létre egy új virtuális gépet, és győződjön meg arról, hogy a GPU-bővítmény telepítése előtt nincs zárolva.

Következő lépések

Vendégnaplók gyűjtése és támogatási csomag létrehozása