GPU-bővítményekkel kapcsolatos problémák elhárítása GPU-virtuális gépekhez az Azure Stack Edge Pro GPU-n
A következőre vonatkozik: Azure Stack Edge Pro – GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
Ez a cikk útmutatást nyújt azoknak a leggyakoribb problémáknak a megoldásához, amelyek miatt a GPU-bővítmény gpu-alapú virtuális gépen való telepítése meghiúsul egy Azure Stack Edge Pro GPU-eszközön.
A telepítés lépéseit a GPU-bővítmény telepítése című témakörben találja.
A 2205-ösnél kisebb verziókban a Linux GPU-bővítmény régi aláírókulcsokat telepít: az aláírás és/vagy a szükséges kulcs hiányzik
Hiba leírása: A Linux GPU-bővítmény régi aláírókulcsokat telepít, megakadályozva a szükséges GPU-illesztőprogram letöltését. Ebben az esetben a következő hibaüzenet jelenik meg a Linux rendszerű virtuális gép syslogjában:
/var/log/syslog and /var/log/waagent.log
May 5 06:04:53 gpuvm12 kernel: [ 833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel
Javasolt megoldások: Két lehetősége van a probléma megoldására:
1. lehetőség: Alkalmazza az Azure Stack Edge 2205-frissítéseket az eszközére.
2. lehetőség: Miután NCasT4_v3 sorozatban létrehozott gpu virtuális gépet, a bővítmény telepítése előtt manuálisan telepítse az új aláírókulcsokat, majd állítsa be a szükséges aláíró kulcsokat a CUDA Linux GPG-adattárkulcsának frissítésével | NVIDIA Technical Blog.
Íme egy példa, amely aláírási kulcsokat telepít egy Ubuntu 1804 rendszerű virtuális gépre:
$ sudo apt-key adv --fetch- keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub
A GPU-bővítmény telepítése sikertelen Windows 2016 VHD-n
Hiba leírása: Ez egy ismert probléma a 2205-nél kisebb verziókban. A GPU-bővítményhez TLS 1.2 szükséges. Ebben az esetben a következő hibaüzenet jelenhet meg:
Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!
További részletek:
- Ellenőrizze a vendégnaplóban a társított hibát. A vendégnaplók gyűjtéséről az Azure Stack Edge Pro GPU-eszközön lévő virtuális gépek vendégnaplóinak gyűjtése című témakörben olvashat.
- Linux rendszerű virtuális gépen keresse meg vagy
/var/log/azure/nvidia-vmext-status
./var/log/waagent.log
- Windows rendszerű virtuális gépen keresse meg a hiba állapotát a következőben
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
: . - Tekintse át a teljes végrehajtási naplót.
C:\WindowsAzure\Logs\WaAppAgent.txt
Ha a telepítés a csomag letöltése során meghiúsult, a hiba azt jelzi, hogy a virtuális gép nem tudott hozzáférni a nyilvános hálózathoz az illesztőprogram letöltéséhez.
Javasolt megoldás: Az alábbi lépésekkel engedélyezze a TLS 1.2-t Windows 2016 rendszerű virtuális gépen, majd telepítse a GPU-bővítményt.
Futtassa a következő parancsot a virtuális gépen a TLS 1.2 engedélyezéséhez:
sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
Telepítse a sablont
addGPUextensiontoVM.json
a bővítmény meglévő virtuális gépre való telepítéséhez. A bővítményt manuálisan is telepítheti, vagy telepítheti a bővítményt az Azure Portalról.- A bővítmény manuális telepítéséhez lásd : GPU-bővítmény telepítése virtuális gépeken az Azure Stack Edge Pro GPU-eszközhöz
- A sablon Azure Portalon való telepítéséhez lásd : GPU-virtuális gépek üzembe helyezése az Azure Stack Edge Pro GPU-eszközön.
Megjegyzés:
A bővítmény üzembe helyezése hosszú ideig futó feladat, és körülbelül 10 percet vesz igénybe.
Az Nvidia-illesztőprogram manuális telepítése az RHEL 7-re
Hiba leírása: Ha RHEL 7 virtuális gépre telepíti a GPU-bővítményt, a telepítés sikertelen lehet a tanúsítvány rotálási hibája és az illesztőprogram nem kompatibilis verziója miatt.
Javasolt megoldás: Ebben az esetben két lehetőség közül választhat:
1. lehetőség: Oldja meg a tanúsítvány rotálásával kapcsolatos problémát, majd telepítsen egy 510-es verziónál alacsonyabb Nvidia-illesztőprogramot.
A tanúsítvány rotálásával kapcsolatos probléma megoldásához futtassa a következő parancsot:
$ sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
Telepítse az 510-es verziónál alacsonyabb Nvidia-illesztőprogramot.
2. lehetőség: A GPU-bővítmény üzembe helyezése. Az ARM-bővítmény telepítésekor használja a következő beállításokat:
settings": { "isCustomInstall": true, "InstallMethod": 0, "DRIVER_URL": " https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", "DKMS_URL" : " https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", "LIS_URL": " https://aka.ms/lis", "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" }
A virtuális gép mérete nem GPU virtuális gép mérete
Hiba leírása: A GPU-beli virtuális gépeknek Standard_NC4as_T4_v3 vagy Standard_NC8as_T4_v3 méretűnek kell lenniük. Ha bármilyen más virtuálisgép-méretet használ, a GPU-bővítmény nem lesz csatolva.
Javasolt megoldás: Virtuális gép létrehozása Standard_NC4as_T4_v3 vagy Standard_NC8as_T4_v3 virtuális gép méretével. További információ: GPU-beli virtuális gépek támogatott virtuálisgép-méretei. A méret megadásáról további információt a GPU-beli virtuális gépek létrehozása című témakörben talál.
A rendszerkép operációs rendszere nem támogatott
Hiba leírása: A GPU-bővítmény nem támogatja a virtuálisgép-lemezképre telepített operációs rendszert.
Javasolt megoldás: Készítsen elő egy új virtuálisgép-lemezképet, amely rendelkezik a GPU-bővítmény által támogatott operációs rendszerrel.
A támogatott operációs rendszerek listájáért tekintse meg a GPU-beli virtuális gépek támogatott operációs rendszer- és GPU-illesztőprogramjait.
A GPU-beli virtuális gépek képelőkészítési követelményeit lásd: GPU-virtuális gépek létrehozása.
A bővítményparaméter helytelen
Hiba leírása: Helytelen bővítménybeállítások lettek használva a GPU-bővítmény Linux rendszerű virtuális gépen való üzembe helyezésekor.
Javasolt megoldás: A GPU-bővítmény telepítése előtt szerkessze a paraméterfájlt. További információ: GPU-bővítmény telepítése.
A virtuálisgép-bővítmény telepítése sikertelen volt a csomag letöltésekor
Hiba leírása: A bővítmények kiépítése sikertelen volt a bővítmény telepítése során vagy az Engedélyezés állapotban.
Ellenőrizze a vendégnaplóban a társított hibát. A vendégnaplók gyűjtéséről az Azure Stack Edge Pro virtuális gépeinek vendégnaplóinak gyűjtése című témakörben olvashat.
Linux rendszerű virtuális gépen:
/var/log/waagent.log
/var/log/azure/nvidia-vmext-status
Be vagy .
Windows rendszerű virtuális gépen:
- A hibaállapot megkeresése a következőben:
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
. - Tekintse át a teljes végrehajtási naplót:
C:\WindowsAzure\Logs\WaAppAgent.txt
.
Ha a telepítés sikertelen volt a csomag letöltése során, a hiba azt jelzi, hogy a virtuális gép nem tudott hozzáférni a nyilvános hálózathoz az illesztőprogram letöltéséhez.
Javasolt megoldás:
Engedélyezze a számítást az internethez csatlakoztatott porton. Útmutatásért tekintse meg a GPU-beli virtuális gépek létrehozását ismertető témakört.
A virtuális gép felszabadítása a virtuális gép portálon való leállításával. A virtuális gép leállításához lépjen a Virtuális gépek>áttekintése elemre, és válassza ki a virtuális gépet. Ezután a virtuális gép tulajdonságai lapon válassza a Leállítás lehetőséget.
Create a new VM.
A virtuálisgép-bővítmény hiba miatt dpkg is used/yum lock is used
meghiúsult (Linux rendszerű virtuális gép)
Hiba leírása: A GPU-bővítmény üzembe helyezése Linux rendszerű virtuális gépen meghiúsult, mert egy másik folyamat használt dpkg
, vagy egy másik folyamat létrehozott egy yum lock
.
Javasolt megoldás: A probléma megoldásához hajtsa végre az alábbi lépéseket:
Ha meg szeretné tudni, hogy milyen folyamat alkalmazza a zárolást, keressen rá a \var\log\azure\nvidia-vmext-status naplóban egy olyan hibára, mint például a "dpkg egy másik folyamat által használt" vagy "Egy másik alkalmazás "
yum lock
.Várjon, amíg a folyamat befejeződik, vagy fejezze be a folyamatot.
Ha a bővítmények üzembe helyezése ismét meghiúsul, hozzon létre egy új virtuális gépet, és győződjön meg arról, hogy a GPU-bővítmény telepítése előtt nincs zárolva.