Řešení potíží s rozšířením GPU pro virtuální počítače GPU ve službě Azure Stack Edge Pro GPU
PLATÍ PRO:Azure Stack Edge Pro – GPU
Azure Stack Edge Pro 2
Azure Stack Edge Pro R
Tento článek obsahuje pokyny k řešení nejběžnějších problémů, které způsobují selhání instalace rozšíření GPU na virtuálním počítači s GPU ve službě Azure Stack Edge Pro GPU.
Postup instalace najdete v tématu Instalace rozšíření GPU.
Ve verzích nižších než 2205 nainstaluje rozšíření GPU pro Linux staré podpisové klíče: chybí podpis nebo požadovaný klíč.
Popis chyby: Rozšíření GPU pro Linux nainstaluje staré podpisové klíče, což brání stažení požadovaného ovladače GPU. V tomto případě se v syslogu virtuálního počítače s Linuxem zobrazí následující chyba:
/var/log/syslog and /var/log/waagent.log
May 5 06:04:53 gpuvm12 kernel: [ 833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel
Navrhovaná řešení: Tento problém můžete zmírnit dvěma způsoby:
Možnost 1: Nainstalujte na zařízení aktualizace Azure Stack Edge 2205.
Možnost 2: Po vytvoření virtuálního počítače GPU o velikosti v řadě NCasT4_v3 ručně nainstalujte nové podpisové klíče před instalací rozšíření a pak nastavte požadované podpisové klíče podle kroků v tématu Aktualizace klíče úložiště GPG pro CUDA Linux | Technický blog společnosti NVIDIA.
Tady je příklad instalace podpisových klíčů na virtuální počítač s Ubuntu 1804:
$ sudo apt-key adv --fetch- keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub
Selhání instalace rozšíření GPU na virtuální pevný disk s Windows 2016
Popis chyby: Jedná se o známý problém ve verzích nižších než 2205. Rozšíření GPU vyžaduje protokol TLS 1.2. V takovém případě se může zobrazit následující chybová zpráva:
Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!
Další podrobnosti:
- Zkontrolujte související chybu v protokolu hosta. Pokud chcete shromáždit protokoly hosta, přečtěte si téma Shromažďování protokolů hosta pro virtuální počítače na zařízení GPU služby Azure Stack Edge Pro.
- Na virtuálním počítači s Linuxem se podívejte do
/var/log/waagent.log
nebo/var/log/azure/nvidia-vmext-status
. - Na virtuálním počítači s Windows vyhledejte stav chyby v
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
. - Zkontrolujte protokol úplného spuštění v
C:\WindowsAzure\Logs\WaAppAgent.txt
souboru .
Pokud instalace během stahování balíčku selhala, znamená tato chyba, že virtuální počítač nemohl získat přístup k veřejné síti, aby si stáhl ovladač.
Navrhované řešení: Pomocí následujícího postupu povolte protokol TLS 1.2 na virtuálním počítači s Windows 2016 a pak nasaďte rozšíření GPU.
Spuštěním následujícího příkazu uvnitř virtuálního počítače povolte protokol TLS 1.2:
sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
Nasazením šablony
addGPUextensiontoVM.json
nainstalujte rozšíření na existující virtuální počítač. Rozšíření můžete nainstalovat ručně nebo ho můžete nainstalovat z Azure Portal.- Pokud chcete rozšíření nainstalovat ručně, přečtěte si téma Instalace rozšíření GPU na virtuální počítače pro zařízení s gpu Azure Stack Edge Pro.
- Pokud chcete šablonu nainstalovat pomocí Azure Portal, přečtěte si téma Nasazení virtuálních počítačů GPU na zařízení GPU služby Azure Stack Edge Pro.
Poznámka
Nasazení rozšíření je dlouhotrvající úloha a dokončení trvá přibližně 10 minut.
Ruční instalace ovladače Nvidia na RHEL 7
Popis chyby: Při instalaci rozšíření GPU na virtuální počítač RHEL 7 může instalace selhat kvůli problému s obměnou certifikátu a nekompatibilní verzi ovladače.
Navrhované řešení: V tomto případě máte dvě možnosti:
Možnost 1: Vyřešte problém s obměnou certifikátů a nainstalujte ovladač Nvidia nižší než verze 510.
Pokud chcete vyřešit problém s obměnou certifikátu, spusťte následující příkaz:
$ sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
Nainstalujte ovladač Nvidia nižší než verze 510.
Možnost 2: Nasaďte rozšíření GPU. Při nasazování rozšíření ARM použijte následující nastavení:
settings": { "isCustomInstall": true, "InstallMethod": 0, "DRIVER_URL": " https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", "DKMS_URL" : " https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", "LIS_URL": " https://aka.ms/lis", "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" }
Velikost virtuálního počítače není velikost virtuálního počítače GPU
Popis chyby: Virtuální počítač GPU musí mít velikost Standard_NC4as_T4_v3 nebo Standard_NC8as_T4_v3. Pokud použijete jinou velikost virtuálního počítače, rozšíření GPU se nepodaří připojit.
Navrhované řešení: Vytvořte virtuální počítač s velikostí Standard_NC4as_T4_v3 nebo Standard_NC8as_T4_v3. Další informace najdete v tématu Podporované velikosti virtuálních počítačů s GPU. Informace o zadání velikosti najdete v tématu Vytváření virtuálních počítačů GPU.
Operační systém image se nepodporuje.
Popis chyby: Rozšíření GPU nepodporuje operační systém, který je nainstalovaný v imagi virtuálního počítače.
Navrhované řešení: Připravte novou image virtuálního počítače s operačním systémem, který podporuje rozšíření GPU.
Seznam podporovaných operačních systémů najdete v tématu Podporované ovladače operačního systému a GPU pro virtuální počítače GPU.
Požadavky na přípravu image pro virtuální počítač GPU najdete v tématu Vytváření virtuálních počítačů GPU.
Parametr rozšíření je nesprávný.
Popis chyby: Při nasazování rozšíření GPU na virtuální počítač s Linuxem se použila nesprávná nastavení rozšíření.
Navrhované řešení: Před nasazením rozšíření GPU upravte soubor parametrů. Další informace najdete v tématu Instalace rozšíření GPU.
Instalace rozšíření virtuálního počítače při stahování balíčku selhala
Popis chyby: Zřizování rozšíření selhalo během instalace rozšíření nebo ve stavu Povolit.
Zkontrolujte související chybu v protokolu hosta. Pokud chcete shromažďovat protokoly hosta, přečtěte si téma Shromažďování protokolů hosta pro virtuální počítače ve službě Azure Stack Edge Pro.
Na virtuálním počítači s Linuxem:
- Podívejte se do
/var/log/waagent.log
nebo/var/log/azure/nvidia-vmext-status
.
Na virtuálním počítači s Windows:
- Zjistěte stav chyby v
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
nástroji . - Zkontrolujte protokol úplného spuštění:
C:\WindowsAzure\Logs\WaAppAgent.txt
.
Pokud instalace během stahování balíčku selhala, tato chyba znamená, že virtuální počítač nemohl získat přístup k veřejné síti, aby si stáhl ovladač.
- Podívejte se do
Navrhované řešení:
Povolte výpočetní prostředky na portu, který je připojený k internetu. Pokyny najdete v tématu Vytváření virtuálních počítačů GPU.
Uvolněte virtuální počítač zastavením virtuálního počítače na portálu. Pokud chcete virtuální počítač zastavit, přejděte naPřehledvirtuálních počítačů> a vyberte virtuální počítač. Pak na stránce vlastností virtuálního počítače vyberte Zastavit.
Vytvořte nový virtuální počítač.
Rozšíření virtuálního počítače selhalo s chybou dpkg is used/yum lock is used
(virtuální počítač s Linuxem)
Popis chyby: Nasazení rozšíření GPU na virtuálním počítači s Linuxem selhalo, protože používal dpkg
jiný proces nebo jiný proces vytvořil yum lock
.
Navrhované řešení: Pokud chcete tento problém vyřešit, postupujte takto:
Pokud chcete zjistit, jaký proces se zámek používá, vyhledejte v protokolu \var\log\azure\nvidia-vmext-status chybu typu "dpkg používá jiný proces" nebo "Jiná aplikace drží
yum lock
".Buď počkejte na dokončení procesu, nebo proces ukončete.
Pokud nasazení rozšíření znovu selže, vytvořte nový virtuální počítač a před instalací rozšíření GPU se ujistěte, že zámek neexistuje.