Řešení potíží s rozšířením GPU pro virtuální počítače GPU ve službě Azure Stack Edge Pro GPU

PLATÍ PRO:Ano pro Pro – SKU GPUAzure Stack Edge Pro – GPUAno pro skladovou položku Pro 2Azure Stack Edge Pro 2Ano pro skladovou položku Pro RAzure Stack Edge Pro R

Tento článek obsahuje pokyny k řešení nejběžnějších problémů, které způsobují selhání instalace rozšíření GPU na virtuálním počítači s GPU ve službě Azure Stack Edge Pro GPU.

Postup instalace najdete v tématu Instalace rozšíření GPU.

Ve verzích nižších než 2205 nainstaluje rozšíření GPU pro Linux staré podpisové klíče: chybí podpis nebo požadovaný klíč.

Popis chyby: Rozšíření GPU pro Linux nainstaluje staré podpisové klíče, což brání stažení požadovaného ovladače GPU. V tomto případě se v syslogu virtuálního počítače s Linuxem zobrazí následující chyba:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

Navrhovaná řešení: Tento problém můžete zmírnit dvěma způsoby:

  • Možnost 1: Nainstalujte na zařízení aktualizace Azure Stack Edge 2205.

  • Možnost 2: Po vytvoření virtuálního počítače GPU o velikosti v řadě NCasT4_v3 ručně nainstalujte nové podpisové klíče před instalací rozšíření a pak nastavte požadované podpisové klíče podle kroků v tématu Aktualizace klíče úložiště GPG pro CUDA Linux | Technický blog společnosti NVIDIA.

    Tady je příklad instalace podpisových klíčů na virtuální počítač s Ubuntu 1804:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

Selhání instalace rozšíření GPU na virtuální pevný disk s Windows 2016

Popis chyby: Jedná se o známý problém ve verzích nižších než 2205. Rozšíření GPU vyžaduje protokol TLS 1.2. V takovém případě se může zobrazit následující chybová zpráva:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

Další podrobnosti:

Pokud instalace během stahování balíčku selhala, znamená tato chyba, že virtuální počítač nemohl získat přístup k veřejné síti, aby si stáhl ovladač.

Navrhované řešení: Pomocí následujícího postupu povolte protokol TLS 1.2 na virtuálním počítači s Windows 2016 a pak nasaďte rozšíření GPU.

  1. Spuštěním následujícího příkazu uvnitř virtuálního počítače povolte protokol TLS 1.2:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. Nasazením šablony addGPUextensiontoVM.json nainstalujte rozšíření na existující virtuální počítač. Rozšíření můžete nainstalovat ručně nebo ho můžete nainstalovat z Azure Portal.

    Poznámka

    Nasazení rozšíření je dlouhotrvající úloha a dokončení trvá přibližně 10 minut.

Ruční instalace ovladače Nvidia na RHEL 7

Popis chyby: Při instalaci rozšíření GPU na virtuální počítač RHEL 7 může instalace selhat kvůli problému s obměnou certifikátu a nekompatibilní verzi ovladače.

Navrhované řešení: V tomto případě máte dvě možnosti:

  • Možnost 1: Vyřešte problém s obměnou certifikátů a nainstalujte ovladač Nvidia nižší než verze 510.

    1. Pokud chcete vyřešit problém s obměnou certifikátu, spusťte následující příkaz:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. Nainstalujte ovladač Nvidia nižší než verze 510.

  • Možnost 2: Nasaďte rozšíření GPU. Při nasazování rozšíření ARM použijte následující nastavení:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

Velikost virtuálního počítače není velikost virtuálního počítače GPU

Popis chyby: Virtuální počítač GPU musí mít velikost Standard_NC4as_T4_v3 nebo Standard_NC8as_T4_v3. Pokud použijete jinou velikost virtuálního počítače, rozšíření GPU se nepodaří připojit.

Navrhované řešení: Vytvořte virtuální počítač s velikostí Standard_NC4as_T4_v3 nebo Standard_NC8as_T4_v3. Další informace najdete v tématu Podporované velikosti virtuálních počítačů s GPU. Informace o zadání velikosti najdete v tématu Vytváření virtuálních počítačů GPU.

Operační systém image se nepodporuje.

Popis chyby: Rozšíření GPU nepodporuje operační systém, který je nainstalovaný v imagi virtuálního počítače.

Navrhované řešení: Připravte novou image virtuálního počítače s operačním systémem, který podporuje rozšíření GPU.

Parametr rozšíření je nesprávný.

Popis chyby: Při nasazování rozšíření GPU na virtuální počítač s Linuxem se použila nesprávná nastavení rozšíření.

Navrhované řešení: Před nasazením rozšíření GPU upravte soubor parametrů. Další informace najdete v tématu Instalace rozšíření GPU.

Instalace rozšíření virtuálního počítače při stahování balíčku selhala

Popis chyby: Zřizování rozšíření selhalo během instalace rozšíření nebo ve stavu Povolit.

  1. Zkontrolujte související chybu v protokolu hosta. Pokud chcete shromažďovat protokoly hosta, přečtěte si téma Shromažďování protokolů hosta pro virtuální počítače ve službě Azure Stack Edge Pro.

    Na virtuálním počítači s Linuxem:

    • Podívejte se do /var/log/waagent.log nebo /var/log/azure/nvidia-vmext-status.

    Na virtuálním počítači s Windows:

    • Zjistěte stav chyby v C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Statusnástroji .
    • Zkontrolujte protokol úplného spuštění: C:\WindowsAzure\Logs\WaAppAgent.txt.

    Pokud instalace během stahování balíčku selhala, tato chyba znamená, že virtuální počítač nemohl získat přístup k veřejné síti, aby si stáhl ovladač.

Navrhované řešení:

  1. Povolte výpočetní prostředky na portu, který je připojený k internetu. Pokyny najdete v tématu Vytváření virtuálních počítačů GPU.

  2. Uvolněte virtuální počítač zastavením virtuálního počítače na portálu. Pokud chcete virtuální počítač zastavit, přejděte naPřehledvirtuálních počítačů> a vyberte virtuální počítač. Pak na stránce vlastností virtuálního počítače vyberte Zastavit.

  3. Vytvořte nový virtuální počítač.

Rozšíření virtuálního počítače selhalo s chybou dpkg is used/yum lock is used (virtuální počítač s Linuxem)

Popis chyby: Nasazení rozšíření GPU na virtuálním počítači s Linuxem selhalo, protože používal dpkg jiný proces nebo jiný proces vytvořil yum lock.

Navrhované řešení: Pokud chcete tento problém vyřešit, postupujte takto:

  1. Pokud chcete zjistit, jaký proces se zámek používá, vyhledejte v protokolu \var\log\azure\nvidia-vmext-status chybu typu "dpkg používá jiný proces" nebo "Jiná aplikace drží yum lock".

  2. Buď počkejte na dokončení procesu, nebo proces ukončete.

  3. Znovu nainstalujte rozšíření GPU .

  4. Pokud nasazení rozšíření znovu selže, vytvořte nový virtuální počítač a před instalací rozšíření GPU se ujistěte, že zámek neexistuje.

Další kroky

Shromážděte protokoly hosta a vytvořte balíček podpory.