共用方式為


針對 Azure Stack Edge Pro GPU 上 GPU VM 的 GPU 延伸模組問題進行疑難排解

適用於:Yes for Pro - GPU SKUAzure Stack Edge Pro - GPUYes for Pro 2 SKUAzure Stack Edge Pro 2Yes for Pro R SKUAzure Stack Edge Pro R

本文提供的指導方針,可協助您解決在 Azure Stack Edge Pro GPU 裝置上的 GPU VM 安裝 GPU 延伸模組失敗的最常見問題。

如需安裝步驟,請參閱安裝 GPU 延伸模組

在 2205 以下的版本中,Linux GPU 延伸模組安裝舊的簽署金鑰:簽章和/或必要金鑰遺失

錯誤描述:Linux GPU 延伸模組安裝舊的簽署金鑰,造成無法下載必要的 GPU 驅動程式。 在此情況下,您會在 Linux VM 的 syslog 中看到下列錯誤:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

建議的解決方案:您有兩個選項可減輕此問題:

  • 選項 1:將 Azure Stack Edge 2205 更新套用至您的裝置。

  • 選項 2:建立 NCasT4_v3-series 大小的 GPU 虛擬機器之後,請先手動安裝新的簽署金鑰再安裝延伸模組,然後使用更新 CUDA Linux GPG 存放庫金鑰 | NVIDIA 技術部落格中的步驟設定必要的簽署金鑰。

    以下是在 Ubuntu 1804 虛擬機器上安裝簽署金鑰的範例:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

無法在 Windows 2016 VHD 上安裝 GPU 延伸模組

錯誤描述:這是 2205 以下版本的已知問題。 GPU 延伸模組需要 TLS 1.2。 在此情況下,您可能會看到下列錯誤訊息:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

其他詳細資料:

  • 檢查來賓記錄檔是否有相關錯誤。 若要收集來賓記錄,請參閱收集 Azure Stack Edge Pro GPU 裝置上的 VM 來賓記錄
  • 在 Linux VM 上,查詢 /var/log/waagent.log/var/log/azure/nvidia-vmext-status
  • 在 Windows VM 上,在 C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status 中尋找錯誤狀態。
  • 檢閱 C:\WindowsAzure\Logs\WaAppAgent.txt 中的完整執行記錄。

如果在套件下載期間安裝失敗,該錯誤表示 VM 無法存取公用網路來下載驅動程式。

建議的解決方案:使用下列步驟在 Windows 2016 VM 上啟用 TLS 1.2,然後部署 GPU 延伸模組。

  1. 在 VM 之中執行下列命令以啟用 TLS 1.2:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. 部署範本 addGPUextensiontoVM.json,即可在現有的 VM 上安裝延伸模組。 您可以手動安裝延伸模組,也可以從 Azure 入口網站安裝延伸模組。

    注意

    延伸模組部署是長時間執行的作業,大約需要 10 分鐘才能完成。

在 RHEL 7 上手動安裝 Nvidia 驅動程式

錯誤描述:在 RHEL 7 VM 上安裝 GPU 延伸模組時,安裝可能會因為憑證輪替問題和不相容的驅動程式版本而失敗。

建議的解決方案:在此情況下,您有兩個選項:

  • 選項 1:解決憑證輪替問題,然後安裝低於 510 版的 Nvidia 驅動程式。

    1. 若要解決憑證輪替問題,請執行下列命令:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. 安裝低於 510 版的 Nvidia 驅動程式。

  • 選項 2:部署 GPU 延伸模組。 部署 ARM 延伸模組時,請使用下列設定:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

VM 大小不是 GPU VM 大小

錯誤描述:GPU VM 必須是 Standard_NC4as_T4_v3 或 Standard_NC8as_T4_v3 大小。 如果使用任何其他 VM 大小,GPU 延伸模組將無法連結。

建議的解決方案:建立具有 Standard_NC4as_T4_v3 或 Standard_NC8as_T4_v3 VM 大小的 VM。 如需詳細資訊,請參閱 GPU VM 支援的 VM 大小。 如需指定大小的相關資訊,請參閱建立 GPU VM

不支援映像 OS

錯誤描述:GPU 延伸模組不支援安裝在 VM 映像上的作業系統。

建議的解決方案:準備 GPU 延伸模組支援其作業系統的新 VM 映像。

延伸模組參數不正確

錯誤描述:在 Linux VM 上部署 GPU 延伸模組時,使用了不正確的延伸模組設定。

建議的解決方案:在部署 GPU 延伸模組之前,請先編輯參數檔案。 如需詳細資訊,請參閱安裝 GPU 延伸模組

下載套件時 VM 延伸模組安裝失敗

錯誤描述:延伸模組佈建在延伸模組安裝期間或處於「啟用」狀態時失敗。

  1. 檢查來賓記錄檔是否有相關錯誤。 若要收集來賓記錄,請參閱收集 Azure Stack Edge Pro 上的 VM 來賓記錄

    在 Linux VM 上:

    • 查詢 /var/log/waagent.log/var/log/azure/nvidia-vmext-status

    在 Windows VM 上:

    • 了解 C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status 中的錯誤狀態。
    • 檢閱完整執行記錄:C:\WindowsAzure\Logs\WaAppAgent.txt

    如果在套件下載期間安裝失敗,該錯誤表示 VM 無法存取公用網路來下載驅動程式。

建議的解決方案:

  1. 在連線到網際網路的連接埠上啟用計算。 如需指導,請參閱建立 GPU VM

  2. 在入口網站中停止 VM 以解除配置 VM。 若要停止 VM,請移至 [虛擬機器]>[概觀],然後選取 VM。 然後,在 [VM 屬性] 頁面上,選取 [停止]

  3. 建立新的 VM。

VM 延伸模組因錯誤 dpkg is used/yum lock is used 而失敗 (Linux VM)

錯誤描述:Linux VM 上的 GPU 延伸模組部署失敗,因為另一個流程正在使用 dpkg,或另一個流程已建立 yum lock

建議的解決方案:若要解決此問題,請執行下列步驟:

  1. 若要找出套用鎖定的流程,請搜尋 \var\log\azure\nvidia-vmext-status 記錄檔中是否有「dpkg 正由另一個流程使用」或「另一個應用程式正持有 yum lock」之類的錯誤。

  2. 等候流程完成,或結束流程。

  3. 再次安裝 GPU 延伸模組

  4. 如果延伸模組部署再次失敗,請建立新的 VM,並確定在安裝 GPU 延伸模組之前沒有鎖定。

下一步

收集來賓記錄,並建立支援套件