在執行 Windows 的 N 系列 VM 上安裝 NVIDIA GPU 驅動程式
適用於:✔️ Linux VM ✔️ Windows VM ✔️ 彈性擴展集
若要利用 NVIDIA GPU 所支援 Azure N 系列 VM 的 GPU 功能,則必須安裝 NVIDIA GPU 驅動程式。 NVIDIA GPU 驅動程式擴充功能會在 N 系列 VM 上安裝適當的 NVIDIA CUDA 或 GRID 驅動程式。 使用 Azure 入口網站或者 Azure PowerShell 或 Azure Resource Manager 範本之類的工具,安裝或管理擴充功能。 如需支援的作業系統和部署步驟,請參閱 NVIDIA GPU 驅動程式擴充功能文件。
如果您選擇手動安裝 NVIDIA GPU 驅動程式,本文提供支援的作業系統、驅動程式,以及安裝和驗證步驟。 驅動程式手動設定資訊也適用於 Linux VM。
如需基本規格、儲存體容量與磁碟的詳細資料,請參閱 GPU Windows VM 大小。
支援的作業系統和驅動程式
NVIDIA Tesla (CUDA) 驅動程式
只有下表所列的作業系統才測試 NC、NCv2、NCv3、NCasT4_v3、ND 及 NDv2 系列 VM (針對 NV 系列為選擇性) 的 NVIDIA Tesla (CUDA) 驅動程式。 CUDA 驅動程式是泛型,非 Azure 特定的。 如需最新的驅動程式,請瀏覽 NVIDIA 網站。
提示
在 Windows Server VM 上手動安裝 CUDA 驅動程式的替代方案,就是部署 Azure 資料科學虛擬機器映像。 適用於 Windows Server 2016 的 DSVM 版本會預先安裝 NVIDIA CUDA 驅動程式、CUDA 深度類神經網路程式庫和其他工具。
OS | 驅動程式 |
---|---|
Windows Server 2019 | 451.82 (.exe) |
Windows Server 2016 | 451.82 (.exe) |
NVIDIA GRID 驅動程式
注意
Azure NVads A10 v5 VM 僅支援 GRID 14.1 (510.73) 或更高版本驅動程式版本。
Microsoft 會轉散發 NVIDIA GRID 驅動程式安裝程式,以用於 NV、NVv3 和 NVads A10 v5 系列 VM 作為虛擬工作站或虛擬應用程式。 請僅將這些 GRID 驅動程式安裝在 Azure NV 系列虛擬機器上,且僅安裝在下表所列的作業系統上。 這些驅動程式包含在 Azure 的 GRID 虛擬 GPU 軟體的授權中。 您不需要設定 NVIDIA vGPU 軟體授權服務器。
由 Azure 轉散發的 GRID 驅動程式無法在非 NV 系列 VM 上運作,例如 NCv2、NCv3、ND 和 NDv2 系列 VM。 其中一個例外狀況是NCAS_T4_V3 VM 系列,其中 GRID 驅動程式會啟用與 NV 系列類似的圖形功能。
具有 Nvidia K80 GPU 的 NC-Series 不支援 GRID/圖形應用程式。
NVIDIA 擴充功能一律安裝最新的驅動程式。
針對 Windows 11 22H2/21H2,Windows 10 22H2、Server 2019/2022:
- GRID 16.1 (536.25) (.exe)
提供下列舊版連結,以支援驅動程式較舊版本的相依性。
針對 Windows 11,Windows 10 和 Server 2019/20
- GRID 15.2 (528.89) (.exe)
針對 Windows Server 2016 1607、1709:
- GRID 14.1 (512.78) (.exe) 是 NVIDIA 最後支援的驅動程式。 較新的 15.x 和更新版本不支援Windows Server 2016。
針對 Windows Server 2012 R2:
- GRID 13.1 (472.39) (.exe)
- GRID 13 (471.68) (.exe)
注意
vGPU 15.1/15.2 安裝程式程式會對 ngx.download.nvidia.com 進行額外的遠端呼叫。 這是非預期的行為變更,NVIDIA 預設會從 vGPU 15.3 或更新版本開始停用此功能。 同時,請先更新下列 regkey,再安裝 vGPU 15.1/15.2 驅動程式。
停用對 ngx 的遠端呼叫。
[HKEY_LOCAL_MACHINE\SOFTWARE\NVIDIA Corporation\Global\NGXCore]
「EnableOTA」=dword:00000000
若要再次啟用遠端呼叫,請將設定變更為 1,或直接刪除 regkey。
如需所有先前 NVIDIA GRID 驅動程式版本的連結,請前往 GitHub。
驅動程式安裝
由遠端桌面連接至每個 N 系列 VM。
下載、擷取及安裝 Windows 作業系統支援的驅動程式。
在 VM 上安裝 GRID 驅動程式之後,必須重新啟動。 在安裝 CUDA 驅動程式之後,不需要重新啟動。
確認驅動程式安裝
請注意,NVIDIA 控制台只能透過 GRID 驅動程式安裝來存取。 若已安裝 CUDA 驅動程式,則不會顯示 NVIDIA 控制台。
您可以在 [裝置管理員] 中確認驅動程式安裝。 下列範例會顯示 Azure NC VM 上成功的 Tesla K80 卡組態。
若要查詢 GPU 裝置狀態,請執行與驅動程式一起安裝的 nvidia-smi命令列公用程式。
開啟命令提示字元然後變更位置到 C:\Program Files\NVIDIA Corporation\NVSMI 目錄中。
執行
nvidia-smi
。 如果已安裝驅動程式,您會看到類似以下的輸出。 除非您正在 VM 上執行 GPU 工作負載,否則 [GPU-Util] 會顯示 0%。 您的驅動程式版本和 GPU 詳細資料可能會與顯示的不同。
RDMA 網路連線
可以在支援 RDMA 的 N 系列 VM (例如部署在同一個可用性設定組或虛擬機器擴展集的單一放置群組中的 NC24r) 上啟用 RDMA 網路連線能力。 在具備 RDMA 功能的 VM 上,HpcVmDrivers 擴充必須新增以安裝 Windows 網路裝置驅動程式,該驅動程式會啟用 RDMA 連線能力。 若要將 VM 擴充功能新增至 RDMA 啟用的 N 系列 VM,請針對 Azure Resource Manager 使用 Azure PowerShell Cmdlet。
若要在美國西部區域中名為 myVM 的現有具備 RDMA 功能的 VM 上安裝最新版本 1.1 HpcVMDrivers 延伸模組:
Set-AzVMExtension -ResourceGroupName "myResourceGroup" -Location "westus" -VMName "myVM" -ExtensionName "HpcVmDrivers" -Publisher "Microsoft.HpcCompute" -Type "HpcVmDrivers" -TypeHandlerVersion "1.1"
如需詳細資訊,請參閱適用於 Windows 的虛擬機器擴充功能和功能。
RDMA 網路可針對使用 Microsoft MPI 或 Intel MPI 5.x 執行的應用程式,支援訊息傳遞介面 (MPI) 流量。
下一步
- 針對 NVIDIA Tesla GPU 組建 GPU 加速應用程式的開發人員也可以下載及安裝最新 CUDA Toolkit。 如需詳細資訊,請參閱 CUDA 安裝指南。