在執行 Windows 的 N 系列 VM 上安裝 NVIDIA GPU 驅動程式
適用於:✔️ Linux VM ✔️ Windows VM ✔️ 彈性擴展集
若要利用 NVIDIA GPU 所支援 Azure N 系列 VM 的 GPU 功能,則必須安裝 NVIDIA GPU 驅動程式。 NVIDIA GPU 驅動程式擴充功能會在 N 系列 VM 上安裝適當的 NVIDIA CUDA 或 GRID 驅動程式。 使用 Azure 入口網站或者 Azure PowerShell 或 Azure Resource Manager 範本之類的工具,安裝或管理擴充功能。 如需支援的作業系統和部署步驟,請參閱 NVIDIA GPU 驅動程式擴充功能文件。
如果您選擇手動安裝 NVIDIA GPU 驅動程式,本文提供支援的作業系統、驅動程式,以及安裝和驗證步驟。 驅動程式手動設定資訊也適用於 Linux VM。
如需基本規格、儲存體容量與磁碟的詳細資料,請參閱 GPU Windows VM 大小。
支援的作業系統和驅動程式
NVIDIA Tesla (CUDA) 驅動程式
注意
Azure NVads A10 v5 VM 僅支援 vGPU 16.x(536.25) 或更高版本的驅動程式版本。 A10 SKU 的 vGPU 驅動程式是支援圖形和計算工作負載的整合驅動程式。
所有 NC* 和 ND 系列 VM 的 NVIDIA Tesla (CUDA) 驅動程式都是一般,而不是 Azure 特定的。 如需最新的驅動程式,請瀏覽 NVIDIA 網站。
提示
在 Windows Server VM 上手動安裝 CUDA 驅動程式的替代方案,就是部署 Azure 資料科學虛擬機器映像。 適用於 Windows Server 2016 的 DSVM 版本會預先安裝 NVIDIA CUDA 驅動程式、CUDA 深度類神經網路程式庫和其他工具。
NVIDIA GRID/vGPU 驅動程式
注意
針對 Azure NVads A10 v5 VM,我們建議客戶一律處於最新的驅動程式版本。 最新的 NVIDIA 主要驅動程式分支 (n) 只是與先前的主要分支 (n-1) 的回溯相容。 例如,vGPU 17.x 僅與 vGPU 16.x 回溯相容。 當最新的磁碟機分支推出至 Azure 主機時,任何仍在執行 n-2 或更低層級的 VM 都可能會看到驅動程式失敗。
NVs_v3 虛擬機器僅支援 vGPU 16 或更低版本的驅動程式版本。
Windows Server 2016 支援將遠離 vGPU 17.x 以後版本。
Microsoft 會重新發佈 NVIDIA GRID 驅動程式安裝程式,以用於 NV、NVv3 和 NVads A10 v5 系列虛擬機器,做為虛擬工作站或虛擬應用程式。 請僅將這些 GRID 驅動程式安裝在 Azure NV 系列虛擬機器上,且僅安裝在下表所列的作業系統上。 這些驅動程式包含在 Azure 的 GRID 虛擬 GPU 軟體的授權中。 您不需要設定 NVIDIA vGPU 軟體授權伺服器。
Azure 重新發佈的 GRID 驅動程式無法在非 NV 系列虛擬機器上使用,如 NCv2、NCv3、ND 和 NDv2 系列虛擬機器。 例外為 NCas_T4_V3虛擬機器系列,GRID 驅動程式會啟用與 NV 系列類似的圖形功能。
NVIDIA 擴充功能一律安裝最新的驅動程式。
若為 Windows 11 最多且包含 23H2,Windows 10 最多且包含 22H2、Server 2019/2022:
- GRID 17.3 (552.74) (.exe)
提供下列舊版連結,以支援驅動程式較舊版本的相依性。
針對 Windows Server 2016 1607、1709:
- GRID 14.1 (512.78) (.exe) 是 NVIDIA 最後支援的驅動程式。 較新的 15.x 和更新版本不支援 Windows Server 2016。
針對 Windows Server 2012 R2:
- GRID 13.1 (472.39) (.exe)
- GRID 13 (471.68) (.exe)
如需所有先前 NVIDIA GRID 驅動程式版本的連結,請前往 GitHub。
驅動程式安裝
由遠端桌面連接至每個 N 系列 VM。
下載、擷取及安裝 Windows 作業系統支援的驅動程式。
在 VM 上安裝 GRID 驅動程式之後,必須重新啟動。 在安裝 CUDA 驅動程式之後,不需要重新啟動。
確認驅動程式安裝
請注意,NVIDIA 控制台只能透過 GRID 驅動程式安裝來存取。 若已安裝 CUDA 驅動程式,則不會顯示 NVIDIA 控制台。
您可以在 [裝置管理員] 中確認驅動程式安裝。 下列範例會顯示 Azure NC VM 上成功的 Tesla K80 卡組態。
若要查詢 GPU 裝置狀態,請執行與驅動程式一起安裝的 nvidia-smi命令列公用程式。
開啟命令提示字元然後變更位置到 C:\Program Files\NVIDIA Corporation\NVSMI 目錄中。
執行
nvidia-smi
。 如果已安裝驅動程式,您會看到類似以下的輸出。 除非您正在 VM 上執行 GPU 工作負載,否則 [GPU-Util] 會顯示 0%。 您的驅動程式版本和 GPU 詳細資料可能會與顯示的不同。
RDMA 網路連線
可以在支援 RDMA 的 N 系列 VM (例如部署在同一個可用性設定組或虛擬機器擴展集的單一放置群組中的 NC24r) 上啟用 RDMA 網路連線能力。 在具備 RDMA 功能的 VM 上,HpcVmDrivers 擴充必須新增以安裝 Windows 網路裝置驅動程式,該驅動程式會啟用 RDMA 連線能力。 若要將 VM 擴充功能新增至 RDMA 啟用的 N 系列 VM,請針對 Azure Resource Manager 使用 Azure PowerShell Cmdlet。
若要在美國西部區域中名為 myVM 的現有具備 RDMA 功能的 VM 上安裝最新版本 1.1 HpcVMDrivers 延伸模組:
Set-AzVMExtension -ResourceGroupName "myResourceGroup" -Location "westus" -VMName "myVM" -ExtensionName "HpcVmDrivers" -Publisher "Microsoft.HpcCompute" -Type "HpcVmDrivers" -TypeHandlerVersion "1.1"
如需詳細資訊,請參閱適用於 Windows 的虛擬機器擴充功能和功能。
RDMA 網路可針對使用 Microsoft MPI 或 Intel MPI 5.x 執行的應用程式,支援訊息傳遞介面 (MPI) 流量。
下一步
- 針對 NVIDIA Tesla GPU 組建 GPU 加速應用程式的開發人員也可以下載及安裝最新 CUDA Toolkit。 如需詳細資訊,請參閱 CUDA 安裝指南。