在執行 Windows 的 N 系列 VM 上安裝 NVIDIA GPU 驅動程式

適用於:✔️ Linux VM ✔️ Windows VM ✔️ 彈性擴展集

若要利用 NVIDIA GPU 所支援 Azure N 系列 VM 的 GPU 功能,則必須安裝 NVIDIA GPU 驅動程式。 NVIDIA GPU 驅動程式擴充功能會在 N 系列 VM 上安裝適當的 NVIDIA CUDA 或 GRID 驅動程式。 使用 Azure 入口網站或者 Azure PowerShell 或 Azure Resource Manager 範本之類的工具,安裝或管理擴充功能。 如需支援的作業系統和部署步驟,請參閱 NVIDIA GPU 驅動程式擴充功能文件

如果您選擇手動安裝 NVIDIA GPU 驅動程式,本文提供支援的作業系統、驅動程式,以及安裝和驗證步驟。 驅動程式手動設定資訊也適用於 Linux VM

如需基本規格、儲存體容量與磁碟的詳細資料,請參閱 GPU Windows VM 大小

支援的作業系統和驅動程式

NVIDIA Tesla (CUDA) 驅動程式

只有下表所列的作業系統才測試 NC、NCv2、NCv3、NCasT4_v3、ND 及 NDv2 系列 VM (針對 NV 系列為選擇性) 的 NVIDIA Tesla (CUDA) 驅動程式。 CUDA 驅動程式是泛型,非 Azure 特定的。 如需最新的驅動程式,請瀏覽 NVIDIA 網站。

提示

在 Windows Server VM 上手動安裝 CUDA 驅動程式的替代方案,就是部署 Azure 資料科學虛擬機器映像。 適用於 Windows Server 2016 的 DSVM 版本會預先安裝 NVIDIA CUDA 驅動程式、CUDA 深度類神經網路程式庫和其他工具。

OS 驅動程式
Windows Server 2019 451.82 (.exe)
Windows Server 2016 451.82 (.exe)

NVIDIA GRID 驅動程式

Microsoft 會針對用來作為虛擬工作站的 NV 和 NVv3 系列虛擬機器或虛擬應用程式,重新發佈 NVIDIA GRID 驅動程式安裝程式。 請僅將這些 GRID 驅動程式安裝在 Azure NV 系列虛擬機器上,且僅安裝在下表所列的作業系統上。 這些驅動程式包含在 Azure 的 GRID 虛擬 GPU 軟體的授權中。 您不需要設定 NVIDIA vGPU 軟體授權伺服器。

Azure 重新發佈的 GRID 驅動程式無法在非 NV 系列虛擬機器上使用,如 NCv2、NCv3、ND 和 NDv2 系列 VM。 例外為 NCas_T4_V3 VM 系列,GRID 驅動程式會啟用與 NV 系列類似的圖形功能。

搭載 NVIDIA K80 GPU 的 NC 系列不支援 GRID/圖形應用程式。

NVIDIA 擴充功能一律安裝最新的驅動程式。 提供下列舊版連結,以支援驅動程式較舊版本的相依性。

針對 Windows Server 2022、Windows Server 2019、Windows Server 2016 1607、1709、Windows 10 和 Windows 11:

針對 Windows Server 2012 R2:

注意

Azure NVads A10 v5 VM 僅支援 GRID 14.1 (512.78) (含) 以上的驅動程式版本。

如需所有先前 NVIDIA GRID 驅動程式版本的連結,請前往 GitHub

驅動程式安裝

  1. 由遠端桌面連接至每個 N 系列 VM。

  2. 下載、擷取及安裝 Windows 作業系統支援的驅動程式。

在 VM 上安裝 GRID 驅動程式之後,必須重新啟動。 在安裝 CUDA 驅動程式之後,不需要重新啟動。

確認驅動程式安裝

請注意,NVIDIA 控制台只能透過 GRID 驅動程式安裝來存取。 若已安裝 CUDA 驅動程式,則不會顯示 NVIDIA 控制台。

您可以在 [裝置管理員] 中確認驅動程式安裝。 下列範例會顯示 Azure NC VM 上成功的 Tesla K80 卡組態。

GPU 驅動程式屬性

若要查詢 GPU 裝置狀態,請執行與驅動程式一起安裝的 nvidia-smi命令列公用程式。

  1. 開啟命令提示字元然後變更位置到 C:\Program Files\NVIDIA Corporation\NVSMI 目錄中。

  2. 執行 nvidia-smi。 如果已安裝驅動程式,您會看到類似以下的輸出。 除非您正在 VM 上執行 GPU 工作負載,否則 [GPU-Util] 會顯示 0%。 您的驅動程式版本和 GPU 詳細資料可能會與顯示的不同。

NVIDIA 裝置狀態

RDMA 網路連線

可以在支援 RDMA 的 N 系列 VM (例如部署在同一個可用性設定組或虛擬機器擴展集的單一放置群組中的 NC24r) 上啟用 RDMA 網路連線能力。 在具備 RDMA 功能的 VM 上,HpcVmDrivers 擴充必須新增以安裝 Windows 網路裝置驅動程式,該驅動程式會啟用 RDMA 連線能力。 若要將 VM 擴充功能新增至 RDMA 啟用的 N 系列 VM,請針對 Azure Resource Manager 使用 Azure PowerShell Cmdlet。

若要在美國西部區域中名為 myVM 的現有具備 RDMA 功能的 VM 上安裝最新版本 1.1 HpcVMDrivers 延伸模組:

Set-AzVMExtension -ResourceGroupName "myResourceGroup" -Location "westus" -VMName "myVM" -ExtensionName "HpcVmDrivers" -Publisher "Microsoft.HpcCompute" -Type "HpcVmDrivers" -TypeHandlerVersion "1.1"

如需詳細資訊,請參閱適用於 Windows 的虛擬機器擴充功能和功能

RDMA 網路可針對使用 Microsoft MPI 或 Intel MPI 5.x 執行的應用程式,支援訊息傳遞介面 (MPI) 流量。

下一步

  • 針對 NVIDIA Tesla GPU 組建 GPU 加速應用程式的開發人員也可以下載及安裝最新 CUDA Toolkit。 如需詳細資訊,請參閱 CUDA 安裝指南