Azure Stack Hub 上的圖形處理器 (GPU) 虛擬機器 (VM)
本文說明 Azure Stack Hub 整合式系統上支援哪些圖形處理單元 (GPU) 模型。 本文也包含安裝與 GPU 搭配使用的驅動程式的指示。 Azure Stack Hub 中的 GPU 支援可啟用人工智慧、定型、推斷和數據視覺效果等解決方案。 AMD Radeon Instinct MI25 可用來支援圖形密集型應用程式,例如 Autodesk AutoCAD。
您可以從三個 GPU 模型中選擇。 由 NVIDIA V100、NVIDIA T4 和 AMD MI25 GPU 提供。 這些實體 GPU 會與下列 Azure N 系列虛擬機 (VM) 類型保持一致,如下所示:
警告
此版本不支援 GPU VM。 您必須升級至 Azure Stack Hub 2005 或更新版本。 此外,您的 Azure Stack Hub 硬體必須具有實體 GPU。
NCv3
NCv3 系列 VM 是由 NVIDIA Tesla V100 GPU 提供技術支援。 客戶可善用這些更新的 GPU,進行傳統 HPC 工作負載,例如水庫模型化、DNA 排序、蛋白質分析、蒙地卡羅模擬等案例。
大小 | vCPU | 記憶體:GiB | 暫存儲存體 (SSD) GiB | GPU | GPU 記憶體:GiB | 最大資料磁碟 | 最大 NIC |
---|---|---|---|---|---|---|---|
Standard_NC6s_v3 | 6 | 112 | 736 | 1 | 16 | 12 | 4 |
Standard_NC12s_v3 | 12 | 224 | 1474 | 2 | 32 | 24 | 8 |
Standard_NC24s_v3 | 24 | 448 | 2948 | 4 | 64 | 32 | 8 |
NVv4
NVv4 系列虛擬機器由 AMD Radeon Instinct MI25 GPU 提供。 使用 NVv4 系列,Azure Stack Hub 引進具有部分 GPU 的虛擬機。 這個大小可用於 GPU 加速圖形應用程式和虛擬桌面。 NVv4 虛擬機目前僅支援 Windows 客體作業系統。
大小 | vCPU | 記憶體:GiB | 暫存儲存體 (SSD) GiB | GPU | GPU 記憶體:GiB | 最大資料磁碟 | 最大 NIC |
---|---|---|---|---|---|---|---|
Standard_NV4as_v4 | 4 | 14 | 88 | 1/8 | 2 | 4 | 2 |
Standard_NV8as_v4 | 8 | 28 | 176 | 1/4 | 4 | 8 | 4 |
Standard_NV16as_v4 | 16 | 56 | 352 | 1/2 | 8 | 16 | 8 |
Standard_NV32as_v4 | 32 | 112 | 704 | 1 | 16 | 32 | 8 |
NCasT4_v3
大小 | vCPU | 記憶體:GiB | GPU | GPU 記憶體:GiB | 最大資料磁碟 | 最大 NIC |
---|---|---|---|---|---|---|
Standard_NC4as_T4_v3 | 4 | 28 | 1 | 16 | 8 | 4 |
Standard_NC8as_T4_v3 | 8 | 56 | 1 | 16 | 16 | 8 |
Standard_NC16as_T4_v3 | 16 | 110 | 1 | 16 | 32 | 8 |
Standard_NC64as_T4_v3 | 64 | 440 | 4 | 64 | 32 | 8 |
NC_A100 v4
NC_A100系列 VM 由 NVIDIA Ampere A100 GPU 提供電源,這是特斯拉 V100 GPU 的繼任者。 您可以利用這些更新的 GPU 進行傳統 HPC 工作負載,例如水庫模型化、DNA 排序、蛋白質分析、蒙特卡洛模擬等等。
大小 | vCPU | 記憶體:GiB | 暫存儲存體 (GiB) | 最大資料磁碟 | GPU | GPU 記憶體 GiB | 最大 NIC |
---|---|---|---|---|---|---|---|
Standard_NC24ads_A100_v4 | 24 | 220 | 1123 | 12 | 1 | 80 | 2 |
Standard_NC48ads_A100_v4 | 48 | 440 | 2246 | 24 | 2 | 160 | 4 |
NC_L40S v4
大小 | vCPU | 記憶體:GiB | 暫存儲存體 (GiB) | 最大資料磁碟 | GPU | GPU 記憶體 GiB | 最大 NIC |
---|---|---|---|---|---|---|---|
Standard_NC24ads_L40S_v4 | 24 | 220 | 1123 | 8 | 1 | 80 | 2 |
Standard_NC48ads_L40S_v4 | 48 | 440 | 2246 | 16 | 2 | 160 | 4 |
GPU 系統考慮
- GPU 必須是下列其中一個 SKU:AMD MI-25、Nvidia V100 (和 variants)、Nvidia T4。
- 每個伺服器支援的 GPU 數目(1、2、3、4)。 慣用的是:1、2 和 4。
- 所有 GPU 在整個縮放單位中都必須是完全相同的 SKU。
- 每個伺服器的所有 GPU 數量都必須在整個縮放單位中相同。
- GPU 磁碟分區大小(適用於 AMD Mi25)必須在縮放單位上的所有 GPU VM 上相同。
產能規劃
Azure Stack Hub 容量規劃工具已更新以支援 GPU 組態。 這裡可供存取。
在現有的 Azure Stack Hub 上新增 GPU
Azure Stack Hub 現在支援將 GPU 新增至任何現有的系統。 若要新增 GPU,請執行 stop-azurestack
,執行 、新增 GPU 的程式 stop-azurestack
,然後執行 start-azurestack
直到完成為止。 如果系統已經有 GPU,則必須 stop-deallocated
重新啟動任何先前建立的 GPU VM。
修補和更新 VM 的 FRU 行為
GPU VM 會在 Azure Stack Hub 的修補和更新 (PnU) 和硬體更換 (FRU) 等作業期間停機。 下表涵蓋這些活動期間所觀察到的 VM 狀態,以及您可以在作業之後提供這些 VM 的手動動作。
作業 | PnU - 完整更新、OEM 更新 | FRU |
---|---|---|
VM 狀態 | 更新期間無法使用。 可以使用手動操作。 VM 會在更新後自動上線。 | 在 FRU 期間無法使用。 可以使用手動操作。 VM 必須在 FRU 之後進行備份 |
手動作業 | 如果需要在更新期間提供 VM,如果有可用的 GPU 磁碟分區,則可以按兩下 [重新啟動 ] 按鈕,從入口網站重新啟動 VM。 VM 會在更新後自動備份。 | FRU 期間無法使用 VM。 如果有可用的 GPU,VM 可能會在 FRU 期間停止解除分配並重新啟動。 FRU 完成後,VM 必須使用 stop-deallocated [ 停止 ] 按鈕,然後使用 [ 開始 ] 按鈕重新啟動。 |
客體驅動程式安裝
下列 PowerShell Cmdlet 可用於驅動程式安裝:
$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"
Set-AzureRmVMExtension -Location $Location `
-Publisher $driverPublisher `
-ExtensionType $driverType `
-TypeHandlerVersion $driverVersion `
-VMName $VmName `
-ResourceGroupName $ResourceGroupName `
-Name $driverName `
-Settings $Settings ` # If no settings are set, omit this parameter
-Verbose
根據 Azure Stack Hub GPU VM 的 OS、類型和連線能力,您必須以下列設定取代這些值。
AMD MI25
不論連線狀態為何,客體驅動程式版本都必須符合 Azure Stack Hub 版本。 使用與 Azure Stack Hub 版本不一致的較新版本可能會導致可用性問題。
Azure Stack Hub 版本 | AMD 客體驅動程式 |
---|---|
2206 和更新版本 | 21.Q2-1,20.Q4-1 |
2108 | 21.Q2-1,20.Q4-1 |
2102 | 21.Q2-1,20.Q4-1 |
Connected
使用上一節中的PowerShell腳本搭配 AMD 適用的驅動程式類型。 在執行 Windows 的 N 系列 VM 上安裝 AMD GPU 驅動程式一文提供在已啟用 NVv4 GPU-P 的 VM 內安裝 AMD Radeon Instinct MI25 驅動程式的指示,以及如何驗證驅動程式安裝的步驟。
已中斷連線
因為擴充功能會從因特網上的位置提取驅動程式,所以從外部網路中斷連線的 VM 無法存取它。 您可以從 上表 下載驅動程式,並上傳至 VM 可存取之區域網路中的記憶體帳戶。
將 AMD 驅動程式新增至記憶體帳戶,並在 中指定該帳戶的 Settings
URL。 這些設定必須在 Set-AzureRMVMExtension Cmdlet 中使用。 例如:
$Settings = @{
"DriverURL" = <URL to driver in storage account>
}
NVIDIA
NVIDIA 驅動程式必須安裝在使用 GPU 的 CUDA 或 GRID 工作負載的虛擬機內。
使用案例:圖形/視覺效果 GRID
此案例需要使用 GRID 驅動程式。 您可以透過 NVIDIA 應用程式中樞下載 GRID 驅動程式,前提是您擁有必要的授權。 在 VM 上使用 GRID 驅動程式之前,GRID 驅動程式也需要具有適當 GRID 授權的 GRID 授權伺服器。
$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664";
"DriverType"="GRID"
}
使用案例:compute/CUDA - Connected
CUDA 驅動程式不需要授權伺服器,也不需要修改的設定。
使用案例:計算/CUDA - 已中斷連線
您可以使用連結來取得 NVIDIA CUDA 驅動程式的連結: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json
Windows:
$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664";
"DriverType"="CUDA"
}
Linux:
您必須參考一些設定的網址:
URL | 備註 |
---|---|
PUBKEY_URL | PUBKEY_URL是 Nvidia 驅動程式存放庫的公鑰,不適用於 Linux VM。 它用來安裝適用於Ubuntu的驅動程式。 |
DRIVER_URL | DRIVER_URL是下載 Nvidia 驅動程式存放庫資訊的 URL,並新增至 Linux VM 的存放庫清單。 |
將 URL 新增至您的設定。
$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}