共用方式為


Azure Stack Hub 上的圖形處理器 (GPU) 虛擬機器 (VM)

本文說明 Azure Stack Hub 整合式系統上支援哪些圖形處理單元 (GPU) 模型。 您也可以找到安裝與 GPU 搭配使用的驅動程式的指示。 Azure Stack Hub 中的 GPU 支援可啟用人工智慧、定型、推斷和數據視覺效果等解決方案。 AMD Radeon Instinct MI25 可用來支援圖形密集型應用程式,例如 Autodesk AutoCAD。

您可以從三個 GPU 模型中選擇。 它們可在 NVIDIA V100、NVIDIA T4 和 AMD MI25 GPU 中使用。 這些實體 GPU 會與下列 Azure N 系列虛擬機 (VM) 類型保持一致,如下所示:

警告

此版本不支援 GPU VM。 您必須升級至 Azure Stack Hub 2005 或更新版本。 此外,您的 Azure Stack Hub 硬體必須具有實體 GPU。

NCv3

NCv3 系列 VM 是由 NVIDIA Tesla V100 GPU 提供技術支援。 客戶可善用這些更新的 GPU,進行傳統 HPC 工作負載,例如水庫模型化、DNA 排序、蛋白質分析、蒙地卡羅模擬等案例。

大小 vCPU 記憶體:GiB 暫存儲存體 (SSD) GiB GPU GPU 記憶體:GiB 最大資料磁碟 最大 NIC
Standard_NC6s_v3 6 112 736 1 16 12 4
Standard_NC12s_v3 12 224 1474 2 32 24 8
Standard_NC24s_v3 24 448 2948 4 64 32 8

NVv4

NVv4 系列虛擬機器由 AMD Radeon Instinct MI25 GPU 提供。 使用 NVv4 系列 Azure Stack Hub 引進具有部分 GPU 的虛擬機器。 這個大小可用於 GPU 加速圖形應用程式和虛擬桌面。 NVv4 虛擬機器目前僅支援 Windows 客體作業系統。

大小 vCPU 記憶體:GiB 暫存儲存體 (SSD) GiB GPU GPU 記憶體:GiB 最大資料磁碟 最大 NIC
Standard_NV4as_v4 4 14 88 1/8 2 4 2
Standard_NV8as_v4 8 28 176 1/4 4 8 4
Standard_NV16as_v4 16 56 352 1/2 8 16 8
Standard_NV32as_v4 32 112 704 1 16 32 8

NCasT4_v3

大小 vCPU 記憶體:GiB GPU GPU 記憶體:GiB 最大資料磁碟 最大 NIC
Standard_NC4as_T4_v3 4 28 1 16 8 4
Standard_NC8as_T4_v3 8 56 1 16 16 8
Standard_NC16as_T4_v3 16 110 1 16 32 8
Standard_NC64as_T4_v3 64 440 4 64 32 8

NC_A100 v4

NC_A100系列 VM 由 NVIDIA Ampere A100 GPU 提供電源,這是特斯拉 V100 GPU 的繼任者。 您可以利用這些更新的 GPU 進行傳統 HPC 工作負載,例如水庫模型化、DNA 排序、蛋白質分析、蒙特卡洛模擬等等。

大小 vCPU 記憶體:GiB 暫存儲存體 (GiB) 最大資料磁碟 GPU GPU 記憶體 GiB 最大 NIC
Standard_NC24ads_A100_v4 24 220 1123 12 1 80 2
Standard_NC48ads_A100_v4 48 440 2246 24 2 160 4

GPU 系統考慮

  • GPU 必須是下列其中一個 SKU:AMD MI-25、Nvidia V100 (和 variants)、Nvidia T4。
  • 每個伺服器支援的 GPU 數目(1、2、3、4)。 慣用的是:1、2 和 4。
  • 所有 GPU 在整個縮放單位中都必須是完全相同的 SKU。
  • 每個伺服器的所有 GPU 數量都必須在整個縮放單位中相同。
  • GPU 磁碟分區大小(適用於 AMD Mi25)必須在縮放單位上的所有 GPU VM 上相同。

產能規劃

Azure Stack Hub 容量規劃工具已更新以支援 GPU 組態。 其可在上 https://aka.ms/azstackcapacityplanner存取。

在現有的 Azure Stack Hub 上新增 GPU

Azure Stack Hub 現在支援將 GPU 新增至任何現有的系統。 若要這樣做,請執行 stop-azurestack、執行 stop-azurestack、新增 GPU 的程式,然後執行 start-azurestack 直到完成為止。 如果系統已經有 GPU,則任何先前建立的 GPU VM 都必須 停止解除分配 ,然後 重新啟動

修補和更新 VM 的 FRU 行為

GPU VM 會在 Azure Stack Hub 的修補和更新 (PnU) 和硬體更換 (FRU) 等作業期間停機。 下表涵蓋這些活動期間所觀察到的 VM 狀態,以及您可以在作業之後提供這些 VM 的手動動作。

作業 PnU - 完整更新、OEM 更新 FRU
VM 狀態 更新期間無法使用。 可以使用手動操作。 VM 會在更新後自動上線。 在 FRU 期間無法使用。 可以使用手動操作。 VM 必須在 FRU 之後進行備份
手動作業 如果需要在更新期間提供 VM,如果有可用的 GPU 磁碟分區,則可以按兩下 [重新啟動 ] 按鈕,從入口網站重新啟動 VM。 VM 會在更新後自動備份 FRU 期間無法使用 VM。 如果有可用的 GPU,VM 可能會在 FRU 期間停止解除分配並重新啟動。 FRU 完成後,VM 必須使用 [停止] 按鈕停止解除分配,並使用 [開始] 按鈕啟動備份

客體驅動程式安裝

下列 PowerShell Cmdlet 可用於驅動程式安裝:

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

根據 Azure Stack Hub GPU VM 的 OS、類型和連線能力,您必須使用下列設定進行修改。

AMD MI25

不論連線狀態為何,客體驅動程式版本都必須符合 Azure Stack Hub 版本。 使用與 Azure Stack Hub 版本不一致的較新版本可能會導致可用性問題。

Azure Stack Hub 版本 AMD 客體驅動程式
2206 21.Q2-1,20.Q4-1
2108 21.Q2-1,20.Q4-1
2102 21.Q2-1,20.Q4-1

Connected

使用上一節中的PowerShell腳本搭配 AMD 適用的驅動程式類型。 在執行 Windows 的 N 系列 VM 上安裝 AMD GPU 驅動程式一文提供在已啟用 NVv4 GPU-P 的 VM 內安裝 AMD Radeon Instinct MI25 驅動程式的指示,以及如何驗證驅動程式安裝的步驟。

已中斷連接

因為擴充功能會從因特網上的位置提取驅動程式,因此從外部網路中斷連線的 VM 無法存取它。 您可以從 上表 下載驅動程式,並上傳至 VM 可存取之區域網路中的記憶體帳戶。

將 AMD 驅動程式新增至記憶體帳戶,並在 中指定該帳戶的 SettingsURL。 這些設定必須在 Set-AzureRMVMExtension Cmdlet 中使用。 例如:

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

NVIDIA 驅動程式必須安裝在使用 GPU 的 CUDA 或 GRID 工作負載的虛擬機內。

使用案例:圖形/視覺效果 GRID

此案例需要使用 GRID 驅動程式。 您可以透過 NVIDIA 應用程式中樞下載 GRID 驅動程式,前提是您擁有必要的授權。 在 VM 上使用 GRID 驅動程式之前,GRID 驅動程式也需要具有適當 GRID 授權的 GRID 授權伺服器。

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

使用案例:compute/CUDA - 連線 ed

CUDA 驅動程式不需要授權伺服器,也不需要修改的設定。

使用案例:計算/CUDA - 已中斷連線

您可以使用連結來取得 NVIDIA CUDA 驅動程式的連結: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

您必須參考設定的一些URL。

URL 備註
PUBKEY_URL PUBKEY_URL是 Nvidia 驅動程式存放庫的公鑰,不適用於 Linux VM。 它用來安裝適用於Ubuntu的驅動程式。
DRIVER_URL DRIVER_URL是下載 Nvidia 驅動程式存放庫資訊的 URL,並且會新增至 Linux VM 的存放庫清單。

將 URL 新增至您的設定。

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

下一步