共用方式為


HB 系列虛擬機器概觀

適用於: ✔️ Linux VM ✔️ Windows VM ✔️ 彈性擴展集 ✔️ 統一擴展集

在 AMD EPYC 極大化高效能運算 (HPC) 應用程式效能,需要謹慎方法記憶體位置和流程放置。 以下概述 AMD EPYC 結構,與適用 HPC 應用程式在 Azure 上的運用。 "pNUMA" 一詞指的是實體 NUMA 網域,而 "vNUMA" 則指的是虛擬化 NUMA 網域。

實體上,HB 系列伺服器共有 64 個實體核心,分別為 2 個 32 核心的 EPYC 7551 CPU。 64 個核心會分成 16 個 pNUMA 網域 (每通訊端 8 個),其中含有 4 個核心,稱為「CPU 複合」(或稱「CCX」)。 每一 CCX 有各自的 L3 快取,此為作業系統分辨 pNUMA/vNUMA 界限的方法。 一對相鄰 CCX 共用兩個實體 DRAM (HB 系列伺服器的 32 GB DRAM) 頻道的存取權。

為了提供空間讓 Azure Hypervisor 在不干擾 VM 的情況下運作,系統會保留實體 pNUMA 網域 0 (第一個 CCX)。 系統會指派 pNUMA 網域 1-15 (剩餘的 CCX 單位) 給 VM。 VM 會看到:

(15 vNUMA domains) * (4 cores/vNUMA) = 60每 VM 的核心數

VM 本身不知道系統沒有指派 pNUMA 0。 VM 會將 pNUMA 1-15 識別為 vNUMA 0-14,7 個 vNUMA 在 vSocket 0 上與 8 個 vNUMA 在 vSocket 1。 雖然上述分類非對稱,作業系統應會正常開機並正常運作。 本指南稍後會指導如何在不對稱 NUMA 配置上執行 MPI 應用程式的最佳方法。

流程釘選會在 HB 系列 VM 上運作,因為我們會依原樣向客體 VM 公開基礎晶片。 強烈建議進行流程釘選以獲得最佳效能和一致性。

下列圖表顯示為 Azure Hypervisor 和 HB 系列 VM 保留的核心隔離。

Azure Hypervisor 和 HB 系列 VM 保留的核心隔離

硬體規格

硬體規格 HB 系列 VM
核心 60 (SMT 已停用)
CPU AMD EPYC 7551
CPU 頻率 (非 AVX) ~2.55 GHz (單一 + 所有核心)
記憶體 4 GB/核心 (總共 240 GB)
本機磁碟 700 GB SSD
Infiniband 100 GB EDR Mellanox ConnectX-5
網路 50 GB 乙太網路 (40 GB 可用) Azure 第二代 SmartNIC

軟體規格

軟體規格 HB 系列 VM
MPI 作業大小上限 18000 核心 (具有 singlePlacementGroup=true 的單一虛擬機器擴展集中的300 個 VM)
MPI 支援 HPC-X、Intel MPI、OpenMPI、MVAPICH2、MPICH、Platform MPI
其他架構 UCX、libfabric、PGAS
Azure 儲存體支援 標準和進階磁碟 (最多 4 個磁碟)
SRIOV RDMA 的 OS 支援 RHEL 7.6+、Ubuntu 18.04+、SLES 15.4、WinServer 2016+
協調器支援 CycleCloud、Batch、AKS;叢集設定選項

重要

本文件參考即將或已處於生命週期結束 (EOL) 狀態的 Linux 版本。 請考慮更新為較新的版本。

下一步