HC 系列虛擬機器概觀

適用於:✔️ Linux VM ✔️ Windows VM ✔️ 彈性擴展集 ✔️ 統一擴展集

將 Intel Xeon 可調整處理器上的 HPC 應用程式效能最大化,需要有一種完善的方式來處理這個新架構上的放置。 在這裡,我們概述此方式在適用於 HPC 應用程式的 Azure HC 系列 VM 上的實作。 "pNUMA" 一詞指的是實體 NUMA 網域,而 "vNUMA" 則指的是虛擬化 NUMA 網域。 同樣地,我們將使用 "pCore" 一詞來參照實體 CPU 核心,而「虛擬核心」指的是虛擬化 CPU 核心。

實際上,HC 系列伺服器是 2 * 24 核心的 Intel Xeon Platinum 8168 CPU,共有 48 個實體核心。 每個 CPU 都是單一 pNUMA 網域,並且可以統一存取六個 DRAM 通道。 Intel Xeon Platinum CPU 具備比先前的世代更大的 4x L2 快取 (256 KB/核心 -> 1 MB/核心),同時相較於先前的 Intel CPU (2.5 MB/核心 -> 1.375 MB/核心) 還減少 L3 快取。

上述拓撲也會傳遞給 HC 系列 Hypervisor 設定。 為了讓 Azure Hypervisor 擁有足夠空間,在不干擾 VM 的情況下運作,我們會保留 pCore 0-1 和 24-25 (即每個通訊端上的前 2 個 pCore)。 我們接著會將 VM 的所有剩餘核心指派給 pNUMA 網域。 因此,VM 將會看到:

每個 VM 有 (2 vNUMA domains) * (22 cores/vNUMA) = 44 個核心

VM 並不知道未獲指派 pCore 0-1 和 24-25。 因此,它會公開每個 vNUMA,就像原本就有 22 個核心一樣。

Intel Xeon Platinum、Gold 和 Silver CPU 也引進一個同片 2D 網格網路,用於 CPU 通訊端內部和外部的通訊。 強烈建議進行程序釘選以獲得最佳效能和一致性。 程序釘選將會在 HC 系列 VM 上運作,因為系統會依原樣向客體 VM 公開基礎晶片。

下列圖表顯示針對 Azure Hypervisor 和 HC 系列 VM 所保留的核心隔離。

保留給 Azure Hypervisor 和 HC 系列 VM 的核心隔離

硬體規格

硬體規格 HC 系列 VM
核心 44 (已停用 HT)
CPU Intel Xeon Platinum 8168
CPU 頻率 (非 AVX) 3.7 GHz (單一核心)、2.7-3.4 GHz (所有核心)
記憶體 8 GB/核心 (總計 352)
本機磁碟 700 GB SSD
Infiniband 100 GB EDR Mellanox ConnectX-5
網路 50 GB 乙太網路 (40 GB 可用) Azure 第二代 SmartNIC

軟體規格

軟體規格 HC 系列 VM
MPI 工作大小上限 13200 cores (singlePlacementGroup=true 的單一虛擬機器擴展集中的 300 個 VM)
MPI 支援 HPC-X、Intel MPI、OpenMPI、MVAPICH2、MPICH、Platform MPI
其他架構 UCX、libfabric、PGAS
Azure 儲存體支援 標準和進階磁碟 (最多 4 個磁碟)
SRIOV RDMA 的 OS 支援 CentOS/RHEL 7.6+、Ubuntu 18.04+、SLES 15.4、WinServer 2016+
協調器支援 CycleCloud、Batch、AKS;叢集設定選項

重要

本檔參考即將或接近或即將結束生命週期的 Linux 版本, (EOL) 。 請考慮更新為較最新的版本。

下一步