你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

HC 系列虚拟机概述

注意

本文引用了 CentOS,这是一个接近生命周期结束 (EOL) 状态的 Linux 发行版。 请相应地考虑你的使用和规划。 有关详细信息,请参阅 CentOS 生命周期结束指南

适用于:✔️ Linux VM ✔️ Windows VM ✔️ 灵活规模集 ✔️ 统一规模集

要在 Intel Xeon 可扩展处理器上最大限度提高 HPC 应用程序性能,需要一种周全的方法来处理这一新体系结构上的放置。 下文概述了如何在适用于 HPC 应用程序的 Azure HC 系列 VM 上实现它。 我们将使用术语“pNUMA”指代物理 NUMA 域,使用“vNUMA”指代虚拟化 NUMA 域。 同样,我们将使用术语“pCore”指代物理 CPU 核心,使用“vCore”指代虚拟化 CPU 核心。

从物理上讲,HC 系列服务器是 2 * 24 核 Intel Xeon Platinum 8168 CPU,总共 48 个物理核心。 每个 CPU 都是一个 pNUMA 域,它们对六个 DRAM 通道的访问权限相同。 Intel Xeon Platinum CPU 的 L2 缓存是前几代的 4 倍大(256 KB/核 -> 1 MB/核),同时相比以前的 Intel CPU 还减少了 L3 缓存(2.5 MB/核 -> 1.375 MB/核)。

上面的拓扑结构也可继承到 HC 系列虚拟机监控程序配置中。 为了给 Azure 虚拟机监控程序提供运行空间而又不干扰 VM,我们预留了 pCore 0-1 和 24-25(即每个套接字上的前 2 个 pCore)。 然后,我们会将 pNUMA 域所有剩余的核心分配给 VM。 这样,VM 就会看到:

每个 VM (2 vNUMA domains) * (22 cores/vNUMA) = 44 个核心

VM 并不知道自己没有 pCore 0-1 和 24-25。 因此,它公开每个 vNUMA,就像它本身有 22 个核心一样。

Intel Xeon Platinum、Gold 和 Silver CPU 还引入了片上 2D 网格网络,用于在 CPU 插槽内部和外部进行通信。 强烈建议使用进程固定来实现最佳性能和一致性。 进程固定适用于 HC 系列 VM,因为底层硅按原样公开给来宾 VM。

下图显示了为 Azure 虚拟机监控程序和 HC 系列 VM 保留的核心的隔离。

为 Azure 虚拟机监控程序和 HC 系列 VM 保留的核心的隔离

硬件规格

硬件规格 HC 系列 VM
核心数 44(已禁用 HT)
CPU Intel Xeon Platinum 8168
CPU 频率(非 AVX) 3.7 GHz(单核),2.7-3.4 GHz(所有核心)
内存 8 GB/核心(共 352)
本地磁盘 700 GB SSD
Infiniband 100 Gb EDR Mellanox ConnectX-5
网络 50 Gb 以太网(40 Gb 可用)Azure 第二代 SmartNIC

软件规格

软件规格 HC 系列 VM
最大 MPI 作业大小 13200 个核心(单个虚拟机规模中 300 个 VM,且 singlePlacementGroup=true)
MPI 支持 HPC-X、Intel MPI、OpenMPI、MVAPICH2、MPICH、Platform MPI
其他框架 UCX、libfabric、PGAS
Azure 存储支持 标准磁盘和高级磁盘(最多 4 个磁盘)
SRIOV RDMA 的操作系统支持 CentOS/RHEL 7.6+、Ubuntu 18.04+、SLES 15.4、WinServer 2016+
Orchestrator 支持 CycleCloud、Batch、AKS;群集配置选项

重要

本文档引用临近或处于生命周期终止 (EOL) 日期的 Linux 发行版本。 请考虑更新到最新版本。

后续步骤