你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

NDm A100 v4 系列

注意

本文引用了 CentOS,这是一个接近生命周期结束 (EOL) 状态的 Linux 发行版。 请相应地考虑你的使用和规划。 有关详细信息,请参阅 CentOS 生命周期结束指南

适用于:✔️ Linux VM ✔️ Windows VM ✔️ 灵活规模集 ✔️ 统一规模集

NDm A100 v4 系列虚拟机 (VM) 是 Azure GPU 系列的新增旗舰产品。 它专为高端深度学习训练和紧密耦合的纵向扩展和横向扩展 HPC 工作负载而设计。

NDm A100 v4 系列的起步配置是一个 VM 和八个 NVIDIA Ampere A100 80GB Tensor Core GPU。 基于 NDm A100 v4 的部署可以纵向扩展到成千上万个 GPU,每个 VM 的互连带宽为 1.6 TB/秒。 VM 内的每个 GPU 都具备其自己专用的、与拓扑无关的 200 GB/秒 NVIDIA Mellanox HDR InfiniBand 连接。 这些连接在占用同一 VM 规模集的 VM 之间自动配置,并且支持 GPUDirect RDMA。

每个 GPU 都配备用于 VM 内通信的 NVLINK 3.0 连接,并且实例由 96 个物理第 2 代 AMD Epyc™ 7V12 (Rome) CPU 核心提供支持。

这些实例为众多 AI、ML、支持 GPU 加速的现成分析工具(如 TensorFlow、Pytorch、Caffe、RAPIDS)以及其他框架提供卓越的性能。 此外,一大组基于 NVIDIA 的 NCCL2 通信库构建的现有 AI 和 HPC 工具都支持横向扩展 InfiniBand 互连,以便实现无缝的 GPU 群集化。

重要

若要开始使用 NDm A100 v4 VM,请参阅 HPC 工作负荷配置和优化,了解包括驱动程序和网络配置在内的步骤。 由于 GPU 内存 I/O 占用量增加,NDm A100 v4 需要使用第 2 代 VM 和市场映像。 强烈建议使用 Azure HPC 映像。 支持 Azure HPC Ubuntu 18.04、20.04 和 Azure HPC CentOS 7.9 映像。


高级存储:支持
高级存储缓存:支持
超级磁盘:受支持(详细了解可用性、使用情况和性能)
实时迁移:不支持
内存保留更新:不支持
VM 代系支持:第 2 代
加速网络:支持
临时 OS 磁盘:支持
InfiniBand:受支持,GPUDirect RDMA,8 x 200 千兆位 HDR
Nvidia NVLink 互连:支持
嵌套虚拟化:不支持

NDm A100 v4 系列支持以下内核版本:
CentOS 7.9 HPC: 3.10.0-1160.24.1.el7.x86_64
Ubuntu 18.04:5.4.0-1043-azure
Ubuntu 20.04:5.4.0-1046-azure

大小 vCPU 内存:GiB 临时存储 (SSD):GiB GPU GPU 内存:GiB 最大数据磁盘数 非缓存磁盘最大吞吐量:IOPS / MBps 最大网络带宽 最大 NIC 数
Standard_ND96amsr_A100_v4 96 1900 6400 8 个 A100 80 GB GPU (NVLink 3.0) 80 32 80,000 / 800 24000 Mbps 8

大小表定义

  • 存储容量的单位为 GiB 或 1024^3 字节。 比较以 GB(1000^3 字节)为单位的磁盘和以 GiB(1024^3 字节)为单位的磁盘时,请记住以 GiB 为单位的容量数显得更小。 例如,1023 GiB = 1098.4 GB。

  • 磁盘吞吐量的单位为每秒输入/输出操作数 (IOPS) 和 Mbps,其中 Mbps = 10^6 字节/秒。

  • 数据磁盘可以在缓存或非缓存模式下运行。 对于缓存数据磁盘操作,主机缓存模式设置为 “ReadOnly”“ReadWrite”。 对于非缓存数据磁盘操作,主机缓存模式设置为 "None"

  • 如要了解如何为虚拟机获得最佳存储性能,请参阅虚拟机和磁盘性能

  • 预期的网络带宽是指跨所有 NIC 为每个 VM 类型分配的最大聚合带宽,适用于所有目标。 有关详细信息,请参阅虚拟机网络带宽

    上限不能保证。 这些限制能够为目标应用程序选择适当的虚拟机类型提供指导。 实际的网络性能取决于多种因素,比如网络拥塞、应用程序负载和网络设置。 有关如何优化网络吞吐量的信息,请参阅为 Azure 虚拟机优化网络吞吐量。 如要在 Linux 或 Windows 中达到预期的网络性能,可能需要选择特定的版本或优化虚拟机。 有关详细信息,请参阅带宽/吞吐量测试 (NTTTCP)

其他大小和信息

定价计算器:定价计算器

有关磁盘类型的详细信息,请参阅 Azure 有哪些可用的磁盘类型?

后续步骤

了解有关 Azure 计算单元 (ACU) 如何帮助跨 Azure SKU 比较计算性能的详细信息。