你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
ND 子系列 GPU 加速 VM 大小系列
适用于:✔️ Linux VM ✔️ Windows VM ✔️ 灵活规模集 ✔️ 统一规模集
VM 大小系列的“ND”系列是 Azure 的 GPU 加速 VM 实例之一。 它们专为深度学习、AI 研究和高性能计算任务而设计,可受益于强大的 GPU 加速。 ND 系列 VM 配备 NVIDIA GPU,提供复杂机器学习模型训练和推理的专业功能,有助于加快计算速度和大型数据集的高效处理。 这使得它们非常适合用于 AI 开发和模拟中的学术和商业应用,在其中,前沿的 GPU 技术对于在神经网络处理和其他计算密集型任务中获得快速、准确的结果至关重要。
工作负载和用例
AI 和深度学习:ND 系列 VM 非常适合用于训练和部署复杂的深度学习模型。 它们配备了强大的 NVIDIA GPU,提供通过大型数据集处理大规模神经网络训练所需的计算功能,从而可以显著缩短训练时间。
高性能计算 (HPC):ND 系列 VM 适合用于需要 GPU 加速的 HPC 应用程序。 科学研究、工程模拟(例如计算流体动力学)和基因组处理等领域可以受益于 ND 系列 VM 的高吞吐量计算功能。
图形渲染:ND 系列的 GPU 使其成为图形密集型任务的绝佳选择,包括动画和视频制作的实时渲染以及虚拟现实环境的高保真模拟。
远程可视化:ND 系列 VM 可用于数据密集型任务的远程可视化,在其中,需要通过高端 GPU 功能在云上处理和渲染复杂的可视化效果,从而方便从算力较弱的客户端计算机进行访问。
系列中的系列
ND 系列 V1
ND 系列虚拟机是针对 AI 和深度学习工作负荷设计的 GPU 系列的新成员。 它们在训练和推理方面性能卓越。 ND 实例由 NVIDIA Tesla P40 GPU 和 Intel Xeon E5-2690 v4 (Broadwell) CPU 提供支持。 这些实例可以针对单精度浮点运算和利用 Microsoft 认知工具包、TensorFlow、Caffe 及其他框架的 AI 工作负荷提供卓越的性能。 ND 系列还提供了更大的 GPU 内存大小(24 GB),能够适应更大的神经网络模型。 与 NC 系列一样,ND 系列可通过 RDMA 和 InfiniBand 连接提供含辅助型低延迟、高吞吐量网络的配置,以便可运行跨多个 GPU 的大规模训练作业。
组成部分 | 数量 计数单位 |
规格 SKU ID、性能单位等。 |
---|---|---|
处理器 | 6 - 24个 vCore | Intel® Xeon® E5-2690 v4 (Broadwell) |
内存 | 112 - 448GiB | |
数据磁盘 | 12 - 32个磁盘 | 20000 - 80000IOPS / 200 - 800MBps |
网络 | 4 - 8个 NIC | |
加速器 | 1 - 4个 GPU | NVIDIA Tesla P40 24GiB 每个 VM 24 - 96GiB |
NDv2 系列
NDv2 系列虚拟机是 GPU 系列中新增的系列,旨在满足最严苛 GPU 加速 AI、机器学习、模拟和 HPC 工作负载的需求。 NDv2 由 8 个 NVIDIA Tesla V100 NVLINK 连接的 GPU 提供支持,每个 GPU 都有 32 GB 的 GPU 内存。 每个 NDv2 VM 还具有 40 个非超线程的 Intel Xeon Platinum 8168 (Skylake) 核心和 672 GiB 的系统内存。 NDv2 实例使用 CUDA GPU 优化计算内核、众多 AI、ML、支持 GPU 加速的现成分析工具(如 TensorFlow、Pytorch、Caffe、RAPIDS)以及其他框架,为 HPC 和 AI 工作负载提供卓越的性能。 最重要的是,NDv2 是为计算密集型纵向扩展(每个 VM 利用 8 个 GPU)和横向扩展(利用多个协同工作的 VM)工作负载而构建的。 NDv2 系列现在支持 100 GB InfiniBand EDR 后端网络(类似于 HB 系列 HPC VM 上提供的网络),可对并行场景执行高性能聚类分析,包括针对 AI 和 ML 的分布式训练。 此后端网络支持所有主要的 InfiniBand 协议(包括 NVIDIA 的 NCCL2 库使用的协议),可实现 GPU 的无缝聚类分析。
组成部分 | 数量 计数单位 |
规格 SKU ID、性能单位等。 |
---|---|---|
处理器 | 40个 vCore | Intel® Xeon® Platinum 8168 (Skylake) |
内存 | 672GiB | |
数据磁盘 | 32个磁盘 | 80000IOPS / 800MBps |
网络 | 8个 NIC | 24000Mbps |
加速器 | 8个 GPU | NVIDIA V100 (NVLink) 32GiB 每个 VM 256GiB |
ND_A100_v4 系列
ND A100 v4 系列虚拟机 (VM) 是 Azure GPU 系列的新增旗舰产品。 它专为高端深度学习训练和紧密耦合的纵向扩展和横向扩展 HPC 工作负载而设计。 ND A100 v4 系列的起步配置是一个 VM 和八个 NVIDIA Ampere A100 40GB Tensor Core GPU。 基于 ND A100 v4 的部署可以纵向扩展到成千上万个 GPU,每个 VM 的互连带宽为 1.6 TB/秒。 VM 内的每个 GPU 都具备其自己专用的、与拓扑无关的 200 GB/秒 NVIDIA Mellanox HDR InfiniBand 连接。 这些连接在占用同一虚拟机规模集的 VM 之间自动配置,并且支持 GPUDirect RDMA。 每个 GPU 都配备用于 VM 内通信的 NVLINK 3.0 连接,并且实例由 96 个物理第 2 代 AMD Epyc™ 7V12 (Rome) CPU 核心提供支持。 这些实例为众多 AI、ML、支持 GPU 加速的现成分析工具(如 TensorFlow、Pytorch、Caffe、RAPIDS)以及其他框架提供卓越的性能。 此外,一大组基于 NVIDIA 的 NCCL2 通信库构建的现有 AI 和 HPC 工具都支持横向扩展 InfiniBand 互连,以便实现无缝的 GPU 群集化。
组成部分 | 数量 计数单位 |
规格 SKU ID、性能单位等。 |
---|---|---|
处理器 | 96个 vCore | AMD Epyc™ 7V12 (Rome) |
内存 | 900GiB | |
数据磁盘 | 32个磁盘 | 80000IOPS / 800MBps |
网络 | 8个 NIC | 24000Mbps |
加速器 | 8个 GPU | NVIDIA A100 (NVLink) 40GiB 每个 VM 320GiB |
NDm_A100_v4 系列
NDm A100 v4 系列虚拟机 (VM) 是 Azure GPU 系列的新增旗舰产品。 它专为高端深度学习训练和紧密耦合的纵向扩展和横向扩展 HPC 工作负载而设计。 NDm A100 v4 系列的起步配置是一个 VM 和八个 NVIDIA Ampere A100 80GB Tensor Core GPU。 基于 NDm A100 v4 的部署可以纵向扩展到成千上万个 GPU,每个 VM 的互连带宽为 1.6 TB/秒。 VM 内的每个 GPU 都具备其自己专用的、与拓扑无关的 200 GB/秒 NVIDIA Mellanox HDR InfiniBand 连接。 这些连接在占用同一虚拟机规模集的 VM 之间自动配置,并且支持 GPUDirect RDMA。 每个 GPU 都配备用于 VM 内通信的 NVLINK 3.0 连接,并且实例由 96 个物理第 2 代 AMD Epyc™ 7V12 (Rome) CPU 核心提供支持。 这些实例为众多 AI、ML、支持 GPU 加速的现成分析工具(如 TensorFlow、Pytorch、Caffe、RAPIDS)以及其他框架提供卓越的性能。 此外,一大组基于 NVIDIA 的 NCCL2 通信库构建的现有 AI 和 HPC 工具都支持横向扩展 InfiniBand 互连,以便实现无缝的 GPU 群集化。
组成部分 | 数量 计数单位 |
规格 SKU ID、性能单位等。 |
---|---|---|
处理器 | 96个 vCore | AMD Epyc™ 7V12 (Rome) |
内存 | 900GiB | |
数据磁盘 | 32个磁盘 | 80000IOPS / 800MBps |
网络 | 8个 NIC | 24000Mbps |
加速器 | 8个 GPU | NVIDIA A100 (NVLink) 80GiB 每个 VM 640GiB |
ND_H100_v5 系列
ND H100 v5 系列虚拟机 (VM) 是 Azure GPU 系列的新增旗舰产品。 它专为高端深度学习训练和紧密耦合的纵向扩展和横向扩展生成式人工智能和 HPC 工作负载而设计。 ND H100 v5 系列的起步配置是一个 VM 和八个 NVIDIA H100 Tensor Core GPU。 基于 ND H100 v5 的部署可以纵向扩展到成千上万个 GPU,每个 VM 的互连带宽为 3.2Tb/秒。 VM 内的每个 GPU 都具备其自己专用的、与拓扑无关的 400 Gb/秒 NVIDIA Quantum-2 CX7 InfiniBand 连接。 这些连接在占用同一虚拟机规模集的 VM 之间自动配置,并且支持 GPUDirect RDMA。 每个 GPU 都配备用于 VM 内通信的 NVLINK 4.0 连接,并且实例由 96 个物理第 4 代 Intel Xeon 可扩展物理处理器核心提供支持。 这些实例为众多 AI、ML、支持 GPU 加速的“现成分析工具”(如 TensorFlow、Pytorch、Caffe、RAPIDS)以及其他框架提供卓越的性能。 此外,一大组基于 NVIDIA 的 NCCL 通信库构建的现有 AI 和 HPC 工具都支持横向扩展 InfiniBand 互连,以便实现无缝的 GPU 群集化。
组成部分 | 数量 计数单位 |
规格 SKU ID、性能单位等。 |
---|---|---|
处理器 | 96个 vCore | Intel® Xeon® Scalable (Sapphire Rapids) |
内存 | 1900GiB | |
数据磁盘 | 32个磁盘 | 40800IOPS / 612MBps |
网络 | 8个 NIC | 80000Mbps |
加速器 | 8个 GPU | NVIDIA H100 (NVLink) 80GiB 每个 VM 640GiB |
ND_MI300X_v5 系列
ND MI300X v5 系列虚拟机 (VM) 是 Azure GPU 系列的新增旗舰产品。 它专为高端深度学习训练和紧密耦合的纵向扩展和横向扩展生成式 AI 和 HPC 工作负载而设计。
ND MI300X v5 系列 VM 起始配置包含八个 AMD Instinct MI300 GPU 和两个第四代 Intel Xeon 可扩展处理器,共有 96 个物理核心。 然后,VM 中的每个 GPU 通过第四代 AMD Infinity Fabric 链路相互连接,每个 GPU 的带宽为 128 GB/s,总带宽为 896 GB/s。
基于 ND MI300X v5 的部署可以纵向扩展到成千上万个 GPU,每个 VM 的互连带宽为 3.2 Tb/秒。 VM 内的每个 GPU 都具备其自己专用的、与拓扑无关的 400 Gb/秒 NVIDIA Quantum-2 CX7 InfiniBand 连接。 这些连接在占用同一虚拟机规模集的 VM 之间自动配置,并且支持 GPUDirect RDMA。
这些实例为众多支持 GPU 加速的现成 AI、ML、分析工具(如 TensorFlow、Pytorch 以及其他框架)提供了卓越的性能。 此外,一大组基于 AMDA 的 ROCm 通信集体库 (RCCL) 构建的现有 AI 和 HPC 工具都支持横向扩展 InfiniBand 互连,以便实现无缝的 GPU 群集化。
组成部分 | 数量 计数单位 |
规格 SKU ID、性能单位等。 |
---|---|---|
处理器 | 96 个 vCore | Intel® Xeon® Scalable (Sapphire Rapids) |
内存 | 1850 GiB | |
本地存储 | 1 个磁盘 | 1000 GiB |
远程磁盘 | 32 个磁盘 | 40800 IOPS 612 MBps |
网络 | 8个 NIC | 80000 Mbps |
加速器 | 8 个 GPU | AMD MI300X 192 GiB 每个 VM 1535 GiB |
上一代 ND 系列
有关较早系列的大小,请参阅上一代大小。
其他大小信息
所有可用大小的列表:大小
定价计算器:定价计算器
有关磁盘类型的信息:磁盘类型
后续步骤
了解有关 Azure 计算单元 (ACU) 如何帮助跨 Azure SKU 比较计算性能的详细信息。
请参阅 Azure 专用主机,了解能够托管一个或多个分配给一个 Azure 订阅的虚拟机的物理服务器。
了解如何监视 Azure 虚拟机。
反馈
https://aka.ms/ContentUserFeedback。
即将发布:在整个 2024 年,我们将逐步淘汰作为内容反馈机制的“GitHub 问题”,并将其取代为新的反馈系统。 有关详细信息,请参阅:提交和查看相关反馈