你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
随着市场和 Microsoft Azure 数据中心的更强大的 GPU 可用,我们建议重新评估工作负荷的性能,并考虑迁移到较新的 GPU。
出于同样的原因,以及维护高质量可靠的服务,Azure 会定期停用用于支持较旧 VM 规格的硬件。 Azure 中即将停用的第一组 GPU 产品分别是由 NVIDIA Tesla K80、P100 和 P40 数据中心 GPU 加速器提供支持的原始 NC、NC v2 和 ND 系列 VM。 这些产品将于 2023 年 8 月 31 日停用,此系列中最早的 VM 将于 2016 年推出。
此后,GPU 与整个深度学习和 HPC 行业一起取得了不可思议的进步,通常超过了几代人之间的性能翻倍。 自 NVIDIA K80、P40 和 P100 GPU 推出以来,Azure 附带了多个面向 GPU 加速计算和 AI 的较新一代和类别的 VM 产品,这些产品基于 NVIDIA 的 T4、V100 和 A100 GPU,以及根据基于 InfiniBand 的互连构造等可选功能进行区分。 这些都是我们鼓励客户探索的迁移路径选项。
在大多数情况下,较新一代 GPU 提供的显著性能提升可以降低总拥有成本,因为它缩短了作业持续时间(对于可突发作业),或减少了满足一定计算资源需求所需的整体 GPU 启用 VM 的数量,尽管每 GPU 小时的成本可能会有所不同。 除了这些优势外,客户还可以通过高性能 VM 改进解决方案时间,并通过采用较新的软件、CUDA 运行时和驱动程序版本来提高解决方案的运行状况和可支持性。
迁移与优化
Azure 认识到,客户有许多要求,这些要求可能会决定选择特定的 GPU VM 产品,包括 GPU 体系结构注意事项、互连、TCO、解决方案时间以及基于符合性区域或延迟要求的区域可用性,其中一些甚至会随时间推移而变化。
同时,GPU 加速是一个新的、快速发展的领域。
因此,此产品区域没有真正的一刀切指南,迁移是重新评估工作负荷的潜在戏剧性变化的最佳时机,例如从群集部署模型迁移到单个大型 8 GPU VM,反之亦然,利用缩减的精度数据类型、采用多实例 GPU 等功能等等。
假设本已十分强大的每一代 GPU 性能还能通过添加 TensorCore 之类的功能得到数量级的提升,这种考虑因素与特定的工作负载极其相关。
将迁移与应用程序架构重构相结合,可以产生巨大的价值,并降低成本和缩短问题解决时间。
但是,这些改进超出了本文档的范围,本文档旨在重点介绍目前客户可能运行的通用工作负荷的直接等价类,以识别每个 GPU 与正在停用的现有 VM 系列的价格 和性能 最相似的 VM 选项。
因此,本文档假定用户可能没有任何见解或控制特定于工作负荷的属性,例如所需的 VM 实例数、GPU、互连等。
建议的升级路径
NC-Series 虚拟机配备 NVIDIA K80 GPU
NC(v1)系列 VM 是 Azure 最古老的 GPU 加速计算 VM 类型,由 1 到 4 个 NVIDIA Tesla K80 数据中心 GPU 加速器提供支持,与 Intel Xeon E5-2690 v3 (Haswell) 处理器配对。 曾经是用于苛刻 AI、ML 和 HPC 应用程序的旗舰 VM 类型的产品,由于其每小时 GPU 的绝对成本非常低,比高吞吐量-每美元比例更高的 GPU 更受用户青睐,因此它们在产品生命周期后期(特别是通过 NC 系列促销定价)仍然是热门选择。
目前,鉴于 NVIDIA K80 GPU 平台计算性能相对较低,与具有较新 GPU 的 VM 系列相比,NC 系列的热门用例是实时推理和分析工作负载,其中加速的 VM 必须处于稳定状态才能在应用程序到达时提供请求。 在这些情况下,请求的卷或批大小可能不足以从性能更高的 GPU 中获益。 NC VM 也非常适合开发人员和学生,他们需要学习、开发或试验 GPU 加速,并寻找一个廉价的云端 CUDA 部署环境,可以反复迭代,而不需要达到生产级别的性能标准。
一般而言,NC 系列客户应考虑直接从 NC 大小迁移到 NC T4 v3 大小,这是 Azure 的新型 GPU 加速平台,适合由 NVIDIA Tesla T4 GPU 提供支持的轻型工作负载。
当前 VM 大小 | 目标 VM 大小 | 规格差异 |
---|---|---|
Standard_NC6 Standard_NC6_Promo |
Standard_NC4as_T4_v3 或 Standard_NC8as_T4 |
CPU:Intel Haswell vs AMD Rome GPU 数量:1(相同) GPU 代系:NVIDIA Keppler,以前为Turing(+2 代,FP32 FLOPs 约提升 2 倍) GPU 内存(每个 GPU GiB):16(+4) vCPU:4(-2) 或 8 (+2) 内存 GiB:16(-40) 或 56 (相同) 临时存储(SSD) GiB:180(-160) 或 360 (+20) 最大数据磁盘数:8 (-4) 或 16 (+4) 加速网络:是(+) 高级存储:是(+) |
Standard_NC12 Standard_NC12_Promo |
Standard_NC16as_T4_v3 | CPU:Intel Haswell vs AMD Rome GPU 数量:1 (-1) GPU 代系:NVIDIA Keppler,以前为Turing(+2 代,FP32 FLOPs 约提升 2 倍) GPU 内存(每个 GPU GiB):16(+4) vCPU:16(+4) 内存 GiB:110 (-2) 临时存储(SSD)GiB:360(-320) 最大数据磁盘数:48 (+16) 加速网络:是(+) 高级存储:是(+) |
Standard_NC24 Standard_NC24_Promo |
Standard_NC64as_T4_v3* | CPU:Intel Haswell vs AMD Rome GPU 数量:4(相同) GPU 代系:NVIDIA Keppler,以前为Turing(+2 代,FP32 FLOPs 约提升 2 倍) GPU 内存(每个 GPU GiB):16(+4) vCPU:64(+40) 内存 GiB:440 (+216) 临时存储 (SSD) GiB:2880 (+1440) 最大数据磁盘数:32 (-32) 加速网络:是(+) 高级存储:是(+) |
Standard_NC24r Standard_NC24r_Promo |
Standard_NC64as_T4_v3* | CPU:Intel Haswell vs AMD Rome GPU 计数:4(保持不变) GPU 代系:NVIDIA Keppler,以前为Turing(+2 代,FP32 FLOPs 约提升 2 倍) GPU 内存(每个 GPU GiB):16(+4) vCPU:64(+40) 内存 GiB:440 (+216) 临时存储 (SSD) GiB:2880 (+1440) 最多数据磁盘: 32(-32) 加速网络:是(+) 高级存储:是(+) InfiniBand 互连:否 |
NC v2 系列 VM,具有 NVIDIA Tesla P100 GPU
NC v2 系列虚拟机是最初专为 AI 和深度学习工作负载设计的旗舰平台。 它们为深度学习训练提供了出色的性能,每个 GPU 的性能大约是原始 NC-Series 的 2 倍,由 NVIDIA Tesla P100 GPU 和 Intel Xeon E5-2690 v4(Broadwell) CPU 提供支持。 与 NC 和 ND 系列一样,NC v2 系列通过 RDMA 和 InfiniBand 连接提供具有辅助低延迟、高吞吐量网络的配置,以便可以运行跨越许多 GPU 的大型训练作业。
通常,NCv2-Series 客户应考虑直接迁移到 NC A100 v4 系列,这是由 NVIDIA Ampere A100 PCIe GPU 提供支持的 Azure 新型 GPU 加速平台。
当前 VM 大小 | 目标 VM 大小 | 规格差异 |
---|---|---|
Standard_NC6s_v2 | Standard_NC24ads_A100_v4 | CPU:Intel Broadwell vs AMD 米兰 GPU 计数:1(不变) GPU 生成:NVIDIA Pascal 与 Ampere (+2 代) GPU 内存(每个 GPU GiB):80(+64) vCPU:24(+18) 内存 GiB:220 (+108) 临时存储 (SSD) GiB:1123 (+387) 最大的数据磁盘数量:12(保持不变) 加速网络:是(+) 高级存储:是(+) |
Standard_NC12s_v2 | Standard_NC48ads_A100_v4 | CPU:Intel Broadwell vs AMD 米兰 GPU 数量:2(相同) GPU 生成:NVIDIA Pascal 与 Ampere (+2 代) GPU 内存(每个 GPU GiB):80(+64) vCPU 数量:48 (+36) 内存 GiB:440 (+216) 临时存储(SSD) GiB:2246 (+772) 最大数据磁盘数:24(相同) 加速网络:是(+) 高级存储:是(+) |
Standard_NC24s_v2 | Standard_NC96ads_A100_v4 | CPU:Intel Broadwell vs AMD 米兰 GPU 数量:4(相同) GPU 生成:NVIDIA Pascal 与 Ampere (+2 代) GPU 内存(每个 GPU GiB):80(+64) vCPU 数量:96 (+72) 内存 GiB:880 (+432) 临时存储(SSD) GiB:4492(+1544) 最大数据磁盘数:32(相同) 加速网络:是(+) 高级存储:是(+) |
Standard_NC24rs_v2 | Standard_NC96ads_A100_v4 | CPU:Intel Broadwell vs AMD 米兰 GPU 计数:4(相同) GPU 生成:NVIDIA Pascal 与 Ampere (+2 代) GPU 内存(每个 GPU GiB):80(+64) vCPU 数量:96 (+72) 内存 GiB:880 (+432) 临时存储(SSD) GiB:4492(+1544) 最大数据磁盘数:32(相同) 加速网络:是(+) 高级存储:是(+) InfiniBand 互连:否(-) |
ND-Series 配备 NVIDIA Tesla P40 GPU 的虚拟机
ND 系列虚拟机是一个中范围平台,最初专为 AI 和深度学习工作负载而设计。 它们通过改进的单精度浮点运算,为批处理推理提供了出色的性能,由 NVIDIA Tesla P40 GPU 和 Intel Xeon E5-2690 v4 (Broadwell) CPU 提供支持。 与 NC 和 NC v2 系列一样,ND-Series 通过 RDMA 和 InfiniBand 连接提供具有辅助低延迟、高吞吐量网络的配置,以便可以运行跨越许多 GPU 的大型训练作业。
当前 VM 大小 | 目标 VM 大小 | 规格差异 |
---|---|---|
Standard_ND6 | Standard_NC4as_T4_v3 或 Standard_NC8as_T4_v3 |
CPU:Intel Broadwell vs AMD Rome GPU 数量:1(相同) GPU 生成:NVIDIA Pascal 与图灵(+1 代) GPU 内存(每个 GPU GiB):16(-8) vCPU:4(-2) 或 8 (+2) 内存 GiB:16(-40) 或 56 (-56) 临时存储(SSD)GiB:180(-552)或360(-372) 最大数据磁盘数:8 (-4) 或 16 (+4) 加速网络:是(+) 高级存储:是(+) |
Standard_ND12 | Standard_NC16as_T4_v3 | CPU:Intel Broadwell vs AMD Rome GPU 数量:1 (-1) GPU 生成:NVIDIA Pascal 与图灵(+1 代) GPU 内存(每个 GPU GiB):16(-8) vCPU:16(+4) 内存 GiB:110 (-114) 临时存储 (SSD) GiB:360 (-1,114) 最大数据磁盘数:48 (+16) 加速网络:是(+) 高级存储:是(+) |
Standard_ND24 | Standard_NC64as_T4_v3* | CPU:Intel Broadwell vs AMD Rome GPU 数量 - 4(保持不变) GPU 生成:NVIDIA Pascal 与图灵(+1 代) GPU 内存(每个 GPU GiB):16(-8) vCPU:64(+40) 内存 GiB:440(相同) 临时存储(SSD) GiB:2880(相同) 最大数据磁盘数:32(相同) 加速网络:是(+) 高级存储:是(+) |
Standard_ND24r | Standard_ND96amsr_A100_v4 | CPU:Intel Broadwell vs AMD Rome GPU 计数:8(+4) GPU 生成:NVIDIA Pascal 与 Ampere (+2 代) GPU 内存(每个 GPU GiB):80(+56) vCPU 数量:96 (+72) 内存 GiB:1900 (+1452) 临时存储(SSD)GiB:6400(+3452) 最大数据磁盘数:32(相同) 加速网络:是(+) 高级存储:是(+) InfiniBand 互连:是(相同) |
迁移步骤
常规更改
选择用于迁移的系列和大小。 利用 定价计算器 获取进一步见解。
获取目标 VM 系列的配额
将当前 N* 系列 VM 大小调整为目标大小。 还可以借此机会更新虚拟机映像使用的操作系统,或者采用预装了驱动程序的 HPC 映像之一作为起点。
重要
你的 VM 映像可能是使用不符合新 GPU VM 系列需求的旧版 CUDA 运行时、NVIDIA 驱动程序和(如果适用,仅限支持 RDMA 的大小)Mellanox OFED 驱动程序生成的,可以按照 Azure 文档中的说明更新该映像。
重大变更
选择要迁移的目标大小
评估当前使用情况后,确定所需的 GPU VM 类型。 根据工作负荷要求,有几个不同的选择。
注释
最佳做法是基于成本和性能选择 VM 大小。 本指南中的建议基于对性能指标的通用一对一比较,以及另一个 VM 系列中最匹配的大小。 在确定正确的大小之前,请使用 Azure 定价计算器获取成本比较。
重要
所有旧款 NC、NC v2 和 ND-Series 规格现已提供多种多GPU配置,包括有和没有 InfiniBand 互连的4-GPU配置,适用于需要扩展和紧密耦合的工作负载,这些工作负载需要比单个4-GPU虚拟机或单个K80、P40、P100 GPU所能分别提供的计算能力更强的计算资源。 尽管上述建议提供了简单的前进路径,但这些大小的用户应考虑使用更强大的基于 NVIDIA V100 GPU 的 VM 系列(如 NC v3 系列 和 ND v2 系列)来实现其性能目标,这通常能够以更低的成本实现相同的工作负荷性能级别,并通过在需要多 GPU 和多节点配置之前为每个 VM 提供更大的性能来提高可管理性, 分别。
获取目标 VM 系列的配额
按照指南 请求按 VM 系列增加 vCPU 配额。 选择要迁移的目标 VM 大小。
调整当前虚拟机的大小
可以重设虚拟机大小。
后续步骤
有关已启用 GPU 的虚拟机大小的完整列表,请参阅 GPU - 加速计算概述