你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
在 Azure 虚拟机上为金融行业运行大规模 HPC 应用程序工作负荷
高性能计算(HPC)工作负载(也称为大型计算应用程序)需要许多核心。 这些工作负载可以包括财务风险建模和工程压力分析等任务。
大型计算应用程序通常具有以下特征:
- 可将工作负荷划分为可在多个核心中同时运行的离散任务。
- 每个任务采用输入、处理并生成输出。 整个应用程序在有限的时间内运行。
- 应用程序不需要持续运行,但它必须能够处理节点故障和崩溃。
- 任务可以独立或紧密耦合,需要高速网络技术,如 InfiniBand 和远程直接内存访问(RDMA)连接。
- 可以使用计算密集型虚拟机(VM)大小,例如 H16r、H16mr 和 A9。 选择取决于工作负荷。
Azure 提供了一系列 VM 实例,这些实例针对 CPU 密集型和 GPU 密集型工作负荷进行了优化。 这些 VM 可以在 Azure 虚拟机规模集中运行,以提供复原和负载均衡。 Azure 也是唯一提供已启用 InfiniBand 的硬件的云平台。 InfiniBand 为财务风险建模和工程压力分析等任务提供了显著的性能优势。 这种优势会导致接近或超过当前本地基础结构性能的性能。
Azure VM 提供各种选项(称为 VM 大小),用于 HPC 和 GPU 优化计算。 选择适合工作负荷的 VM 大小非常重要。 若要查找最适合的大小,请参阅 Azure 中虚拟机的大小。 另请参阅虚拟机选择器中的 选择器工具。
请记住,并非所有 Azure 产品在所有区域中都可用。 若要查看你所在区域中可用的功能,请参阅 “按区域提供的产品”。
有关选择 Azure 计算选项的最佳做法,请参阅 Azure 计算博客 或 Azure 计算服务 内容。
Azure 提供基于 CPU 的 VM 和已启用 GPU 的 VM。 N 系列 VM 具有 NVIDIA GPU,专为计算密集型或图形密集型应用程序(例如 AI、学习和可视化)而设计。
HPC SKU 专为高性能方案而设计。 但是,其他 SKU(如 E 和 F 系列)也适用于某些工作负荷。
设计注意事项
设计 HPC 基础结构时,可以使用多种工具和服务来管理和计划工作负荷。
Azure CycleCloud 是一种工具,用于在 Azure 中创建、管理、操作和优化 HPC 和大型计算群集。 使用 Azure CycleCloud,用户可以动态配置 HPC Azure 群集,并协调混合和云工作流的数据和作业。 Azure CycleCloud 提供了在 Azure 中管理涉及使用工作负荷管理器的 HPC 工作负荷的最简单方法。 Azure CycleCloud 支持工作负荷管理器,例如网格引擎、Microsoft HPC Pack、HTCondor、LSF、PBS Pro、SLURM 和交响乐。
财务体系结构设计示例
以下体系结构提供了在 HPC 中使用 VM 进行财务工作负荷的示例。
此工作负荷使用 HPC Pack HB 系列计算节点。
HB 系列 VM 针对 HPC 应用程序进行了优化,例如财务分析、天气模拟和硅寄存器传输级别(RTL)建模。 HB VM 具有多达 120 个 AMD EPYC™ 7003 系列 CPU 核心、448 GB RAM,无超线程。 HB 系列 VM 还提供 350 GB/秒的内存带宽、每个核心高达 32 MB 的 L3 缓存、高达 7 GB/秒的块设备固态硬盘(SSD)性能,以及高达 3.675 GHz 的时钟频率。
对于 HPC 头节点,工作负荷使用不同的大小 VM。 具体而言,它使用D16s_v4 VM,这是一种常规用途 SKU 类型。
有关部署支持金融部门用例的 HPC 独立软件供应商(ISV)应用程序的参考体系结构和指南,请参阅以下资源:
- 虚拟机系列。
- Azure HPC certification.github.io。
- Microsoft Azure HPC OnDemand 平台。 此独立参考体系结构可能不符合 Azure 登陆区域范例。
后续步骤
以下文章为云采用过程的各个阶段提供了指导。 这些资源可帮助你成功地为云采用财务部门 HPC 环境。