你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

高性能计算(HPC)工作负载最佳做法和存储选项指南

本指南提供了最佳做法、指导原则、存储解决方案的详细比较和技术规格,以便于在 Azure VM 上的 HPC 工作负荷中选择最合适的方案。 它包括性能指标、协议支持、成本层以及每种存储类型的用例对齐方式。 通常需要在针对成本优化和针对性能优化之间进行权衡。 如果工作负荷要求较低,可能不需要每项建议的优化。 评估这些建议时应考虑性能需求、成本和工作负荷模式。

概述

HPC 工作负载的存储包括核心存储,在某些情况下还包括加速器。 核心存储充当数据的永久存放处。 它包含丰富的数据管理功能,具有持久性、可用性、可缩放性、弹性和安全性。 加速器通过提供高性能数据访问来增强核心存储。 加速器可以按需预配,并使计算工作负载能够更快地访问数据。

存储服务比较

功能 / 特点 标准 Blob 高级 Blob 高级文件 Azure NetApp 文件 Azure Managed Lustre
容量 20+ PiB 20+ PiB 100 TiB 500 TiB 1 PiB
带宽 15 GB/秒 15 GB/秒 10 GB/秒 10 GiB/秒 最多 512 GB/秒
IOPS 20,000 20,000 100,000 800,000 >100,000
延迟 <100 毫秒 <10 毫秒 2–4 毫秒 <1 毫秒 <2 毫秒
协议 REST、HDFS、NFSv3、SFTP、FUSE、CSI 相同 REST、NFSv4.1、SMB3、CSI NFSv3/4.1、SMB3、CSI Lustre、CSI

初始注意事项

如果你是零基础,请参阅了解数据存储模型来选择数据存储,参阅选择 Azure 存储服务Azure 存储简介来了解存储服务选项。

概览

首先,需要考虑计划存储的数据量。 然后,考虑工作负载使用的 CPU 核心数和文件大小。 这些因素可帮助你缩小选择范围,更好地确定最适合工作负载的核心存储服务,以及是否使用加速器来增强性能。

配置 CPU 核心数 文件大小 核心存储建议 加速器建议
低于 50 TiB Azure 文件存储Azure NetApp 文件 无加速器
50 TiB - 5,000 TiB 少于 500 个 Azure 文件存储Azure NetApp 文件 无加速器
50 TiB - 5,000 TiB 超过 500 个 1 MiB 及更大 Azure 标准 Blob。 它受所有加速器支持,支持许多协议,并且经济高效。 Azure Managed Lustre
50 TiB - 5,000 TiB 超过 500 个 小于 1 MiB Azure 高级 BlobAzure 标准 Blob Azure Managed Lustre
50 TiB - 5,000 TiB 超过 500 个 小于 512 KiB Azure NetApp 文件 无加速器
超过 5,000 TiB 请与你的现场或客户团队联系。

解决方案详细信息

如果在使用决策树后仍在不同选项之间犹豫不决,下面提供了有关每个解决方案的更多详细信息:

解决方案 最佳性能和缩放 数据访问(访问协议) 计费模式 核心存储或加速器
Azure 标准 Blob * 适用于大型文件、带宽密集型工作负荷。
* 专为非结构化数据而设计。
* 支持高吞吐量工作负荷。
* 适用于传统(文件)和云原生(REST)HPC 应用。
* 易于访问、共享、管理数据集。
* 适用于所有加速器。
为使用的内容付费。 核心存储。
Azure 高级 Blob * IOPS 和延迟优于标准 Blob。
* 适用于具有许多中型文件和混合文件大小的数据集。
适用于传统(文件)和云原生 (REST) HPC 应用。
易于访问、共享和管理数据集。
适用于所有加速器。
为使用的内容付费。 核心存储。
Azure 高级文件 * 适用于较小规模(<1k 核)应用的容量和带宽。
* IOPS 和延迟在处理中等大小文件(>512 KiB)时性能良好。
* 提供高级(低延迟、高 IOPS)SKU。
* 通过 Azure 文件同步进行混合访问。
可轻松与 Linux (NFS) 和 Windows (SMB) 集成,但不能同时使用 NFS 和 SMB 来访问相同的数据。 为预配的使用量付费。 核心存储。
Azure NetApp 文件 * 容量和带宽适用于中型作业(1k-10k 核心)。
* IOPS 和延迟适合处理小文件数据集(<512 KiB)。
* 非常适合小型多文件工作负荷。
* 使用 ONTAP 技术的企业级文件存储。
* 跨标准层、高级层、超级层的动态性能缩放。
可轻松针对 Linux 和 Windows 实现集成,支持多协议,从而可运行同时使用 Linux 和 Windows 的工作流。 为预配的使用量付费。 二者中的任一个。
Azure Managed Lustre 支持所有作业大小的带宽(1k - >10k 个核心)。
* IOPS 和延迟适用于数千个中型文件(>512 KiB)。
* 最适合带宽密集型读取和写入工作负荷。
* 针对 HPC/AI 优化的并行文件系统。
* 与 Azure Blob 无缝集成,用于分层存储。
Lustre、CSI。 为预配的使用量付费。 足够耐用,可以作为独立(核心)存储运行;作为加速器最经济高效。

专用存储解决方案

Azure 提供一系列专为满足 HPC 工作负荷需求而定制的存储服务。 每个解决方案都针对不同的性能特征、访问模式和成本结构进行优化。 下面是最相关存储选项的概览,以及它们在 HPC 场景中的最佳适用性。

存储解决方案 用例 性能基准 可伸缩性选项 与其他 Azure 服务集成
Azure Blob 存储 * 数据分析
* 内容分发
* 备份和存档
BlobFuse2 的吞吐量高达 30GB/秒 每个存储帐户的容量最多为 5 PiB
* 每个帐户的容器数不受限制
* Azure AI
* AKS
* Azure Data Lake
Azure 文件存储 * DevOps
*备份
* 远程工作
传输中加密(适用于 NFS 共享的 TLS 1.3) * 每个文件共享可达 100 TiB(标准)
* IOPS 最高为 100,000 (高级版)
* Azure 备份
* Azure Monitor
* Microsoft Entra ID
Azure NetApp 文件 *数据库
* VDI
* HPC(高性能计算)
使用 FIO 测量的 IOPS 和吞吐量 * 每个池最多 100 TiB 的容量池
* 每个卷的容量最多为 100 TiB
* AKS
* Azure 备份
* Azure Monitor
Azure Managed Lustre * 大规模模拟
* 基因组学
* 科学工作负载
吞吐量高达30GB/s,属于250MB/s/TiB的性能等级 * 文件系统容量高达 1.5 PB
* 吞吐量高达 375 GB/秒
* Azure Blob 存储
* AKS
* Azure Monitor

AI 和 RAG 工作负载存储要求

AI 和 RAG 工作负载的存储要求因不同阶段而异。 在训练阶段,必须具有较高的吞吐量、检查点、本地缓存以及加载大型模型的能力。 对于推理阶段,需要快速模型访问、低延迟和并发 GPU 访问。 在 RAG 阶段,需要安全的非结构化存储、矢量数据库集成、新鲜度和低延迟。


合作伙伴解决方案

合作伙伴 协议 规模 独特功能
库穆洛 NFS、SMB、S3 200 PiB Azure 原生 SaaS、全局命名空间、经济高效
Dell APEX NFS、SMB、S3、HDFS 5.6 PiB 本地奇偶校验、基于策略的分层
Nasuni NFS、SMB、S3 文件锁定,Blob 作为主层
Hammerspace NFS、SMB、S3、pNFS 全局命名空间,缓存替代项
Weka NFS、SMB、S3 14 EB 高 IOPS、低延迟、线性横向扩展
IBM SpectrumScale GPFS、NFS、SMB 完整 GPFS 堆栈
DDN Exascaler Lustre、NFS、SMB 拍字节 完整的 DDN Lustre 堆栈

性能优化提示

  • 根据性能(而不仅仅是容量)调整卷大小。
  • 使用可用性区域控制延迟。
  • 使用 ANF 中的大型卷功能获取最大带宽。
  • 考虑缓存和分层策略,提高成本效益。

核心存储价格比较

核心存储选项的价格从高到低依次为:

  • Azure NetApp 文件
  • Azure 高级 Blob 和 Azure 高级文件
  • Azure 标准 Blob

有关定价的详细信息,请参阅 Azure 产品定价