你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本指南提供了最佳做法、指导原则、存储解决方案的详细比较和技术规格,以便于在 Azure VM 上的 HPC 工作负荷中选择最合适的方案。 它包括性能指标、协议支持、成本层以及每种存储类型的用例对齐方式。 通常需要在针对成本优化和针对性能优化之间进行权衡。 如果工作负荷要求较低,可能不需要每项建议的优化。 评估这些建议时应考虑性能需求、成本和工作负荷模式。
概述
HPC 工作负载的存储包括核心存储,在某些情况下还包括加速器。 核心存储充当数据的永久存放处。 它包含丰富的数据管理功能,具有持久性、可用性、可缩放性、弹性和安全性。 加速器通过提供高性能数据访问来增强核心存储。 加速器可以按需预配,并使计算工作负载能够更快地访问数据。
存储服务比较
| 功能 / 特点 | 标准 Blob | 高级 Blob | 高级文件 | Azure NetApp 文件 | Azure Managed Lustre |
|---|---|---|---|---|---|
| 容量 | 20+ PiB | 20+ PiB | 100 TiB | 500 TiB | 1 PiB |
| 带宽 | 15 GB/秒 | 15 GB/秒 | 10 GB/秒 | 10 GiB/秒 | 最多 512 GB/秒 |
| IOPS | 20,000 | 20,000 | 100,000 | 800,000 | >100,000 |
| 延迟 | <100 毫秒 | <10 毫秒 | 2–4 毫秒 | <1 毫秒 | <2 毫秒 |
| 协议 | REST、HDFS、NFSv3、SFTP、FUSE、CSI | 相同 | REST、NFSv4.1、SMB3、CSI | NFSv3/4.1、SMB3、CSI | Lustre、CSI |
初始注意事项
如果你是零基础,请参阅了解数据存储模型来选择数据存储,参阅选择 Azure 存储服务或 Azure 存储简介来了解存储服务选项。
概览
首先,需要考虑计划存储的数据量。 然后,考虑工作负载使用的 CPU 核心数和文件大小。 这些因素可帮助你缩小选择范围,更好地确定最适合工作负载的核心存储服务,以及是否使用加速器来增强性能。
| 配置 | CPU 核心数 | 文件大小 | 核心存储建议 | 加速器建议 |
|---|---|---|---|---|
| 低于 50 TiB | 无 | 无 | Azure 文件存储或 Azure NetApp 文件。 | 无加速器 |
| 50 TiB - 5,000 TiB | 少于 500 个 | 无 | Azure 文件存储或 Azure NetApp 文件。 | 无加速器 |
| 50 TiB - 5,000 TiB | 超过 500 个 | 1 MiB 及更大 | Azure 标准 Blob。 它受所有加速器支持,支持许多协议,并且经济高效。 | Azure Managed Lustre。 |
| 50 TiB - 5,000 TiB | 超过 500 个 | 小于 1 MiB | Azure 高级 Blob 或 Azure 标准 Blob。 | Azure Managed Lustre。 |
| 50 TiB - 5,000 TiB | 超过 500 个 | 小于 512 KiB | Azure NetApp 文件。 | 无加速器 |
| 超过 5,000 TiB | 无 | 无 | 请与你的现场或客户团队联系。 |
解决方案详细信息
如果在使用决策树后仍在不同选项之间犹豫不决,下面提供了有关每个解决方案的更多详细信息:
| 解决方案 | 最佳性能和缩放 | 数据访问(访问协议) | 计费模式 | 核心存储或加速器 |
|---|---|---|---|---|
| Azure 标准 Blob | * 适用于大型文件、带宽密集型工作负荷。 * 专为非结构化数据而设计。 * 支持高吞吐量工作负荷。 |
* 适用于传统(文件)和云原生(REST)HPC 应用。 * 易于访问、共享、管理数据集。 * 适用于所有加速器。 |
为使用的内容付费。 | 核心存储。 |
| Azure 高级 Blob | * IOPS 和延迟优于标准 Blob。 * 适用于具有许多中型文件和混合文件大小的数据集。 |
适用于传统(文件)和云原生 (REST) HPC 应用。 易于访问、共享和管理数据集。 适用于所有加速器。 |
为使用的内容付费。 | 核心存储。 |
| Azure 高级文件 | * 适用于较小规模(<1k 核)应用的容量和带宽。 * IOPS 和延迟在处理中等大小文件(>512 KiB)时性能良好。 * 提供高级(低延迟、高 IOPS)SKU。 * 通过 Azure 文件同步进行混合访问。 |
可轻松与 Linux (NFS) 和 Windows (SMB) 集成,但不能同时使用 NFS 和 SMB 来访问相同的数据。 | 为预配的使用量付费。 | 核心存储。 |
| Azure NetApp 文件 | * 容量和带宽适用于中型作业(1k-10k 核心)。 * IOPS 和延迟适合处理小文件数据集(<512 KiB)。 * 非常适合小型多文件工作负荷。 * 使用 ONTAP 技术的企业级文件存储。 * 跨标准层、高级层、超级层的动态性能缩放。 |
可轻松针对 Linux 和 Windows 实现集成,支持多协议,从而可运行同时使用 Linux 和 Windows 的工作流。 | 为预配的使用量付费。 | 二者中的任一个。 |
| Azure Managed Lustre | 支持所有作业大小的带宽(1k - >10k 个核心)。 * IOPS 和延迟适用于数千个中型文件(>512 KiB)。 * 最适合带宽密集型读取和写入工作负荷。 * 针对 HPC/AI 优化的并行文件系统。 * 与 Azure Blob 无缝集成,用于分层存储。 |
Lustre、CSI。 | 为预配的使用量付费。 | 足够耐用,可以作为独立(核心)存储运行;作为加速器最经济高效。 |
专用存储解决方案
Azure 提供一系列专为满足 HPC 工作负荷需求而定制的存储服务。 每个解决方案都针对不同的性能特征、访问模式和成本结构进行优化。 下面是最相关存储选项的概览,以及它们在 HPC 场景中的最佳适用性。
| 存储解决方案 | 用例 | 性能基准 | 可伸缩性选项 | 与其他 Azure 服务集成 |
|---|---|---|---|---|
| Azure Blob 存储 | * 数据分析 * 内容分发 * 备份和存档 |
BlobFuse2 的吞吐量高达 30GB/秒 | 每个存储帐户的容量最多为 5 PiB * 每个帐户的容器数不受限制 |
* Azure AI * AKS * Azure Data Lake |
| Azure 文件存储 | * DevOps *备份 * 远程工作 |
传输中加密(适用于 NFS 共享的 TLS 1.3) | * 每个文件共享可达 100 TiB(标准) * IOPS 最高为 100,000 (高级版) |
* Azure 备份 * Azure Monitor * Microsoft Entra ID |
| Azure NetApp 文件 | *数据库 * VDI * HPC(高性能计算) |
使用 FIO 测量的 IOPS 和吞吐量 | * 每个池最多 100 TiB 的容量池 * 每个卷的容量最多为 100 TiB |
* AKS * Azure 备份 * Azure Monitor |
| Azure Managed Lustre | * 大规模模拟 * 基因组学 * 科学工作负载 |
吞吐量高达30GB/s,属于250MB/s/TiB的性能等级 | * 文件系统容量高达 1.5 PB * 吞吐量高达 375 GB/秒 |
* Azure Blob 存储 * AKS * Azure Monitor |
AI 和 RAG 工作负载存储要求
AI 和 RAG 工作负载的存储要求因不同阶段而异。 在训练阶段,必须具有较高的吞吐量、检查点、本地缓存以及加载大型模型的能力。 对于推理阶段,需要快速模型访问、低延迟和并发 GPU 访问。 在 RAG 阶段,需要安全的非结构化存储、矢量数据库集成、新鲜度和低延迟。
合作伙伴解决方案
| 合作伙伴 | 协议 | 规模 | 独特功能 |
|---|---|---|---|
| 库穆洛 | NFS、SMB、S3 | 200 PiB | Azure 原生 SaaS、全局命名空间、经济高效 |
| Dell APEX | NFS、SMB、S3、HDFS | 5.6 PiB | 本地奇偶校验、基于策略的分层 |
| Nasuni | NFS、SMB、S3 | — | 文件锁定,Blob 作为主层 |
| Hammerspace | NFS、SMB、S3、pNFS | — | 全局命名空间,缓存替代项 |
| Weka | NFS、SMB、S3 | 14 EB | 高 IOPS、低延迟、线性横向扩展 |
| IBM SpectrumScale | GPFS、NFS、SMB | — | 完整 GPFS 堆栈 |
| DDN Exascaler | Lustre、NFS、SMB | 拍字节 | 完整的 DDN Lustre 堆栈 |
性能优化提示
- 根据性能(而不仅仅是容量)调整卷大小。
- 使用可用性区域控制延迟。
- 使用 ANF 中的大型卷功能获取最大带宽。
- 考虑缓存和分层策略,提高成本效益。
核心存储价格比较
核心存储选项的价格从高到低依次为:
- Azure NetApp 文件
- Azure 高级 Blob 和 Azure 高级文件
- Azure 标准 Blob
有关定价的详细信息,请参阅 Azure 产品定价。