高效能運算 (HPC) 工作負載最佳做法和記憶體選項指南

本指南提供最適合 Azure VM 上 HPC 工作負載之記憶體解決方案的最佳做法、指導方針、詳細比較和技術規格。 它包含效能計量、通訊協定支援、成本層,以及每種記憶體類型的使用案例對齊。 通常必須在最佳化成本與最佳化效能之間做出取捨。 如果工作負載需求不高,則不一定要遵循每個最佳化建議。 評估以下建議時,請考量您的效能需求、成本和工作負載模式。

概觀

HPC 工作負載的記憶體是由核心記憶體所組成,在某些情況下是加速器。 核心儲存是您資料的永久存放地。 它包含豐富的數據管理功能,且具有持久性、可用性、可調整性、彈性且安全。 加速器藉由提供高效能的數據存取來增強核心記憶體。 您可以視需要布建加速器,並讓您的計算工作負載更快速地存取數據。

記憶體服務比較

特徵 / 功能 標準 Blob 進階 Blob 進階檔案 Azure NetApp Files Azure Managed Lustre
容量 20+ PiB 20+ Pebibyte (PiB) 100 TiB 500 TiB 1 PiB
頻寬 15 GB/秒 15 GB/秒 10 GB/秒 10 GiB/秒 最多 512 GB/秒
IOPS 20,000 20,000 100,000 800,000 >100,000
延遲 <100 毫秒 <10 毫秒 2–4 毫秒 <1 毫秒 <2 毫秒
通訊協定 REST、HDFS、NFSv3、SFTP、FUSE、CSI 相同 REST、NFSv4.1、SMB3、CSI NFSv3/4.1、SMB3、CSI Lustre、CSI

初始考慮

如果您從頭開始,請參閱 瞭解數據存放區模型來選擇數據存放 區,然後選擇 Azure 記憶體服務Azure 記憶體簡介 ,以取得記憶體服務選項的概念。

一目了然

從您打算儲存的數據量開始。 然後,請考慮工作負載所使用的CPU核心數目和檔案大小。 這些因素可協助您縮小哪些核心記憶體服務最符合您的工作負載,以及是否要使用加速器來增強效能。

設定 CPU 核心 檔案大小 核心記憶體建議 加速器建議
低於 50 TiB N/A N/A Azure 檔案服務Azure NetApp Files 沒有加速器
50 TiB - 5,000 TiB 小於 500 N/A Azure 檔案服務Azure NetApp Files 沒有加速器
50 TiB - 5,000 TiB 超過 500 1 MiB 和更大 Azure 標準 Blob. 它受到所有加速器的支持、支援許多通訊協定,而且符合成本效益。 Azure Managed Lustre.
50 TiB - 5,000 TiB 超過 500 小於 1 MiB Azure Premium BlobAzure Standard Blob Azure Managed Lustre.
50 TiB - 5,000 TiB 超過 500 小於 512 KiB Azure NetApp Files 沒有加速器
超過 5,000 TiB N/A N/A 與您的現場或客戶團隊交談。

解決方案詳細資料

如果您在使用判定樹之後仍然在選項之間停滯,以下是每個解決方案的詳細資料:

解決方法 最佳效能和規模 資料存取(存取通訊協定) 計費模型 核心記憶體或加速器
Azure 標準 Blob * 適用於大型檔案、需要大量頻寬的工作負載。
* 專為非結構化數據所設計。
* 支援高效能工作負載。
* 適用於傳統 (檔案) 和雲端原生 (REST) HPC 應用程式。
* 易於存取、共用、管理數據集。
* 適用於所有加速器。
支付您所使用的服務。 核心記憶體。
Azure 進階 Blob * IOPS 和延遲優於標準 Blob。
* 適用於具有許多中型檔案和混合檔案大小的數據集。
適用於傳統 (檔案) 和雲端原生 (REST) HPC 應用程式。
易於存取、共用、管理數據集。
適用於所有加速器。
支付您所使用的服務。 核心記憶體。
Azure 進階檔案 * 適用於較小規模的容量和頻寬(<1k 核心)。
* IOPS 和延遲適用於中型檔案 (>512 KiB)。
* 提供進階 (低延遲,高 IOPS) SKU。
* 透過 Azure 檔案同步進行混合式存取。
與 Linux (NFS) 和 Windows (SMB) 輕鬆整合,但無法使用 NFS+SMB 來存取相同的數據。 支付您佈建的內容。 核心記憶體。
Azure NetApp Files * 適合中等規模工作的容量和頻寬(1k-10k 核心)。
* IOPS 和延遲適用於小型檔案資料集 (<512 KiB)。
* 適用於小型、多檔案工作負載。
* 使用 ONTAP 技術的企業級檔案記憶體。
* 跨標準、進階、Ultra 層的動態效能調整。
輕鬆整合至Linux和Windows,支援Linux和Windows工作流程的多協議。 支付您佈建的內容。 任一
Azure Managed Lustre 支援所有作業大小的頻寬(1k - >10k 核心)。
* IOPS 和延遲適用於數千個中型檔案 (>512 KiB)。
* 最適合需要大量頻寬的讀取和寫入工作負載。
* 針對 HPC/AI 優化的平行檔案系統。
* 針對階層式存儲與 Azure Blob 無縫整合。
Lustre、CSI。 支付您佈建的內容。 足夠耐用,可以作為獨立(核心)儲存設備運行,作為加速器更具成本效益。

特製化儲存解決方案

Azure 提供一系列專為符合 HPC 工作負載需求而量身打造的記憶體服務。 每個解決方案都會針對不同的效能特性、存取模式和成本配置檔進行優化。 以下是最相關的儲存選項概述,以及它們最適合用於 HPC 情境中的用途。

記憶體解決方案 使用案例 效能基準測試 延展性選項 與其他 Azure 服務整合
Azure Blob 儲存體 * 資料分析
* 內容發佈
* 備份和封存
使用 BlobFuse2 的輸送量高達 30GB/秒 * 每個帳戶最多 5 個 PiB 的儲存體帳戶
* 每個帳戶的容器數目無限制
* Azure AI
* AKS
* Azure Data Lake
Azure 檔案儲存體 * DevOps
*備份
* 遠端工作
傳輸中的加密 (適用於 NFS 共用的 TLS 1.3) * 檔案共享的儲存空間可達 100 TiB 每個共享(標準)
* IOPS 最多 100,000 (進階)
* Azure 備份
* Azure 監視器
* Microsoft Entra ID
Azure NetApp Files *資料庫
* 虛擬桌面基礎架構 (VDI)
* HPC
使用 FIO 測量的 IOPS 和輸送量 * 每個集區最多 100 TiB 的容量集區
* 每個磁碟區最多 100 TiB 的磁碟區
* AKS
* Azure 備份
* Azure 監視器
Azure Managed Lustre * 大規模模擬
* Genomics
* 科學工作負載
吞吐量高達 30GB/秒,並具有 250MB/秒/TiB 的效能層級 * 檔案系統最多 1.5 PB 容量
* 輸送量高達 375 GB/秒
* Azure Blob 儲存體
* AKS
* Azure 監視器

AI 和 RAG 工作負載記憶體需求

AI 和 RAG 工作負載的記憶體需求會因不同階段而異。 在定型階段期間,必須具備高輸送量、檢查點、本機快取,以及載入大型模型的能力。 針對推斷階段,需要快速模型存取、低延遲和並行 GPU 存取。 在RAG階段中,需要安全的非結構化記憶體、向量資料庫整合、新鮮度和低延遲。


合作夥伴解決方案

合作夥伴 協定 規模 獨特功能
庫穆洛 NFS、SMB、S3 200 PiB Azure 原生 SaaS、全域命名空間、符合成本效益
Dell APEX NFS、SMB、S3、HDFS 5.6 PiB 內部部署同位、原則型階層處理
Nasuni NFS、SMB、S3 檔案鎖定,以 Blob 作為主要層級
Hammerspace NFS、SMB、S3、pNFS 全域命名空間,快取替代方案
Weka NFS、SMB、S3 14 EB 高 IOPS、低延遲、線性向外延展
IBM SpectrumScale GPFS、NFS、SMB 完整 GPFS 堆疊
DDN Exascaler Lustre、NFS、SMB PB 完整 DDN Lustre 堆疊

效能優化秘訣

  • 根據效能調整磁碟區大小,而不只是容量。
  • 使用可用性區域來控制延遲。
  • 在 ANF 中使用大型磁碟區功能以取得最大頻寬。
  • 請考慮快取和階層處理策略,以提升成本效益。

核心記憶體價格比較

按照從最貴到最便宜的順序,核心儲存選項價格如下:

  • Azure NetApp Files
  • Azure Premium Blob 和 Azure Premium Files
  • Azure 標準 Blob

如需定價的詳細資訊,請參閱 Azure 產品定價