本指南提供最適合 Azure VM 上 HPC 工作負載之記憶體解決方案的最佳做法、指導方針、詳細比較和技術規格。 它包含效能計量、通訊協定支援、成本層,以及每種記憶體類型的使用案例對齊。 通常必須在最佳化成本與最佳化效能之間做出取捨。 如果工作負載需求不高,則不一定要遵循每個最佳化建議。 評估以下建議時,請考量您的效能需求、成本和工作負載模式。
概觀
HPC 工作負載的記憶體是由核心記憶體所組成,在某些情況下是加速器。 核心儲存是您資料的永久存放地。 它包含豐富的數據管理功能,且具有持久性、可用性、可調整性、彈性且安全。 加速器藉由提供高效能的數據存取來增強核心記憶體。 您可以視需要布建加速器,並讓您的計算工作負載更快速地存取數據。
記憶體服務比較
| 特徵 / 功能 | 標準 Blob | 進階 Blob | 進階檔案 | Azure NetApp Files | Azure Managed Lustre |
|---|---|---|---|---|---|
| 容量 | 20+ PiB | 20+ Pebibyte (PiB) | 100 TiB | 500 TiB | 1 PiB |
| 頻寬 | 15 GB/秒 | 15 GB/秒 | 10 GB/秒 | 10 GiB/秒 | 最多 512 GB/秒 |
| IOPS | 20,000 | 20,000 | 100,000 | 800,000 | >100,000 |
| 延遲 | <100 毫秒 | <10 毫秒 | 2–4 毫秒 | <1 毫秒 | <2 毫秒 |
| 通訊協定 | REST、HDFS、NFSv3、SFTP、FUSE、CSI | 相同 | REST、NFSv4.1、SMB3、CSI | NFSv3/4.1、SMB3、CSI | Lustre、CSI |
初始考慮
如果您從頭開始,請參閱 瞭解數據存放區模型來選擇數據存放 區,然後選擇 Azure 記憶體服務 或 Azure 記憶體簡介 ,以取得記憶體服務選項的概念。
一目了然
從您打算儲存的數據量開始。 然後,請考慮工作負載所使用的CPU核心數目和檔案大小。 這些因素可協助您縮小哪些核心記憶體服務最符合您的工作負載,以及是否要使用加速器來增強效能。
| 設定 | CPU 核心 | 檔案大小 | 核心記憶體建議 | 加速器建議 |
|---|---|---|---|---|
| 低於 50 TiB | N/A | N/A | Azure 檔案服務 或 Azure NetApp Files。 | 沒有加速器 |
| 50 TiB - 5,000 TiB | 小於 500 | N/A | Azure 檔案服務 或 Azure NetApp Files。 | 沒有加速器 |
| 50 TiB - 5,000 TiB | 超過 500 | 1 MiB 和更大 | Azure 標準 Blob. 它受到所有加速器的支持、支援許多通訊協定,而且符合成本效益。 | Azure Managed Lustre. |
| 50 TiB - 5,000 TiB | 超過 500 | 小於 1 MiB | Azure Premium Blob 或 Azure Standard Blob。 | Azure Managed Lustre. |
| 50 TiB - 5,000 TiB | 超過 500 | 小於 512 KiB | Azure NetApp Files。 | 沒有加速器 |
| 超過 5,000 TiB | N/A | N/A | 與您的現場或客戶團隊交談。 |
解決方案詳細資料
如果您在使用判定樹之後仍然在選項之間停滯,以下是每個解決方案的詳細資料:
| 解決方法 | 最佳效能和規模 | 資料存取(存取通訊協定) | 計費模型 | 核心記憶體或加速器 |
|---|---|---|---|---|
| Azure 標準 Blob | * 適用於大型檔案、需要大量頻寬的工作負載。 * 專為非結構化數據所設計。 * 支援高效能工作負載。 |
* 適用於傳統 (檔案) 和雲端原生 (REST) HPC 應用程式。 * 易於存取、共用、管理數據集。 * 適用於所有加速器。 |
支付您所使用的服務。 | 核心記憶體。 |
| Azure 進階 Blob | * IOPS 和延遲優於標準 Blob。 * 適用於具有許多中型檔案和混合檔案大小的數據集。 |
適用於傳統 (檔案) 和雲端原生 (REST) HPC 應用程式。 易於存取、共用、管理數據集。 適用於所有加速器。 |
支付您所使用的服務。 | 核心記憶體。 |
| Azure 進階檔案 | * 適用於較小規模的容量和頻寬(<1k 核心)。 * IOPS 和延遲適用於中型檔案 (>512 KiB)。 * 提供進階 (低延遲,高 IOPS) SKU。 * 透過 Azure 檔案同步進行混合式存取。 |
與 Linux (NFS) 和 Windows (SMB) 輕鬆整合,但無法使用 NFS+SMB 來存取相同的數據。 | 支付您佈建的內容。 | 核心記憶體。 |
| Azure NetApp Files | * 適合中等規模工作的容量和頻寬(1k-10k 核心)。 * IOPS 和延遲適用於小型檔案資料集 (<512 KiB)。 * 適用於小型、多檔案工作負載。 * 使用 ONTAP 技術的企業級檔案記憶體。 * 跨標準、進階、Ultra 層的動態效能調整。 |
輕鬆整合至Linux和Windows,支援Linux和Windows工作流程的多協議。 | 支付您佈建的內容。 | 任一 |
| Azure Managed Lustre | 支援所有作業大小的頻寬(1k - >10k 核心)。 * IOPS 和延遲適用於數千個中型檔案 (>512 KiB)。 * 最適合需要大量頻寬的讀取和寫入工作負載。 * 針對 HPC/AI 優化的平行檔案系統。 * 針對階層式存儲與 Azure Blob 無縫整合。 |
Lustre、CSI。 | 支付您佈建的內容。 | 足夠耐用,可以作為獨立(核心)儲存設備運行,作為加速器更具成本效益。 |
特製化儲存解決方案
Azure 提供一系列專為符合 HPC 工作負載需求而量身打造的記憶體服務。 每個解決方案都會針對不同的效能特性、存取模式和成本配置檔進行優化。 以下是最相關的儲存選項概述,以及它們最適合用於 HPC 情境中的用途。
| 記憶體解決方案 | 使用案例 | 效能基準測試 | 延展性選項 | 與其他 Azure 服務整合 |
|---|---|---|---|---|
| Azure Blob 儲存體 | * 資料分析 * 內容發佈 * 備份和封存 |
使用 BlobFuse2 的輸送量高達 30GB/秒 | * 每個帳戶最多 5 個 PiB 的儲存體帳戶 * 每個帳戶的容器數目無限制 |
* Azure AI * AKS * Azure Data Lake |
| Azure 檔案儲存體 | * DevOps *備份 * 遠端工作 |
傳輸中的加密 (適用於 NFS 共用的 TLS 1.3) | * 檔案共享的儲存空間可達 100 TiB 每個共享(標準) * IOPS 最多 100,000 (進階) |
* Azure 備份 * Azure 監視器 * Microsoft Entra ID |
| Azure NetApp Files | *資料庫 * 虛擬桌面基礎架構 (VDI) * HPC |
使用 FIO 測量的 IOPS 和輸送量 | * 每個集區最多 100 TiB 的容量集區 * 每個磁碟區最多 100 TiB 的磁碟區 |
* AKS * Azure 備份 * Azure 監視器 |
| Azure Managed Lustre | * 大規模模擬 * Genomics * 科學工作負載 |
吞吐量高達 30GB/秒,並具有 250MB/秒/TiB 的效能層級 | * 檔案系統最多 1.5 PB 容量 * 輸送量高達 375 GB/秒 |
* Azure Blob 儲存體 * AKS * Azure 監視器 |
AI 和 RAG 工作負載記憶體需求
AI 和 RAG 工作負載的記憶體需求會因不同階段而異。 在定型階段期間,必須具備高輸送量、檢查點、本機快取,以及載入大型模型的能力。 針對推斷階段,需要快速模型存取、低延遲和並行 GPU 存取。 在RAG階段中,需要安全的非結構化記憶體、向量資料庫整合、新鮮度和低延遲。
合作夥伴解決方案
| 合作夥伴 | 協定 | 規模 | 獨特功能 |
|---|---|---|---|
| 庫穆洛 | NFS、SMB、S3 | 200 PiB | Azure 原生 SaaS、全域命名空間、符合成本效益 |
| Dell APEX | NFS、SMB、S3、HDFS | 5.6 PiB | 內部部署同位、原則型階層處理 |
| Nasuni | NFS、SMB、S3 | — | 檔案鎖定,以 Blob 作為主要層級 |
| Hammerspace | NFS、SMB、S3、pNFS | — | 全域命名空間,快取替代方案 |
| Weka | NFS、SMB、S3 | 14 EB | 高 IOPS、低延遲、線性向外延展 |
| IBM SpectrumScale | GPFS、NFS、SMB | — | 完整 GPFS 堆疊 |
| DDN Exascaler | Lustre、NFS、SMB | PB | 完整 DDN Lustre 堆疊 |
效能優化秘訣
- 根據效能調整磁碟區大小,而不只是容量。
- 使用可用性區域來控制延遲。
- 在 ANF 中使用大型磁碟區功能以取得最大頻寬。
- 請考慮快取和階層處理策略,以提升成本效益。
核心記憶體價格比較
按照從最貴到最便宜的順序,核心儲存選項價格如下:
- Azure NetApp Files
- Azure Premium Blob 和 Azure Premium Files
- Azure 標準 Blob
如需定價的詳細資訊,請參閱 Azure 產品定價。