共用方式為


製造 HPC 記憶體

儲存體存取是規劃 HPC 工作負載效能的一個重要部分。 下列數據有助於簡化決策程式,並將特定儲存解決方案功能(或缺乏功能)的任何誤解降到最低。

設計考量

請務必確保所需的數據在正確的時間取得 HPC 叢集機器。 您也想要確定這些個別計算機的結果會快速儲存,並可供進一步分析。

工作負載流量的分佈

考慮 HPC 環境將產生並處理的流量類型。 如果您計劃執行多個類型的工作負載,並計劃針對其他用途使用該儲存體,則此步驟特別重要。 請考慮並記錄下列流量類型:

  • 單一數據流與多個數據流
  • 讀取流量對寫入流量的比率
  • 平均檔案大小與計數
  • 隨機與循序存取模式

資料位置

下一個類別會解釋資料位置。 位置感知將協助您判斷是否可以使用複製、快取或同步處理作為資料移動策略。 以下是要事先檢查的區域專案:

  • 來源資料位於內部部署、Azure 上或兩者中?
  • 結果資料位於內部部署、Azure 上或兩者中?
  • Azure 中的 HPC 工作負載要與源數據修改時程表協調?
  • 敏感性/HIPAA 資料?

效能需求

記憶體解決方案的效能需求通常摘要如下:

  • 單一數據流輸送量 (以 Gb/ps 為單位)
  • 多數據流輸送量 (以 Gb/ps 為單位)
  • 預期的 IOPS 上限
  • 平均延遲 (毫秒)

每個考量都會影響效能,因此,這些數字代表特定解決方案應達成的指南。 例如,您的 HPC 工作負載可能會在工作流程中執行大量的檔案建立和刪除作業。 那些作業可能會影響整體輸送量。

存取方法

考慮所需的用戶端存取通訊協定,並清楚瞭解您需要的通訊協定功能。 有不同版本的 NFS 和 SMB。

以下是一些要考量的事項:

  • 需要 NFS/SMB 版本
  • 預期的通訊協定功能 (ACL, 加密 )
  • 平行檔案系統解決方案

總容量需求

Azure 中的儲存體容量是下一個考量。 它有助於通知解決方案的整體成本。 如果您計劃長期存放大量資料,建議您考慮將「階層處理」作為儲存體解決方案的一部分。 階層處理提供較低成本的儲存體選項,並與經常性儲存層中成本較高但效能較高的儲存體合併。 因此,請評估容量需求,如下所示:

  • 所需的總容量
  • 所需的經常性儲存層總容量
  • 所需的一般性儲存層總容量
  • 所需的非經常性儲存層總容量

驗證和授權方法

關於驗證和授權需求,例如使用LDAP伺服器或Active Directory環境,請確定您包含架構的適當支持系統。 如果您需要支援 UID/GID 對應至 Active Directory 使用者等功能,請確認記憶體解決方案支援該功能。

以下是一些要考量的事項:

  • 本機 (僅限檔案伺服器上的 UID/GID)
  • 目錄 (LDAP、Active Directory)
  • UID/GID 對應至 Active Directory 使用者?

常見的 Azure 記憶體解決方案比較

類別 Azure Blob 儲存體 Azure 檔案 Azure Managed Lustre Azure NetApp Files
使用案例 Azure Blob 儲存體 最適合大規模、大量讀取的循序存取工作負載,其中數據會內嵌一次,但幾乎沒有進一步修改。

如果維護忽略不計,則 Blob 儲存體可提供最低的擁有權總成本。

以下是一些範例案例:大規模分析資料、輸送量敏感的高效能運算、備份和封存、自動駕駛、媒體轉譯或基因定序。
Azure 檔案儲存體是最適合隨機存取工作負載的高可用性服務。

針對 NFS 共用,Azure 檔案儲存體 提供完整的 POSIX 檔案系統支援。 您可以從 Azure 容器實例 (ACI) 和 Azure Kubernetes Service (AKS) 等容器平台輕鬆使用它,搭配內建的 CSI 驅動程式和 VM 型平臺。

以下是一些範例案例:共用檔案、資料庫、主目錄、傳統應用程式、ERP、CMS、不需進階管理的 NAS 移轉,以及需要擴增檔案儲存體的自訂應用程式。
Azure 受控 Lustre 是完全受控的平行文件系統,最適合中型到大型 HPC 工作負載。

藉由提供熟悉的 Lustre 平行檔案系統功能、行為和效能,保護長期應用程式投資,在雲端中啟用 HPC 應用程式,而不會中斷應用程式相容性。
由 NetApp 提供,具有進階管理功能的雲端全受控檔案服務。

NetApp Files 適用於需要隨機存取的工作負載,並提供廣泛的通訊協定支援和資料保護功能。

一些範例案例包括:需要豐富管理功能的內部部署企業 NAS 移轉、SAP HANA 等延遲敏感性工作負載、延遲敏感或需要大量高效能計算的 IOPS,或需要同時存取多重通訊協定的工作負載。
可用的通訊協定 NFS 3.0

休息

Data Lake Storage Gen2
Smb

NFS 4.1

(任一通訊協定之間沒有互操作性)
Lustre NFS 3.0 和 4.1

SMB
主要功能 與 HPC 快取整合以進行低延遲工作負載。

整合式管理,包括生命週期、不可變的 Blob、數據故障轉移和元數據索引。
依區域備援,以提供高可用性。

一致的單位數毫秒延遲。

隨容量調整規模的可預測效能和成本。
最高 2.5PB 的高儲存容量。

低 (~2 毫秒) 延遲。

在幾分鐘內啟動新的叢集。

支援使用 AKS 的容器化工作負載。
極低延遲 (低至亞毫秒)。

豐富的 NetApp ONTAP 管理功能,例如雲端中的 SnapMirror。

一致的混合式雲端體驗。
效能 (每磁碟區) 最多 20,000 IOPS,最多 100 GiB/秒的輸送量。 最多 100,000 IOPS,最多 80 GiB/秒的輸送量。 最多 100,000 IOPS,最多 500 GiB/秒的輸送量。 最多 460,000 IOPS,最多 36 GiB/秒的輸送量。
定價 Azure Blob 儲存體定價 Azure 檔案儲存體定價 Azure 受控 Lustre 定價 Azure NetApp Files 定價

Roll-your-own parallel file system

如同 NFS,您可以建立多節點 BeeGFS 或 Lustre 文件系統。 這類系統的效能主要取決於您選取的 虛擬機器 類型。 您可以使用適用於 BeeGFS 的 Azure Marketplace 中找到的映射,或 DDN 稱為 Whamcloud 的 Lustre 實作。 使用來自 BeeGFS 或 DDN 等廠商的第三方映像,可讓您購買其支援。 否則,您可以透過 GPL 授權的方式使用 BeeGFS 和 Lustre,而不需要其他費用(超過機器和磁碟)。 這些工具很容易推出搭配暫時本機磁碟的 Azure HPC 腳本(適用於臨時磁碟),或 進階版/Ultra SSD 進行永續性記憶體。

Cray ClusterStor

大型工作負載的最大挑戰之一是復寫大型計算叢集與大型 Lustre 環境一起運作的純「裸機」效能(以 TB/秒的輸送量而言,以及可能數 PB 的記憶體)。 您現在可以使用 Azure Cray ClusterStor 解決方案來執行這些工作負載。 這種方法是放在相關 Azure 數據中心的純裸裸 Lustre 部署。 BeeGFS 和 Lustre 等平行文件系統因其架構而提供最高效能。 但是,該架構具有很高的管理價格,因此會使用這些技術。

下一步

下列文章提供雲端採用旅程中製造 HPC 環境之每個步驟的指引。