高效能運算 VM 大小

警告

本文參考 CentOS,這是接近結束生命週期 (EOL) 狀態的 Linux 發行版本。 請據以考慮您的使用和規劃。 如需詳細資訊,請參閱 CentOS 生命週期結束指引

適用於: ✔️ Linux VM ✔️ Windows VM ✔️ 彈性擴展集 ✔️ 統一擴展集

提示

請嘗試使用虛擬機器選取器工具,尋找最適合您工作負載的其他大小。

HBv4 系列 VM 已針對各種 HPC 工作負載進行優化,例如計算流體力學、有限元素分析、前端、轉譯、分子動態、計算地球科學、天氣模擬,以及財務風險分析。 HBv4 VM 具有最多 176 個 AMD EPYC™ 9V33X (吉諾亞X) CPU 核心,且具有 AMD 的 3D-V 快取、768 GB 的 RAM,且沒有同時進行多線程處理。 HBv4 系列 VM 也為每個 VM 提供 780 GB/秒的 DDR5 記憶體頻寬和 2304 MB L3 快取、12 GB/秒(讀取)和 7 GB/秒(寫入)的區塊裝置 SSD 效能,以及高達 3.7 GHz 的時鐘頻率。

所有 HBv4 系列 VM 都搭載了來自 NVIDIA 網路的 400 Gb/秒 NDR InfiniBand,藉此提供超級電腦規模的 MPI 工作負載。 這些 VM 都由非區塊的廣樹狀 (fat tree) 結構連接,藉此提供最佳化且穩定的 RDMA 效能。 NDR 持續支援如自適應型路由和動態連線傳輸 (DCT) 等功能。 最新一代的 InfiniBand 還為MPI 集體的卸載提供更強大的支援,最佳化由於壅塞控制情報而導致的實際延遲,並嘉慶自適應路由的能力。 這些功能可增強應用程式效能、可擴縮性和一致性,因此我們建議使用這些功能。

HBv3 系列 VM 針對了 HPC 應用程式進行優化,能處理例如流體動態、明確和隱含的有限元素分析、天氣模型、地震處理、地層蘊藏量模擬和 RTL 模擬。 HBv3 VM 最多可提供 120 個 AMD EPYC™ 7003 系列 (米蘭X) CPU 核心、448 GB 的 RAM,且沒有超線程。 HBv3 系列 VM 也提供 350 GB/秒的記憶體頻寬,最高每個核心 32 MB 的 L3 快取,最高 7 GB/秒的區塊裝置 SSD 效能,以及最高達到 3.5 GHz 的時脈頻率。

所有 HBv3 系列 VM 均配備 NVIDIA Networking 提供的 200 GB/秒 HDR InfiniBand,能夠支援超級電腦規模的 MPI 工作負載。 這些 VM 都由非區塊的廣樹狀 (fat tree) 結構連接,藉此提供最佳化且穩定的 RDMA 效能。 HDR InfiniBand 網狀架構也支援適性路由和動態連線傳輸 (DCT,除了標準 RC 與 UD 傳輸以外)。 這些功能可增強應用程式效能、可擴縮性和一致性,因此我們強烈建議使用這些功能。

HBv2 系列 VM 最適用於以記憶體頻寬驅動的應用程式,例如流體力學、有限元素分析和油層模擬。 HBv2 VM 提供 120 個 AMD EPYC 7742 處理器核心、每個 CPU 核心 4 GB RAM,且無同步多執行緒。 每個 HBv2 VM 提供最多 340 GB/秒的記憶體頻寬,以及最多 4 teraFLOPS 的 FP64 計算。

HBv2 VM 搭載 200 Gb/秒 Mellanox HDR InfiniBand,同時 HB 和 HC 系列 VM 也都搭載 100 Gb/秒 Mellanox EDR InfiniBand。 每個 VM 類型都由非區塊的廣樹狀 (fat tree) 結構連接,藉此提供最佳化且穩定的 RDMA 效能。 HBv2 VM 支援適性路由和動態連線傳輸 (DCT,除了標準 RC 與 UD 傳輸以外)。 這些功能可增強應用程式效能、可擴縮性和一致性,因此我們強烈建議使用這些功能。

HB 系列 VM 針對記憶體頻寬需求高的應用程式 (例如流體動力學、顯式有限元素分析和天氣模型) 最佳化。 HB VM 提供 60 個 AMD EPYC 7551 處理器核心、每個 CPU 核心 4 GB RAM,且無超執行緒。 AMD EPYC 平台提供每秒 260 GB 以上的記憶體頻寬。

HC 系列 VM 最適用於以密集計算驅動的應用程式,例如隱性有限元素分析、分子動力學和計算化學。 HC VM 提供 44 個 Intel Xeon Platinum 8168 處理器核心,每個 CPU 核心 8 GB RAM,且無超執行緒。 Intel Xeon Platinum 平台支援 Intel 豐富的軟體工具生態系統,例如 Intel 數學核心函數庫。

HX 系列 VM 已針對需要大量記憶體容量的工作負載最佳化,其記憶體容量為 HBv4 的兩倍。 例如,晶片設計之類的工作負載可以使用 HX 系列 VM,目標針對使用最先進製造流程的 EDA 客戶,以執行其記憶體密集型工作負載。 HX VM 最多具有 176 個 AMD EPYC™ 9V33X (吉諾亞X) CPU 核心、1408 GB 的 RAM,而且沒有同時進行多線程處理。 HX 系列 VM 也提供 780 GB/秒的 DDR5 記憶體頻寬和每個 VM 2304 MB L3 快取、最多 12 GB/秒(讀取)和 7 GB/秒(寫入)的區塊裝置 SSD 效能,以及高達 3.7 GHz 的時鐘頻率。

注意

全部 HBv4、HBv3、HBv2、HB、HC 和 HX 系列 VM 都有實體伺服器的獨佔存取權。 每個實體伺服器只有 1 部 VM,而且這些 VM 大小沒有與任何其他 VM 共用的多租用戶。

支援 RDMA 的執行個體

大部分 HPC VM 大小都提供網路介面,用於遠端直接記憶體存取 (RDMA) 連線。 所選取已加註 'r' 的 N 系列大小也可支援 RDMA。 這是可供其他 VM 大小使用的標準 Azure 乙太網路網路介面的額外界面。

這個次要介面允許支援 RDMA 的執行個體透過 InfiniBand (IB) 網路進行通訊,針對 HBv3、HBv2 以 HDR 速率運作、針對 HB、HC、NDv2 以 EDR 速率運作,以及針對 H16r、H16mr 和其他支援 RDMA 的 N 系列虛擬機器以 FDR 速率運作。 這些 RDMA 功能可以提高訊息傳遞介面 (MPI) 型應用程式的延展性和效能。

注意

SR-IOV 支援:在 Azure HPC 中,目前有兩個類別的 VM,取決於是否已針對 InfiniBand 啟用 SR-IOV。 目前,除了 H16r、H16mr 和 NC24r 以外,在 Azure 上幾乎所有較新世代、支援 RDMA 或已啟用 InfiniBand 的 VM 都已啟用 SR-IOV。 RDMA 僅透過 InfiniBand (IB) 網路啟用,且支援所有支援 RDMA 的 VM。 只有已啟用 SR-IOV 的 VM 才支援透過 IB 的 IP。 未透過乙太網路啟用 RDMA。

  • 作業系統 - 通常會使用 Linux 散發套件,例如 CentOS、RHEL、Ubuntu、SUSE。 所有 HPC 系列 VM 都支援 Windows Server 2016 和更新版本。 請注意,HBv2 以後不支援 Windows Server 2012 R2,因為 VM 大小超過 64 個 (虛擬或實體) 核心。 如需 Marketplace 上支援的 VM 映像清單,以及如何適當地設定 VM 映像,請參閱 VM 映像。 個別的 VM 大小頁面也會列出軟體堆疊支援。

  • InfiniBand 驅動程式和 - 在已啟用 InfiniBand 的 VM 上,需要適當的驅動程式才能啟用 RDMA。 如需 Marketplace 上支援的 VM 映像清單,以及如何適當地設定 VM 映像,請參閱 VM 映像。 另請參閱啟用 InfiniBand 以了解 VM 擴充功能或手動安裝 InfiniBand 驅動程式。

  • MPI - 在 Azure 上啟用 SR-IOV 的 VM 大小,幾乎可搭配任何類型的 MPI 使用 Mellanox OFED。 如需在 Azure 上的 HPC VM 上設定 MPI 的詳細資訊,請參閱設定 HPC 的 MPI

    注意

    RDMA 網路位址空間:Azure 中的 RDMA 網路會保留位址空間 172.16.0.0/16。 若要在 Azure 虛擬網路中已部署的執行個體上執行 MPI 應用程式,請確定虛擬網路位址空間不會與 RDMA 網路重疊。

叢集組態選項

Azure 提供數個選項來建立 HPC VM 的叢集,而這些 VM 可以使用 RDMA 網路進行通訊,包括:

  • 虛擬機器 - 在相同的擴展集或可用性設定組中部署支援 RDMA 的 HPC VM (當您使用 Azure Resource Manager 部署模型時)。 如果您使用傳統部署模型,請將 VM 部署在相同的雲端服務中。

  • 虛擬機器擴展集 - 在虛擬機器擴展集中,確定您將部署限制為擴展集內 InfiniBand 通訊的單一放置群組。 例如,在 Resource Manager 範本中,將 singlePlacementGroup 屬性設定為 true。 請注意,可以啟動 singlePlacementGroup=true 的最大擴展集大小預設為 100 部 VM。 如果您的 HPC 作業規模需求高於單一租用戶中 100 部 VM,您可以要求增加,免費開啟線上客戶支援要求。 單一擴展集中 VM 數目的限制可以增加到 300。 請注意,使用可用性設定組部署 VM 時,上限是每個可用性設定組 200 部 VM。

    注意

    虛擬機器之間的 MPI:如果虛擬機器 (VM) 之間需要 RDMA (例如,使用 MPI 通訊),請確定 VM 是在相同的虛擬機器擴展集或可用性設定組中。

  • Azure CycleCloud - 使用 Azure CycleCloud 建立 HPC 叢集,以執行 MPI 作業。

  • Azure Batch - 建立 Azure Batch 集區以執行 MPI 工作負載。 若要在以 Azure Batch 執行 MPI 應用程式時使用計算密集型執行個體,請參閱在 Azure Batch 中使用多重執行個體工作來執行訊息傳遞介面 (MPI) 應用程式

  • Microsoft HPC Pack - HPC Pack 包含 MS-MPI 的執行階段環境,此 MS-MPI 若部署在支援 RDMA 的 Linux VM 上,即可使用 Azure RDMA 網路。 如需範例部署,請參閱使用 HPC Pack 設定 Linux RDMA 叢集以執行 MPI 應用程式

部署考量

  • Azure 訂用帳戶 – 若要部署的不只是少數的計算密集執行個體,請考慮隨用隨付訂用帳戶或其他購買選項。 如果您使用 Azure 免費帳戶,您只能使用有限數目的 Azure 計算核心。

  • 定價和可用性 - 依據 Azure 區域檢查 VM 定價可用性

  • 核心配額 – 您可能需要從預設值增加 Azure 訂用帳戶的核心配額。 您的訂用帳戶可能也會限制您可以在特定 VM 大小系列 (包括 H 系列) 中部署的核心數目。 若要要求增加配額,可免費開啟線上客戶支援要求。 (預設限制會視您的訂用帳戶類別而有所不同。)

    注意

    如果您有大規模的容量需求,請連絡 Azure 支援。 Azure 配額為信用額度,而不是容量保證。 無論您的配額有多少,您只需針對您使用的核心付費。

  • 虛擬網路 – 使用計算密集型執行個體時,並不需要 Azure 虛擬網路 。 不過,您可能需要至少一個以雲端為基礎的 Azure 虛擬網路來處理許多部署,或者如果您需要存取內部部署資源,則需要站對站連線。 如有需要,請建立新的虛擬網路來部署執行個體。 不支援將計算密集型 VM 新增至同質群組中的虛擬網路。

  • 調整大小 - 因為其特殊硬體,所以您只能夠在相同大小系列內重新調整計算密集型執行個體的大小 (H 系列或 N 系列)。 例如,您只能將 H 系列 VM 的大小,從某一個 H 系列大小重新調整為另一個大小。 某些 VM 可能需要考慮 InfiniBand 驅動程式支援和 NVMe 磁碟的其他考量。

其他大小

下一步