ND H100 v5 系列

適用於:✔️ Linux VM ✔️ 彈性擴展集 ✔️ 統一擴展集

ND H100 v5 系列虛擬機器 (VM) 是 Azure GPU 系列新的主打產品。 專為高階深度學習訓練所設計,緊密結合擴大又擴增的生成式 AI 和 HPC 工作負載。

ND H100 v5 系列從單一 VM 和八個 NVIDIA H100 Tensor Core GPU 開始提供。 以 ND H100 v5 為基礎的部署可以擴大至數千個 GPU,每個 VM 的互連頻寬為 3.2 Tb/秒。 VM 內的每個 GPU 隨附自己專用、與拓撲無關的 400 Gb/秒 NVIDIA Quantum-2 CX7 InfiniBand 連線。 這些連線會在佔用相同虛擬機器擴展集的 VM 之間自動設定,並支援 GPUDirect RDMA。

每個 GPU 都配備 NVLINK 4.0 連線功能,可在 VM 內進行通訊,而且執行個體有 96 個實體第 4 代 Intel Xeon 可擴充處理器核心的支援。

這些執行個體可為許多支援 GPU 加速「現成可用」的 AI、ML 和分析工具提供絕佳的效能,例如 TensorFlow、Pytorch、Caffe、RAPIDS 和其他架構。 此外,有大量現有 AI 和 HPC 工具支援擴增的 InfiniBand 互連,這些工具以 NVIDIA NCCL 通訊程式庫為建置基礎,可以順暢地群集 GPU。

進階儲存體:支援
進階儲存體快取:支援
Ultra 磁碟:支援 (深入了解可用性、使用量和效能)
即時移轉:不支援
記憶體保留更新:不支援
VM 世代支援:第 2 代
加速網路:支援
暫時性 OS 磁碟:支援
Infiniband:支援,GPUDirect RDMA、8x400 Gigabit NDR
NVIDIA NVLink 互連:支援
巢狀虛擬化:不支援

重要

若要開始使用 ND H100 v5 VM,請參閱 HPC 工作負載組態和最佳化,以取得包括驅動程式和網路組態的步驟。 由於 GPU 記憶體 I/O 使用量增加,ND H100 v5 需要使用第 2 代 VM 和 Marketplace 的映像。

Azure 支援 Ubuntu 20.04/22.04、RHEL 7.9/8.7/9.3、AlmaLinux 8.8/9.2 和 SLES 15 用於 ND H100 v5 VM。 Azure marketplace 有針對 HPC/AI 工作負載進行最佳化且預先設定好的 Linux VM 映像,這些供應項目已安裝各種工具和程式庫,因此,強烈建議利用這些供應項目。 目前支援的 VM 映像有 Ubuntu-HPC 20.04/22.04 和 AlmaLinux-HPC 8.6/8.7。

範例

大小 vCPU 記憶體:GiB 暫存儲存體 (SSD) GiB GPU GPU 記憶體 (GiB) 最大資料磁碟 最大未快取磁碟輸送量:IOPS/MBps 最大網路頻寬 最大 NIC
Standard_ND96isr_H100_v5 96 1900 1000 8 H100 80 GB GPUs(NVLink) 80 32 40800/612 80,000 Mbps 8

資料表大小定義

  • 儲存容量會以 GiB 或是 1024^3 位元組為單位顯示。 當比較使用 GB (1000^3 位元組) 為度量單位的磁碟與使用 GiB (1024^3) 為度量單位的磁碟時,請記住以 GiB 為單位提供的容量數字可能較小。 例如,1023 GiB = 1098.4 GB。

  • 磁碟輸送量是以每秒輸入/輸出作業 (IOPS) 和 MBps 進行測量,其中 MBps = 10^6 位元組/每秒。

  • 資料磁碟可以在快取模式或取消快取模式下運作。 針對快取的資料磁碟作業,主機快取模式必須設定為 ReadOnlyReadWrite。 針對取消快取的資料磁碟作業,主機快取模式必須設定為 None

  • 若要瞭解如何取得 VM 的最佳儲存體效能,請參閱虛擬機器和磁碟效能

  • 預期的網路頻寬是針對所有目的地,為所有 NIC 中每個 VM 類型配置的最大彙總頻寬。 如需詳細資訊,請參閱虛擬機器網路頻寬

    不保證效能上限。 限制針對預定應用程式選取正確 VM 類型的供應項目指導。 實際網路效能取決於多種因素,包括網路壅塞、應用程式負載和網路設定。 如需最佳化網路輸送量的資訊,請參閱最佳化 Azure 虛擬機器的網路輸送量。 若要達到 Linux 或 Windows 上的預期網路效能,您可能需要選取特定版本,或最佳化 VM。 如需詳細資訊,請參閱頻寬/輸送量測試 (NTTTCP)

其他大小和資訊

磁碟類型的詳細資訊:磁碟類型