分享方式:


Azure 中 GPU 計算工作負載的移轉指南

隨著市集和 Microsoft Azure 資料中心提供更強大的 GPU,建議您重新評估工作負載的效能,並考慮移轉至較新的 GPU。

基於同樣的原因,以及維護高品質且可靠的服務供應專案,Azure 會定期淘汰支援較舊 VM 大小的硬體。 Azure 中要淘汰的第一組 GPU 產品分別是由 NVIDIA Tesla K80、P100 及 P40 資料中心 GPU 加速器提供的原始 NC、NC v2 及 ND 系列 VM。 這些產品將於 2023 年 8 月 31 日淘汰,而此系列中最舊的 VM 於 2016 年推出。

此後,GPU 與整個深度學習和 HPC 產業一起取得不可思議的進步,通常會在幾代之間超過一倍的效能。 自 NVIDIA K80、P40 和 P100 GPU 推出以來,Azure 已推出以 GPU 加速計算和 AI 為基礎的多個新世代和類別的 VM 產品,以 NVIDIA 的 T4、V100 和 A100 GPU 為基礎,並以 InfiniBand 型互連網狀架構等選擇性功能區分。 這些都是我們鼓勵客戶探索為移轉路徑的選項。

在大部分情況下,新一代 GPU 所提供的效能大幅提升會降低整體 TCO,方法是降低作業持續時間、高載作業,或減少涵蓋計算資源固定大小需求所需的整體 GPU 啟用 VM 數量,即使每個 GPU 時的成本可能會有所不同。 除了這些優點之外,客戶還可以透過高效能的 VM 改善解決時間,並採用較新的軟體、CUDA 運行時間和驅動程式版本來改善其解決方案的健康情況和支援性。

移轉與Optimization

Azure 會辨識客戶有許多需求,這些需求可能會決定特定 GPU VM 產品的選擇,包括 GPU 架構考慮、互連、TCO、解決時間,以及根據合規性位置或延遲需求的區域可用性,以及其中一些甚至隨著時間而變更。

同時,GPU 加速是全新且快速演變的領域。

因此,此產品區域沒有真正的一刀切指導方針,而移轉是重新評估工作負載潛在重大變更的完美時機,例如從叢集部署模型移至單一大型 8 GPU VM,反之亦然,利用縮減的精確度資料類型、採用多重執行個體 GPU 功能等。

這類考慮 - 讓每個世代 GPU 效能已經戲劇性的內容增加時,例如新增 TensorCores 的功能可能會以大小順序來增加效能,是極其特定的工作負載。

結合移轉與應用程式重新架構,可產生巨大的價值和改善成本與解決時間。

不過,這些改進方式已超出本文件的範圍,其目標是將直接等價類別放在目前客戶可能執行的一般化工作負載,以找出價格每個 GPU 效能都最類似的 VM 選項,並讓現有的 VM 系列淘汰。

因此,本文件假設使用者可能沒有任何深入解析或控制工作負載特定屬性,例如所需的 VM 執行個體數目、GPU、互連等。

具有 NVIDIA K80 GPU 的 NC 系列 VM

NC (v1) 系列 VM 是 Azure 最舊的 GPU 加速計算 VM 類型,由 1 到 4 個 NVIDIA Tesla K80 資料中心 GPU 加速器提供,與 Intel Xeon E5-2690 v3 (Haswell) 處理器配對。 一旦成為需要 AI、ML 和 HPC 應用程式的旗艦 VM 類型,在產品生命週期後期 (特別是透過 NC 系列促銷定價),對於價值在 GPU 上擁有非常低的絕對成本的用戶來說,他們仍然是產品生命週期後期的熱門選擇。

目前,由於 NVIDIA K80 GPU 平台的計算效能相對較低,相較於具有較新 GPU 的 VM 系列,NC 系列的熱門使用案例是即時推斷和分析工作負載,其中加速的 VM 必須處於穩定狀態,才能在應用程式送達時提供要求。 在這些情況下,要求的磁碟區或批次大小可能不足以受益於效能較快的 GPU。 NC VM 也適用於開發人員和學生,瞭解、開發或實驗 GPU 加速,他們需要廉價的雲端式 CUDA 部署目標,以反覆運算不需要執行到生產層級。

一般而言,NC 系列客戶應該考慮直接從 NC 大小移至 NC T4 v3 大小,Azure 的新 GPU 加速平台,適用於由 NVIDIA Tesla T4 GPU 支援的輕量工作負載。

目前 VM 大小 目標 VM 大小 規格差異
Standard_NC6
Standard_NC6_Promo
Standard_NC4as_T4_v3

Standard_NC8as_T4
CPU:Intel Haswell 與 AMD Rome
GPU 計數:1 (相同)
GPU 產生:NVIDIA Keppler 與Turing (+2 代, ~2x FP32 FLOPs)
GPU 記憶體 (GiB (每個 GPU)):16 (+4)
vCPU:4 (-2) 或 8 (+2)
記憶體 GiB:16 (-40) 或 56 (相同)
暫存儲存體 (SSD) GiB:180 (-160) 或 360 (+20)
資料磁碟數上限:8 (-4) 或 16 (+4)
加速網路:有 (+)
進階儲存體:有 (+)
Standard_NC12
Standard_NC12_Promo
Standard_NC16as_T4_v3 CPU:Intel Haswell 與 AMD Rome
GPU 計數:1 (-1)
GPU 產生:NVIDIA Keppler 與Turing (+2 代, ~2x FP32 FLOPs)
GPU 記憶體 (GiB (每個 GPU)):16 (+4)
vCPU: 16 (+4)
記憶體 GiB: 110 (-2)
暫存儲存體 (SSD) GiB: 360 (-320)
資料磁碟數上限:48 (+16)
加速網路:有 (+)
進階儲存體:有 (+)
Standard_NC24
Standard_NC24_Promo
Standard_NC64as_T4_v3* CPU:Intel Haswell 與 AMD Rome
GPU 計數:4 (相同)
GPU 產生:NVIDIA Keppler 與Turing (+2 代, ~2x FP32 FLOPs)
GPU 記憶體 (GiB (每個 GPU)):16 (+4)
vCPU: 64 (+40)
記憶體 GiB: 440 (+216)
暫存儲存體 (SSD) GiB: 2880 (+1440)
資料磁碟數上限:32 (-32)
加速網路:有 (+)
進階儲存體:有 (+)
Standard_NC24r
Standard_NC24r_Promo
Standard_NC64as_T4_v3* CPU:Intel Haswell 與 AMD Rome
GPU 計數:4 (相同)
GPU 產生:NVIDIA Keppler 與Turing (+2 代, ~2x FP32 FLOPs)
GPU 記憶體 (GiB (每個 GPU)):16 (+4)
vCPU: 64 (+40)
記憶體 GiB: 440 (+216)
暫存儲存體 (SSD) GiB: 2880 (+1440)
資料磁碟數上限:32 (-32)
加速網路:有 (+)
進階儲存體:有 (+)
InfiniBand 互連:否

具有 NVIDIA Tesla P100 GPU 的 NC v2 系列 VM

NC v2 系列虛擬機是專為 AI 和深度學習工作負載而設計的旗艦平台。 它們為深度學習訓練提供了絕佳的效能,每個 GPU 效能大約是原始 NC 系列 2 倍,並由 NVIDIA Tesla P100 GPU 和 Intel Xeon E5-2690 v4 (Broadwell) CPU 提供。 如同 NC 和 ND 系列,NC v2 系列透過 RDMA 提供具有次要低延遲、高輸送量網路的設定,以及 InfiniBand 連線,讓您可以執行跨越許多 GPU 的大型定型作業。

一般而言,NCv2 系列客戶應該考慮直接移至 NC A100 v4 大小,Azure 的新 GPU 加速平台由 NVIDIA Ampere A100 PCIe GPU 提供。

目前 VM 大小 目標 VM 大小 規格差異
Standard_NC6s_v2 Standard_NC24ads_A100_v4 CPU:Intel Broadwell 與 AMD Milan
GPU 計數:1 (相同)
GPU 產生:NVIDIA Pascal 與Ampere (+2 代)
GPU 記憶體 (GiB (每個 GPU)): 80 (+64)
vCPU: 24 (+18)
記憶體 GiB: 220 (+108)
暫存儲存體 (SSD)GiB: 1123 (+387)
資料磁碟數上限:12 (相同)
加速網路:有 (+)
進階儲存體:有 (+)
Standard_NC12s_v2 Standard_NC48ads_A100_v4 CPU:Intel Broadwell 與 AMD Milan
GPU 計數:2 (相同)
GPU 產生:NVIDIA Pascal 與Ampere (+2 代)
GPU 記憶體 (GiB (每個 GPU)): 80 (+64)
vCPU: 48 (+36)
記憶體 GiB: 440 (+216)
暫存儲存體 (SSD)GiB: 2246 (+772)
資料磁碟數上限:24 (相同)
加速網路:有 (+)
進階儲存體:有 (+)
Standard_NC24s_v2 Standard_NC96ads_A100_v4 CPU:Intel Broadwell 與 AMD Milan
GPU 計數:4 (相同)
GPU 產生:NVIDIA Pascal 與Ampere (+2 代)
GPU 記憶體 (GiB (每個 GPU)): 80 (+64)
vCPU: 96 (+72)
記憶體 GiB: 880 (+432)
暫存儲存體 (SSD)GiB: 4492 (+1544)
資料磁碟數上限:32 (相同)
加速網路:有 (+)
進階儲存體:有 (+)
Standard_NC24rs_v2 Standard_NC96ads_A100_v4 CPU:Intel Broadwell 與 AMD Milan
GPU 計數:4 (相同)
GPU 產生:NVIDIA Pascal 與Ampere (+2 代)
GPU 記憶體 (GiB (每個 GPU)): 80 (+64)
vCPU: 96 (+72)
記憶體 GiB: 880 (+432)
暫存儲存體 (SSD)GiB: 4492 (+1544)
資料磁碟數上限:32 (相同)
加速網路:有 (+)
進階儲存體:有 (+)
InfiniBand 互連:否 (-)

具有 NVIDIA Tesla P40 GPU 的 ND 系列 VM

ND 系列虛擬機是專為 AI 和深度學習工作負載而設計的中型平台。 它們透過改進的單精度浮點運算,在前身上提供絕佳的批次推斷效能,並搭載 NVIDIA Tesla P40 GPU 和 Intel Xeon E5-2690 v4 (Broadwell) CPU。 如同 NC 系列和 NC v2 系列,ND 系列透過 RDMA 提供具有次要低延遲且高輸送量網路的設定,以及 InfiniBand 連線能力,讓您能夠執行使用橫跨數個 GPU 的大規模訓練工作。

目前 VM 大小 目標 VM 大小 規格差異
Standard_ND6 Standard_NC4as_T4_v3

Standard_NC8as_T4_v3
CPU:Intel Broadwell 與 AMD Rome
GPU 計數:1 (相同)
GPU 產生:NVIDIA Pascal 與Turing (+1 代)
GPU 記憶體 (GiB (每個 GPU)): 16 (-8)
vCPU:4 (-2) 或 8 (+2)
記憶體 GiB: 16 (-40) 或 56 (-56)
暫存儲存體 (SSD) GiB: 180 (-552) 或 360 (-372)
資料磁碟數上限:8 (-4) 或 16 (+4)
加速網路:有 (+)
進階儲存體:有 (+)
Standard_ND12 Standard_NC16as_T4_v3 CPU:Intel Broadwell 與 AMD Rome
GPU 計數:1 (-1)
GPU 產生:NVIDIA Pascal 與Turing (+1 代)
GPU 記憶體 (GiB (每個 GPU)): 16 (-8)
vCPU: 16 (+4)
記憶體 GiB: 110 (-114)
暫存儲存體 (SSD)GiB: 360 (-1,114)
資料磁碟數上限:48 (+16)
加速網路:有 (+)
進階儲存體:有 (+)
Standard_ND24 Standard_NC64as_T4_v3* CPU:Intel Broadwell 與 AMD Rome
GPU 計數:4 (相同)
GPU 產生:NVIDIA Pascal 與Turing (+1 代)
GPU 記憶體 (GiB (每個 GPU)): 16 (-8)
vCPU: 64 (+40)
記憶體 GiB: 440 (相同)
暫存儲存體 (SSD) GiB: 2880 (相同)
資料磁碟數上限:32 (相同)
加速網路:有 (+)
進階儲存體:有 (+)
Standard_ND24r Standard_ND96amsr_A100_v4 CPU:Intel Broadwell 與 AMD Rome
GPU 計數:8 (+4)
GPU 產生:NVIDIA Pascal 與Ampere (+2 代)
GPU 記憶體 (GiB (每個 GPU)): 80 (+56)
vCPU: 96 (+72)
記憶體 GiB: 1900 (+1452)
暫存儲存體 (SSD): 6400 (+3452)
資料磁碟數上限:32 (相同)
加速網路:有 (+)
進階儲存體:有 (+)
InfiniBand 互連:是 (相同)

移轉步驟

一般變更

  1. 選擇要進行移轉的系列和大小。 利用定價計算機進一步深入解析。

  2. 取得目標 VM 系列的配額。

  3. 將目前的 N 系列 VM 大小調整為目標大小。 這也可能是更新虛擬機器映像所使用的操作系統的好時機,或採用其中一個 HPC 映像,並預安裝驅動程式作為起點。

    重要

    您的 VM 映像可能已產生舊版的 CUDA 執行時間、NVIDIA 驅動程式,以及 (如果適用,僅適用於已啟用 RDMA 的大小) 的 Mellanox OFED 驅動程式,而您的新 GPU VM 系列需要,您可以依照 Azure 文件中的指示來更新此映像。

重大變更

選取要移轉的目標大小

請在評估目前的使用量後,決定需要的 GPU VM 類型。 視工作負載需求而定,您有幾個不同的選擇,

注意

最佳做法是根據成本和效能選擇 VM 大小。 本指南中的建議是以一般用途、一對一的效能計量比較為基礎,以及另一個 VM 系列中最接近的相符項目。 在決定正確的大小之前,請先使用 Azure 定價計算機取得成本比較。

重要

所有舊版 NC、NC v2 及 ND 系列大小都可在多 GPU 大小中使用,包括 4 個 GPU 大小,且不需要 InfiniBand 互連來進行向外延展、緊密結合的工作負載,這些工作負載需要比單一 4 GPU VM 或單一 K80、P40 或 P100 GPU 分別提供更多的計算能力。 雖然上述建議提供簡單的前進路徑,但這些大小的使用者應該考慮使用更強大的 NVIDIA V100 GPU 型 VM 系列達成其效能目標,例如 NC v3 系列ND v2 系列,這通常會以較低的成本啟用相同層級的工作負載效能,並藉由在多 GPU 和每個 VM 之前提供大幅更高的效能,並改善管理能力需要個別的多節點組態。

取得目標 VM 系列的配額

請遵循指南,VM 系列要求增加 vCPU 配額。選取您為移轉選取的目標 VM 大小。

調整目前虛擬機的大小

您可以調整虛擬機器大小

下一步

如需已啟用 GPU 的虛擬機器大小完整清單,請參閱 GPU - 加速計算概觀