Azure 中 GPU 計算工作負載的移轉指南

2025-05-04

隨著市集中和Microsoft Azure 數據中心提供更強大的 GPU 時，建議您重新評估工作負載的效能，並考慮移轉至較新的 GPU。

基於同樣的原因，以及維護高品質且可靠的服務供應專案，Azure 會定期淘汰支援較舊 VM 大小的硬體。 Azure 中要淘汰的第一組 GPU 產品分別是由 NVIDIA Tesla K80、P100 和 P40 數據中心 GPU 加速器提供的原始 NC、NC v2 和 ND 系列 VM。這些產品將於 2023 年 8 月 31 日淘汰，而此系列中最舊的 VM 將於 2016 年推出。

此後，GPU 與整個深度學習和 HPC 產業一起取得了不可思議的進步，通常在幾代產品之間性能翻倍。自 NVIDIA K80、P40 和 P100 GPU 推出以來，Azure 已推出以 GPU 加速計算和 AI 為基礎的多個較新世代和類別的 VM 產品，以 NVIDIA 的 T4、V100 和 A100 GPU 為基礎，並以 InfiniBand 型互連網狀架構等選擇性功能區分。這些都是我們鼓勵客戶探索為移轉路徑的選項。

在大多數情況下，新一代 GPU 所提供的效能大幅提升，降低整體 TCO 的方式包括縮短可變負載作業的持續時間，或者減少為滿足固定大小計算資源需求所需的 GPU 啟用 VM 數量，儘管每個 GPU 小時的成本可能有所不同。除了這些優點之外，客戶還可以透過高效能的 VM 改善時間到解決方案，並採用較新的軟體、CUDA 運行時間和驅動程式版本來改善其解決方案的健康情況和支援性。

移轉與優化

Azure 會辨識客戶有許多需求，這些需求可能會決定特定 GPU VM 產品的選擇，包括 GPU 架構考慮、互連、TCO、解決方案時間，以及根據合規性位置或延遲需求的區域可用性，以及其中一些甚至隨著時間而變更。

同時，GPU 加速是全新且快速演變的領域。

因此，此產品區域沒有真正的一刀切指導方針，而移轉是重新評估工作負載潛在重大變更的完美時機，例如從叢集部署模型移至單一大型 8 GPU VM，反之亦然，利用縮減的精確度數據類型、採用多重實例 GPU 等功能等等。

這些考量——在每代 GPU 效能已經顯著提升的背景下，例如像 TensorCores 的加入可以將效能提高一個數量級，都非常依賴具體的工作負載。

結合移轉與應用程式重新架構，可產生巨大的價值和改善成本與解決方案時間。

不過，這些改進方式已超出本檔的範圍，其目標是將直接等價類別放在目前客戶可能執行的一般化工作負載，以識別每個 GPU 的價格和效能都最類似的 VM 選項，以及正在淘汰的現有 VM 系列。

因此，本檔假設使用者可能沒有任何見解或控制工作負載特定屬性，例如所需的 VM 實例數目、GPU、互連等等。

建議的升級路徑

NC-Series 具有 NVIDIA K80 GPU 的 VM

NC （v1）系列 VM 是 Azure 最舊的 GPU 加速計算 VM 類型，由 1 到 4 個 NVIDIA Tesla K80 數據中心 GPU 加速器搭配 Intel Xeon E5-2690 v3（Haswell）處理器提供。一度是 AI、ML 和 HPC 應用程式的旗艦 VM 類型，這些 VM 在整個產品生命週期中後期仍然是熱門選擇，尤其是透過 NC 系列促銷定價。對於重視 GPU 每小時成本低於高效能 GPU 每美元效能的用戶來說，這些 VM 提供了非常低的絕對成本。

目前，由於 NVIDIA K80 GPU 平臺的計算效能相對較低，相較於具有較新 GPU 的 VM 系列，NC 系列的熱門使用案例是即時推斷和分析工作負載，其中加速的 VM 必須處於穩定狀態，才能在應用程式送達時提供要求。在這些情況下，要求的數量或批次大小可能不足以受益於高效能的 GPU。 NC VM 也受到開發人員和學生的歡迎，他們想要學習、開發或實驗 GPU 加速功能，並需要一個經濟實惠的雲端 CUDA 部署目標，以便進行不需要達到生產環境水準的反覆試驗。

一般而言，NC-Series 客戶應考慮直接從 NC 規格轉移至 NC T4 v3 規格，這是由 NVIDIA Tesla T4 GPU 驅動的 Azure 輕型工作負載最新 GPU 加速平臺。

目前 VM 大小	目標 VM 大小	規格差異
Standard_NC6 Standard_NC6_Promo	Standard_NC4as_T4_v3 或 Standard_NC8as_T4	CPU：Intel Haswell 與 AMD Rome GPU 數量：1（相同） GPU 世代：NVIDIA Kepler 與 Turing（+2 代，~2x FP32 FLOPs） GPU 記憶體（每個 GPU GiB）：16 （+4） vCPU：4 （-2）或 8 （+2）記憶體 GiB： 16 （-40）或 56 （相同）臨時記憶體（SSD） GiB：180 （-160）或 360 （+20）最大資料磁碟：8 （-4）或 16 （+4）加速網路：是（+）進階記憶體：是（+）
Standard_NC12 Standard_NC12_Promo	Standard_NC16as_T4_v3	CPU：Intel Haswell 與 AMD Rome GPU 計數：1（-1） GPU 世代：NVIDIA Kepler 與 Turing （+2世代，~2x FP32 FLOPs） GPU 記憶體（每個 GPU GiB）：16 （+4） vCPU：16 （+4）記憶體 GiB： 110 （-2）臨時記憶體（SSD） GiB：360 （-320）最大資料磁碟：48 （+16）加速網路：是（+）進階記憶體：是（+）
Standard_NC24 Standard_NC24_Promo	Standard_NC64as_T4_v3*	CPU：Intel Haswell 與 AMD Rome GPU 數量：4（相同） GPU 世代：NVIDIA Kepler 與圖靈（+2 代，約 2 倍 FP32 FLOPs） GPU 記憶體（每個 GPU GiB）：16 （+4） vCPU：64 （+40）記憶體 GiB： 440 （+216）臨時記憶體（SSD） GiB： 2880 （+1440）最大資料磁碟：32 （-32）加速網路：是（+）進階記憶體：是（+）
Standard_NC24r Standard_NC24r_Promo	Standard_NC64as_T4_v3*	CPU：Intel Haswell 與 AMD Rome GPU 數量：4（相同） GPU 世代：NVIDIA Kepler 與圖靈（＋2 代，約 2 倍 FP32 FLOPs） GPU 記憶體（每個 GPU GiB）：16 （+4） vCPU：64 （+40）記憶體 GiB： 440 （+216）臨時記憶體（SSD） GiB： 2880 （+1440）最大資料磁碟：32 （-32）加速網路：是（+）進階記憶體：是（+） InfiniBand 互連：否

具有 NVIDIA Tesla P100 GPU 的 NC v2 系列 VM

NC v2 系列虛擬機是專為 AI 和深度學習工作負載而設計的旗艦平臺。他們為深度學習訓練提供了絕佳的效能，每個 GPU 效能大約是原始 NC-Series 的 2 倍，並由 NVIDIA Tesla P100 GPU 和 Intel Xeon E5-2690 v4 （Broadwell） CPU 提供動力。如同 NC 和 ND 系列，NC v2 系列提供透過 RDMA 及 InfiniBand 連線的低延遲、高吞吐量次要網路設定，使您能執行涵蓋多個 GPU 的大規模訓練作業。

一般而言，NCv2-Series 客戶應該考慮直接移至由 NVIDIA Ampere A100 PCIe GPU 提供加速的微軟 Azure 新平臺的 NC A100 v4 型號。

目前 VM 大小	目標 VM 大小	規格差異
Standard_NC6s_v2	Standard_NC24ads_A100_v4	CPU：Intel Broadwell 與 AMD 米蘭 GPU 數量：1（相同） GPU 世代：NVIDIA Pascal 與 Ampere （+2 代） GPU 記憶體（每個 GPU GiB）：80 （+64） vCPU：24 （+18）記憶體 GiB： 220 （+108）臨時記憶體（SSD） GiB： 1123 （+387）資料磁碟上限：12 個（相同）加速網路：是（+）進階記憶體：是（+）
Standard_NC12s_v2	Standard_NC48ads_A100_v4	CPU：Intel Broadwell 與 AMD 米蘭 GPU 數量：2（相同） GPU 世代：NVIDIA Pascal 與 Ampere （+2 代） GPU 記憶體（每個 GPU GiB）：80 （+64） vCPU：48 （+36）記憶體 GiB： 440 （+216）臨時記憶體（SSD） GiB： 2246 （+772）資料磁碟上限：24 個（相同）加速網路：是（+）進階記憶體：是（+）
Standard_NC24s_v2	Standard_NC96ads_A100_v4	CPU：Intel Broadwell 與 AMD 米蘭 GPU 計數：4（不變） GPU 世代：NVIDIA Pascal 與 Ampere （+2 代） GPU 記憶體（每個 GPU GiB）：80 （+64） vCPU：96 （+72）記憶體 GiB： 880 （+432）臨時記憶體（SSD） GiB： 4492 （+1544）資料磁碟上限：32（相同）加速網路：是（+）進階記憶體：是（+）
Standard_NC24rs_v2	Standard_NC96ads_A100_v4	CPU：Intel Broadwell 與 AMD 米蘭 GPU 計數：4 （相同） GPU 世代：NVIDIA Pascal 與 Ampere （+2 代） GPU 記憶體（每個 GPU GiB）：80 （+64） vCPU：96 （+72）記憶體 GiB： 880 （+432）臨時記憶體（SSD） GiB： 4492 （+1544）資料磁碟上限：32（相同）加速網路：是（+）進階記憶體：是（+） InfiniBand 互連：否（-）

ND-Series 具有 NVIDIA Tesla P40 GPU 的虛擬機

ND 系列虛擬機是專為 AI 和深度學習工作負載而設計的中範圍平臺。它們透過改進的單精度浮點運算，較前代提供絕佳的批次推斷效能，並且由搭載 NVIDIA Tesla P40 GPU 和 Intel Xeon E5-2690 v4 (Broadwell) CPU 支援。如同 NC 和 NC v2 系列，ND-Series 透過 RDMA 提供具有次要低延遲、高輸送量網路的設定，以及 InfiniBand 連線，讓您可以執行橫跨許多 GPU 的大型訓練作業。

目前 VM 大小	目標 VM 大小	規格差異
Standard_ND6	Standard_NC4as_T4_v3 或 Standard_NC8as_T4_v3	CPU：Intel Broadwell 與 AMD Rome GPU 數量：1（相同） GPU 世代：NVIDIA Pascal 與圖靈（+1 代） GPU 記憶體（每個 GPU 的 GiB）：16 （-8） vCPU：4 （-2）或 8 （+2）記憶體 GiB：16 （-40）或 56 （-56）臨時記憶體（SSD） GiB：180 （-552）或 360 （-372）最大資料磁碟：8 （-4）或 16 （+4）加速網路：是（+）進階記憶體：是（+）
Standard_ND12	Standard_NC16as_T4_v3	CPU：Intel Broadwell 與 AMD Rome GPU 計數：1 （-1） GPU 世代：NVIDIA Pascal 與圖靈（+1 代） GPU 記憶體（每個 GPU 的 GiB）：16 （-8） vCPU：16 （+4）記憶體 GiB： 110 （-114）臨時記憶體（SSD） GiB： 360 （-1,114）最大資料磁碟：48 （+16）加速網路：是（+）進階記憶體：是（+）
Standard_ND24	Standard_NC64as_T4_v3*	CPU：Intel Broadwell 與 AMD Rome GPU 數量：4（相同） GPU 世代：NVIDIA Pascal 與圖靈（+1 代） GPU 記憶體（每個 GPU 的 GiB）：16 （-8） vCPU：64 （+40）記憶體 GiB： 440 （相同）暫存記憶體（SSD） GiB： 2880 （相同）資料磁碟上限：32（相同）加速網路：是（+）進階記憶體：是（+）
Standard_ND24r	Standard_ND96amsr_A100_v4	CPU：Intel Broadwell 與 AMD Rome GPU 計數：8 （+4） GPU 世代：NVIDIA Pascal 與 Ampere （+2 代） GPU 記憶體（每個 GPU 的 GiB）： 80 （+56） vCPU：96 （+72）記憶體 GiB： 1900 （+1452）臨時記憶體（SSD） GiB： 6400 （+3452）資料磁碟上限：32（相同）加速網路：是（+）進階記憶體：是（+） InfiniBand 互連：是（相同）

移轉步驟

一般變更

選擇系列和大小以進行遷移。利用定價計算機取得進一步的深入解析。
取得目標 VM 系列的配額
將目前的 N* 系列 VM 大小調整為目標大小。這可能也是更新虛擬機器映像檔所使用的作業系統的好時機，或者選擇其中一個已預安裝驅動程式的 HPC 映像檔作為開始的起點。

這很重要

您的 VM 映像可能已使用舊版的 CUDA 執行時間、NVIDIA 驅動程式，以及 Mellanox OFED 驅動程式（如果適用，僅適用於已啟用 RDMA 的大小）製成，這可能不符合新 GPU VM 系列的需求。您可以遵循 Azure 文件中的指示進行更新。

重大變更

選取要移轉的目標大小

評估目前使用量之後，請決定您需要的 GPU VM 類型。視工作負載需求而定，您有幾個不同的選擇。

備註

最佳做法是根據成本和效能來選取 VM 大小。本指南中的建議是以通用、一對一的效能指標比較為基礎，以及另一個 VM 系列中最接近的匹配項目。在決定正確的大小之前，請先使用 Azure 定價計算機取得成本比較。

這很重要

所有舊款 NC、NC v2 和 ND-Series 規格皆可用於多 GPU 規格中，其中包括具有和不具有 InfiniBand 互連的 4 GPU 規格，適用於需橫向擴展且緊密耦合的工作負載，這些工作負載要求比單一 4 GPU VM 或單一 K80、P40 或 P100 GPU 所能分別提供的計算能力更高。雖然上述建議提供了明確的前進方向，但使用此類尺寸的使用者應考慮選擇如 NC v3 系列和 ND v2 系列等更強大的 NVIDIA V100 GPU 型 VM 系列來達成其效能目標。這些系列通常能以較低的成本提供相同水平的工作負載效能，同時通過在不需要多 GPU 和多節點配置的情況下，提供每個 GPU 和每個 VM 顯著更高的效能來改善管理性。

取得目標 VM 系列的配額

請遵循指南，依 VM 系列要求增加 vCPU 配額。選取您為移轉選取的目標 VM 大小。

調整目前虛擬機的大小

您可以調整虛擬機器大小。

後續步驟

如需已啟用 GPU 的虛擬機大小完整清單，請參閱 GPU - 加速計算概觀