Azure での GPU コンピューティングワークロードの移行ガイド

2025-05-06

より強力な GPU がマーケットプレースと Microsoft Azure データセンターで利用できるようになるので、ワークロードのパフォーマンスを再評価し、新しい GPU への移行を検討することをお勧めします。

同じ理由から、高品質で信頼性の高いサービスオファリングを維持するために、Azure では、古い VM サイズに対応するハードウェアが定期的に廃止されます。 Azure で廃止される GPU 製品の最初のグループは、NVIDIA Tesla K80、P100、および P40 データセンター GPU アクセラレータを搭載した元の NC、NC v2、および ND シリーズ VM です。これらの製品は 2023 年 8 月 31 日に廃止され、このシリーズの最も古い VM は 2016 年に発売されます。

それ以来、GPU はディープラーニングと HPC 業界全体と共に驚異的な進歩を遂げ、通常は世代間のパフォーマンスが 2 倍を超えています。 NVIDIA K80、P40、および P100 GPU の発売以来、Azure は、NVIDIA の T4、V100、A100 GPU を中心に、INFiniBand ベースの相互接続ファブリックなどのオプション機能によって差別化された、GPU 高速コンピューティングと AI を対象とした複数の新しい世代とカテゴリの VM 製品を出荷してきました。これらはすべて、お客様が移行パスとして探索することを推奨するオプションです。

ほとんどの場合、新しい世代の GPU によって提供されるパフォーマンスが大幅に向上すると、ジョブの期間が短縮され、バースト可能なジョブの場合は TCO 全体が低下します。また、GPU 時間あたりのコストが異なる場合でも、コンピューティングリソースの固定サイズの需要に対応するために必要な GPU 対応 VM 全体の量が減ります。これらの利点に加えて、お客様は、パフォーマンスの高い VM を介してソリューションへの時間を改善し、新しいソフトウェア、CUDA ランタイム、ドライバーのバージョンを採用することで、ソリューションの正常性とサポート可能性を向上させることができます。

移行と最適化

Azure では、お客様には、GPU アーキテクチャの考慮事項、相互接続、TCO、Time to Solution、コンプライアンスのローカリティまたは待機時間の要件に基づくリージョンの可用性など、特定の GPU VM 製品の選択を決定する可能性のある要件が多数存在することを認識しています。これらの一部は、時間の経過と同時に変化します。

同時に、GPU アクセラレーションは新しく急速に進化する領域です。

したがって、この製品領域には実際の 1 サイズの適合ガイダンスはなく、移行は、クラスター化されたデプロイモデルから単一の大規模な 8 GPU VM への移行、精度の低下したデータ型の活用、マルチインスタンス GPU などの機能の採用など、ワークロードへの劇的な変更の可能性を再評価するのに最適なタイミングです。

このような考慮事項は、既に世代ごとの GPU パフォーマンスが大幅に向上するというコンテキストを作成した場合に、TensorCores の追加などの機能によってパフォーマンスが桁違いに向上する可能性があり、ワークロードに非常に固有です。

移行とアプリケーションの再アーキテクチャを組み合わせると、コストとソリューションまでの時間が大きな価値と改善につながります。

ただし、このような機能強化は、現在お客様が実行できる可能性のある一般化されたワークロードの直接的な等価性クラスに焦点を当て、廃止される既存の VM ファミリに対する GPU あたりの価格とパフォーマンスの両方で最も類似した VM オプションを特定することを目的としています。

したがって、このドキュメントでは、必要な VM インスタンスの数、GPU、相互接続などのワークロード固有のプロパティに関する分析情報や制御をユーザーが持っていない可能性があることを前提としています。

推奨されるアップグレードパス

NVIDIA K80 GPU を搭載した NC-Series VM

NC (v1) シリーズの VM は、Azure で最も古い GPU アクセラレーションコンピューティング VM の種類であり、Intel Xeon E5-2690 v3 (Haswell) プロセッサと組み合わせて 1 ~ 4 個の NVIDIA Tesla K80 データセンター GPU アクセラレータを搭載しています。かつては、要求が厳しい AI、ML、HPC アプリケーション向けの主力 VM タイプでしたが、1 ドルあたりのスループットが高い GPU よりも、GPU 時間あたりの絶対コストが非常に低いことに価値を見出したユーザーにとっては、製品のライフサイクルの後半になっても (特に、NC シリーズのプロモーション価格では) あいかわらず人気の選択肢でした。

現在、古くなった NVIDIA K80 GPU プラットフォームのコンピューティングパフォーマンスが比較的低いため、新しい GPU を搭載した VM シリーズと比較して、NC シリーズの一般的なユースケースはリアルタイム推論と分析ワークロードです。この場合、高速 VM は到着時にアプリケーションからの要求を処理するために安定した状態で利用できる必要があります。このような場合、要求のボリュームまたはバッチサイズは、パフォーマンスの高い GPU の利点を得るために不十分な場合があります。 NC VM は、GPU アクセラレーションについて学習、開発、または実験を行う開発者や学生にも人気があり、運用環境レベルで実行する必要のない反復を行う安価なクラウドベースの CUDA デプロイターゲットが必要です。

一般に、NC-Series お客様は、NC サイズから NC T4 v3 サイズに直接移行することを検討する必要があります。これは、NVIDIA Tesla T4 GPU を搭載した軽量ワークロード向けの Azure の新しい GPU アクセラレーションプラットフォームです。

現在の VM サイズ	目標とする VM サイズ	仕様の違い
Standard_NC6 Standard_NC6_Promo	Standard_NC4as_T4_v3 又は Standard_NC8as_T4	CPU: Intel Haswell vs AMD Rome GPU 数: 1 (同じ) GPU 世代: NVIDIA ケップラー対チューリング (+2 世代、FP32 FLOP x 2) GPU メモリ (GPU あたり GiB): 16 (+4) vCPU: 4 (-2) または 8 (+2) メモリ GiB: 16 (-40) または 56 (同じ) 一時ストレージ (SSD) GiB: 180 (-160) または 360 (+20) 最大データディスク数: 8 (-4) または 16 (+4) 高速ネットワーク: はい (+) Premium Storage: はい (+)
Standard_NC12 Standard_NC12_Promo	Standard_NC16as_T4_v3	CPU: Intel Haswell vs AMD Rome GPU 数: 1 (-1) GPU 世代: NVIDIA ケップラー対チューリング (+2 世代、FP32 FLOP x 2) GPU メモリ (GPU あたり GiB): 16 (+4) vCPU: 16 (+4) メモリ GiB: 110 (-2) 一時ストレージ (SSD) GiB: 360 (-320) 最大データディスク数: 48 (+16) 高速ネットワーク: はい (+) Premium Storage: はい (+)
Standard_NC24 Standard_NC24_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell vs AMD Rome GPU 数: 4 (同じ) GPU 世代: NVIDIA ケップラー対チューリング (+2 世代、FP32 FLOP x 2) GPU メモリ (GPU あたり GiB): 16 (+4) vCPU: 64 (+40) メモリ GiB: 440 (+216) 一時ストレージ (SSD) GiB: 2880 (+1440) 最大データディスク数: 32 (-32) 高速ネットワーク: はい (+) Premium Storage: はい (+)
Standard_NC24r Standard_NC24r_Promo	Standard_NC64as_T4_v3*	CPU: Intel Haswell vs AMD Rome GPU 数: 4 (同じ) GPU 世代: NVIDIA ケップラー対チューリング (+2 世代、FP32 FLOP x 2) GPU メモリ (GPU あたり GiB): 16 (+4) vCPU: 64 (+40) メモリ GiB: 440 (+216) 一時ストレージ (SSD) GiB: 2880 (+1440) 最大データディスク数: 32 (-32) 高速ネットワーク: はい (+) Premium Storage: はい (+) InfiniBand 相互接続: いいえ

NVIDIA Tesla P100 GPU を搭載した NC v2 シリーズ VM

NC v2 シリーズの仮想マシンは、もともと AI およびディープラーニングワークロード用に設計されたフラッグシッププラットフォームです。ディープラーニングトレーニングには優れたパフォーマンスが提供され、GPU ごとのパフォーマンスは元の NC-Series の約 2 倍で、NVIDIA Tesla P100 GPU と Intel Xeon E5-2690 v4 (Broadwell) CPU が搭載されています。 NC および ND シリーズと同様に、NC v2 シリーズは、RDMA を介したセカンダリの低待機時間の高スループットネットワークと InfiniBand 接続を備えた構成を提供するため、多数の GPU にまたがる大規模なトレーニングジョブを実行できます。

一般に、NCv2-Series お客様は、NVIDIA Ampere A100 PCIe GPU を搭載した Azure の新しい GPU アクセラレーションプラットフォームである NC A100 v4 サイズに直接移行することを検討する必要があります。

現在の VM サイズ	目標とする VM サイズ	仕様の違い
Standard_NC6s_v2	Standard_NC24ads_A100_v4	CPU: Intel Broadwell 対 AMD Milan GPU 数: 1 (同じ) GPU 世代: NVIDIA Pascal とアンペア (+2 世代) GPU メモリ (GPU あたり GiB): 80 (+64) vCPU: 24 (+18) メモリ GiB: 220 (+108) 一時ストレージ (SSD) GiB: 1123 (+387) 最大データディスク数: 12 (同じ) 高速ネットワーク: はい (+) Premium Storage: はい (+)
Standard_NC12s_v2	Standard_NC48ads_A100_v4	CPU: Intel Broadwell 対 AMD Milan GPU 数: 2 (同じ) GPU 世代: NVIDIA Pascal と Ampere (+2 世代) GPU メモリ (GPU あたり GiB): 80 (+64) vCPU: 48 (+36) メモリ GiB: 440 (+216) 一時ストレージ (SSD) GiB: 2246 (+772) 最大データディスク数: 24 (同じ) 高速ネットワーク: はい (+) Premium Storage: はい (+)
Standard_NC24s_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell 対 AMD Milan GPU 数: 4 (同じ) GPU 世代: NVIDIA Pascal と Ampere (+2 世代) GPU メモリ (GPU あたり GiB): 80 (+64) vCPU: 96 (+72) メモリ GiB: 880 (+432) 一時ストレージ (SSD) GiB: 4492 (+1544) 最大データディスク数: 32 (同じ) 高速ネットワーク: はい (+) Premium Storage: はい (+)
Standard_NC24rs_v2	Standard_NC96ads_A100_v4	CPU: Intel Broadwell vs AMD Milan GPU 数: 4 (同じ) GPU 世代: NVIDIA Pascal と Ampere (+2 世代) GPU メモリ (GPU あたり GiB): 80 (+64) vCPU: 96 ［+72］メモリ GiB: 880 (+432) 一時ストレージ (SSD) GiB: 4492 (+1544) 最大データディスク数: 32 (同じ) 高速ネットワーク: はい (+) Premium Storage: はい (+) InfiniBand 相互接続: いいえ (-)

NVIDIA Tesla P40 GPU を搭載した ND-Series VM

ND シリーズの仮想マシンは、もともと AI とディープラーニングのワークロード用に設計されたミッドレンジプラットフォームです。彼らは、前身よりも向上した単精度浮動小数点演算によるバッチ推論に優れたパフォーマンスを提供し、NVIDIA Tesla P40 GPU と Intel Xeon E5-2690 v4 (Broadwell) CPU を搭載しています。 NC および NC v2 シリーズと同様に、ND-Series では、RDMA を介したセカンダリの低待機時間で高スループットのネットワークと InfiniBand 接続を備えた構成が提供されるため、多数の GPU にまたがる大規模なトレーニングジョブを実行できます。

現在の VM サイズ	目標とする VM サイズ	仕様の違い
Standard_ND6	Standard_NC4as_T4_v3 又は Standard_NC8as_T4_v3	CPU: Intel Broadwell vs AMD Rome GPU 数: 1 (同じ) GPU 世代: NVIDIA Pascal と Turing (+1 世代) GPU メモリ (GPU あたり GiB): 16 (-8) vCPU: 4 (-2) または 8 (+2) メモリ GiB: 16 (-40) または 56 (-56) 一時ストレージ (SSD) GiB: 180 (-552) または 360 (-372) 最大データディスク数: 8 (-4) または 16 (+4) 高速ネットワーク: はい (+) Premium Storage: はい (+)
Standard_ND12	Standard_NC16as_T4_v3	CPU: Intel Broadwell vs AMD Rome GPU 数: 1 (-1) GPU 世代: NVIDIA Pascal と Turing (+1 世代) GPU メモリ (GPU あたり GiB): 16 (-8) vCPU: 16 (+4) メモリ GiB: 110 (-114) 一時ストレージ (SSD) GiB: 360 (-1,114) 最大データディスク数: 48 (+16) 高速ネットワーク: はい (+) Premium Storage: はい (+)
Standard_ND24	Standard_NC64as_T4_v3*	CPU: Intel Broadwell vs AMD Rome GPU 数: 4 (同じ) GPU 世代: NVIDIA Pascal と Turing (+1 世代) GPU メモリ (GPU あたり GiB): 16 (-8) vCPU: 64 (+40) メモリ GiB: 440 (同じ) 一時ストレージ (SSD) GiB: 2880 (同じ) 最大データディスク数: 32 (同じ) 高速ネットワーク: はい (+) Premium Storage: はい (+)
Standard_ND24r	Standard_ND96amsr_A100_v4	CPU: Intel Broadwell vs AMD Rome GPU 数: 8 (+4) GPU 世代: NVIDIA Pascal とアンペア (+2 世代) GPU メモリ (GPU あたり GiB): 80 (+56) vCPU: 96 (+72) メモリ GiB: 1900 (+1452) 一時ストレージ (SSD) GiB: 6400 (+3452) 最大データディスク数: 32 (同じ) 高速ネットワーク: はい (+) Premium Storage: はい (+) InfiniBand 相互接続: はい (同じ)

移行の手順

一般的な変更

移行の系列とサイズを選択します。価格計算ツールを活用して詳細な分析情報を得る。
ターゲット VM シリーズのクォータを取得する
現在の N* シリーズの VM サイズをターゲットサイズに変更します。これは、仮想マシンイメージで使用されるオペレーティングシステムを更新する場合や、開始点としてドライバーが事前にインストールされている HPC イメージの 1 つを採用する場合にも適しています。

重要

VM イメージは、古いバージョンの CUDA ランタイム、NVIDIA ドライバー、および新しい GPU VM シリーズに必要な Mellanox OFED ドライバー (該当する場合は RDMA 対応サイズのみ) で生成されている可能性があります。これは、Azure ドキュメントの手順に従って更新できます。

重大な変更

移行のターゲットサイズを選択する

現在の使用状況を評価した後、必要な GPU VM の種類を決定します。ワークロードの要件に応じて、いくつかの異なる選択肢があります。

注

ベストプラクティスは、コストとパフォーマンスの両方に基づいて VM サイズを選択することです。このガイドの推奨事項は、パフォーマンスメトリックと、別の VM シリーズの最も近い一致の汎用の 1 対 1 の比較に基づいています。適切なサイズを決定する前に、Azure 料金計算ツールを使用してコスト比較を行います。

重要

従来の NC、NC v2、ND-Series サイズはすべてマルチ GPU サイズで利用可能です。これには InfiniBand 相互接続の有無に関わらず、スケールアウトや密結合ワークロード向けの 4 GPU サイズが含まれます。これらは単一の 4 GPU VM または単一の K80、P40、P100 GPU がそれぞれ供給する以上のコンピューティングパワーを必要とします。上記の推奨事項は簡単なパスを提供しますが、これらのサイズのユーザーは、 NC v3 シリーズや ND v2 シリーズのようなより強力な NVIDIA V100 GPU ベースの VM シリーズを使用してパフォーマンス目標を達成することを検討する必要があります。これは通常、同じレベルのワークロードパフォーマンスを低コストで実現し、マルチ GPU とマルチノード構成が必要になる前に GPU と VM ごとに大幅に高いパフォーマンスを提供することで管理性を向上させる必要があります。それぞれ。

ターゲット VM ファミリのクォータを取得する

ガイドに従って、 VM ファミリ別の vCPU クォータの引き上げを要求します。移行用に選択したターゲット VM サイズを選択します。

現在の仮想マシンのサイズを変更する

仮想マシンをサイズ変更することができます。

次のステップ

GPU 対応仮想マシンのサイズの完全な一覧については、GPU - 高速コンピューティングの概要に関するページを参照してください