この記事では、Azure での HPC- AI ベンチマークについて説明します。 これは、以下を行う必要があるアーキテクト、エンジニア、意思決定者向けに設計されています。
- 新規または既存のワークロードについて Azure インフラストラクチャを評価する
- パフォーマンス ベースラインを確立する
- 目的データを使用して VM ファミリを比較する
- パフォーマンスとコスト効率を最適化する
ベンチマークが重要な理由
ベンチマークは、技術的な決定とビジネス上の意思決定の両方をサポートする証拠ベースの分析情報を提供します。 これは、HPC および AI ワークロードに対していくつかの重要な目的を果たします。
- 適切なインフラストラクチャを選択します。ワークロードの特性を最適な Azure VM ファミリに一致させます。
- パフォーマンスを検証する: デプロイされたシステムが予想されるスループットと待機時間のターゲットを満たしていることを確認します。
- 構成の最適化: コンピューティング、メモリ、ストレージ、ネットワーク全体のボトルネックを特定します。
- コスト効率の分析: VM オプション間の価格とパフォーマンスの比率を比較します。
- 調達の決定をサポートする: 反復可能で防御可能なパフォーマンス データを利害関係者に提供します。
主要なパフォーマンス メトリック
HPC システムのパフォーマンスを測定するために使用されるコア メトリックを理解することは、意味のあるシステムの評価と比較に不可欠です。 比較のための客観的な測定値を提供し、システムのボトルネックを特定し、それによってパフォーマンスチューニングを可能にし、アプリケーションのパフォーマンスを予測するのに役立ちます。 メトリックはワークロードの種類によって異なりますが、通常は 4 つのカテゴリに分類されます。
コンピューティング パフォーマンス メトリックは、システムの生の処理機能と、その機能が実際にどのように効果的に実現されるかを表します。 FLOS (1 秒あたりの浮動小数点演算) は、計算スループットを定量化するために一般的に使用され、多くの場合、HPL (LINPACK) などのベンチマークによって報告されます。 ピーク パフォーマンスはハードウェアの理論上の最大機能を表しますが、持続的なパフォーマンスは実際のワークロードの下でアプリケーションが実際に達成するものを反映しているため、ほとんどの評価にとってより意味のある指標となります。
HPC と AI 用の Azure VM ファミリ
Azure には、さまざまなワークロード パターンに合わせて調整された特殊な VM ファミリが用意されています。
CPU ベースの HPC (HB シリーズ)
HB シリーズの VM は、メモリ帯域幅と待機時間の短いネットワーク用に最適化されており、次のような従来の HPC ワークロードに適しています。
- 計算流体力学 (CFD)
- 気象と気候のモデリング
- 有限要素解析
主な特性は次のとおりです。
- コア数の多い AMD EPYC プロセッサ
- 大きなメモリ帯域幅 (新しい世代の HBM を含む)
- 高速 InfiniBand ネットワーク
GPU ベースの AI (ND シリーズ)
ND シリーズの VM は、GPU で高速化されたワークロード用に設計されています。次に例を示します。
- ディープ ラーニング トレーニング
- 大規模言語モデル (LLM) 推論
- AI の研究と実験
次の VM 機能:
- NVIDIA データ センター GPU (H100、H200、Blackwell)
- GPU メモリ容量が大きい
- 高帯域幅の GPU 間および GPU とネットワーク間の相互接続
ベンチマーク カテゴリ
異なるベンチマークが異なる質問に回答します。 評価するパフォーマンスの側面に基づいてベンチマークを選択します。
合成ベンチマーク
合成ベンチマークは、特定のシステム コンポーネントを分離し、ベースライン検証に役立ちます。
- STREAM – 持続可能なメモリ帯域幅を測定する
- HPL (LINPACK) – 浮動小数点演算のピークパフォーマンスを測定
- HPCG – 実際の HPC ワークロードに近い、疎な線形代数のパフォーマンスを評価します
- OSU Micro-Benchmarks – MPI の待機時間と帯域幅を検証します
- NCCL テスト – GPU の集合通信パフォーマンスを測定する
アプリケーション ベンチマーク
アプリケーション ベンチマークは実際の動作を反映しており、多くの場合、より代表的です。
- ANSYS Fluent – CFD ソルバーのパフォーマンス
- WRF – 気象と大気モデリング
- GROMACS / NAMD – 分子動力学スループット
- MLPerf トレーニング – エンド ツー エンドの AI トレーニングのパフォーマンス
- MLPerf 推論 – スループットと待機時間を提供するモデル
作業の開始
Azure でのベンチマークを開始するには、次の推奨パスに従います。
1. Set up infrastructure
└── Setting Up Your First HPC Cluster (CycleCloud + Slurm)
2. Run baseline benchmarks
├── Running Your First Benchmark: STREAM (CPU/memory)
└── Running NCCL Benchmarks (GPU communication)
3. Compare VM options
├── CPU HPC VMs Comparison
└── GPU AI VMs Comparison
4. Optimize for your workload
└── Optimizing NCCL for Azure (AI training)
ベスト プラクティス
信頼性が高く再現可能なベンチマークのガイドラインを次に示します。
ベンチマークを実行する前に
- HPC/AI 最適化イメージの使用: 事前構成済みのドライバーとライブラリを含む Azure HPC イメージ (AlmaLinux-HPC、Ubuntu-HPC) から開始する
- ドライバーのバージョンを確認する: GPU ドライバー、InfiniBand ドライバー、NCCL のバージョンが最新であることを確認する
- トポロジの確認: NUMA 構成と GPU と NIC 間のアフィニティを確認する
ベンチマーク中
- ウォームアップ実行: キャッシュを安定させるために最初の実行を破棄する
- 複数のイテレーション: 少なくとも 5 回のイテレーションを実行し、中央値または平均を報告する
- 一貫性のある条件: OS、ドライバー、および構成を比較で同一に保つ
- すべてを文書化する: ソフトウェアのバージョン、環境変数、およびコマンド ライン パラメーターを記録する
回避する一般的な落とし穴
- ウォームアップ期間が不十分
- 異なるソフトウェア バージョンの比較
- NUMA トポロジの無視
- 最適化なしで既定の構成を使用する
- サンプル サイズが不十分