次の方法で共有


High-Performance コンピューティング (HPC) のパフォーマンスとベンチマークの概要

この記事では、Azure での HPC- AI ベンチマークについて説明します。 これは、以下を行う必要があるアーキテクト、エンジニア、意思決定者向けに設計されています。

  • 新規または既存のワークロードについて Azure インフラストラクチャを評価する
  • パフォーマンス ベースラインを確立する
  • 目的データを使用して VM ファミリを比較する
  • パフォーマンスとコスト効率を最適化する

ベンチマークが重要な理由

ベンチマークは、技術的な決定とビジネス上の意思決定の両方をサポートする証拠ベースの分析情報を提供します。 これは、HPC および AI ワークロードに対していくつかの重要な目的を果たします。

  • 適切なインフラストラクチャを選択します。ワークロードの特性を最適な Azure VM ファミリに一致させます。
  • パフォーマンスを検証する: デプロイされたシステムが予想されるスループットと待機時間のターゲットを満たしていることを確認します。
  • 構成の最適化: コンピューティング、メモリ、ストレージ、ネットワーク全体のボトルネックを特定します。
  • コスト効率の分析: VM オプション間の価格とパフォーマンスの比率を比較します。
  • 調達の決定をサポートする: 反復可能で防御可能なパフォーマンス データを利害関係者に提供します。

主要なパフォーマンス メトリック

HPC システムのパフォーマンスを測定するために使用されるコア メトリックを理解することは、意味のあるシステムの評価と比較に不可欠です。 比較のための客観的な測定値を提供し、システムのボトルネックを特定し、それによってパフォーマンスチューニングを可能にし、アプリケーションのパフォーマンスを予測するのに役立ちます。 メトリックはワークロードの種類によって異なりますが、通常は 4 つのカテゴリに分類されます。

コンピューティング パフォーマンス メトリックは、システムの生の処理機能と、その機能が実際にどのように効果的に実現されるかを表します。 FLOS (1 秒あたりの浮動小数点演算) は、計算スループットを定量化するために一般的に使用され、多くの場合、HPL (LINPACK) などのベンチマークによって報告されます。 ピーク パフォーマンスはハードウェアの理論上の最大機能を表しますが、持続的なパフォーマンスは実際のワークロードの下でアプリケーションが実際に達成するものを反映しているため、ほとんどの評価にとってより意味のある指標となります。

HPC と AI 用の Azure VM ファミリ

Azure には、さまざまなワークロード パターンに合わせて調整された特殊な VM ファミリが用意されています。

CPU ベースの HPC (HB シリーズ)

HB シリーズの VM は、メモリ帯域幅と待機時間の短いネットワーク用に最適化されており、次のような従来の HPC ワークロードに適しています。

  • 計算流体力学 (CFD)
  • 気象と気候のモデリング
  • 有限要素解析

主な特性は次のとおりです。

  • コア数の多い AMD EPYC プロセッサ
  • 大きなメモリ帯域幅 (新しい世代の HBM を含む)
  • 高速 InfiniBand ネットワーク

GPU ベースの AI (ND シリーズ)

ND シリーズの VM は、GPU で高速化されたワークロード用に設計されています。次に例を示します。

  • ディープ ラーニング トレーニング
  • 大規模言語モデル (LLM) 推論
  • AI の研究と実験

次の VM 機能:

  • NVIDIA データ センター GPU (H100、H200、Blackwell)
  • GPU メモリ容量が大きい
  • 高帯域幅の GPU 間および GPU とネットワーク間の相互接続

ベンチマーク カテゴリ

異なるベンチマークが異なる質問に回答します。 評価するパフォーマンスの側面に基づいてベンチマークを選択します。

合成ベンチマーク

合成ベンチマークは、特定のシステム コンポーネントを分離し、ベースライン検証に役立ちます。

  • STREAM – 持続可能なメモリ帯域幅を測定する
  • HPL (LINPACK) – 浮動小数点演算のピークパフォーマンスを測定
  • HPCG – 実際の HPC ワークロードに近い、疎な線形代数のパフォーマンスを評価します
  • OSU Micro-Benchmarks – MPI の待機時間と帯域幅を検証します
  • NCCL テスト – GPU の集合通信パフォーマンスを測定する

アプリケーション ベンチマーク

アプリケーション ベンチマークは実際の動作を反映しており、多くの場合、より代表的です。

  • ANSYS Fluent – CFD ソルバーのパフォーマンス
  • WRF – 気象と大気モデリング
  • GROMACS / NAMD – 分子動力学スループット
  • MLPerf トレーニング – エンド ツー エンドの AI トレーニングのパフォーマンス
  • MLPerf 推論 – スループットと待機時間を提供するモデル

作業の開始

Azure でのベンチマークを開始するには、次の推奨パスに従います。

1. Set up infrastructure
   └── Setting Up Your First HPC Cluster (CycleCloud + Slurm)
   
2. Run baseline benchmarks
   ├── Running Your First Benchmark: STREAM (CPU/memory)
   └── Running NCCL Benchmarks (GPU communication)
   
3. Compare VM options
   ├── CPU HPC VMs Comparison
   └── GPU AI VMs Comparison
   
4. Optimize for your workload
   └── Optimizing NCCL for Azure (AI training)

ベスト プラクティス

信頼性が高く再現可能なベンチマークのガイドラインを次に示します。

ベンチマークを実行する前に

  • HPC/AI 最適化イメージの使用: 事前構成済みのドライバーとライブラリを含む Azure HPC イメージ (AlmaLinux-HPC、Ubuntu-HPC) から開始する
  • ドライバーのバージョンを確認する: GPU ドライバー、InfiniBand ドライバー、NCCL のバージョンが最新であることを確認する
  • トポロジの確認: NUMA 構成と GPU と NIC 間のアフィニティを確認する

ベンチマーク中

  • ウォームアップ実行: キャッシュを安定させるために最初の実行を破棄する
  • 複数のイテレーション: 少なくとも 5 回のイテレーションを実行し、中央値または平均を報告する
  • 一貫性のある条件: OS、ドライバー、および構成を比較で同一に保つ
  • すべてを文書化する: ソフトウェアのバージョン、環境変数、およびコマンド ライン パラメーターを記録する

回避する一般的な落とし穴

  • ウォームアップ期間が不十分
  • 異なるソフトウェア バージョンの比較
  • NUMA トポロジの無視
  • 最適化なしで既定の構成を使用する
  • サンプル サイズが不十分