High-Performance コンピューティング (HPC) のパフォーマンスとベンチマークの概要

この記事では、Azure での HPC- AI ベンチマークについて説明します。これは、以下を行う必要があるアーキテクト、エンジニア、意思決定者向けに設計されています。

新規または既存のワークロードについて Azure インフラストラクチャを評価する
パフォーマンスベースラインを確立する
目的データを使用して VM ファミリを比較する
パフォーマンスとコスト効率を最適化する

ベンチマークが重要な理由

ベンチマークは、技術的な決定とビジネス上の意思決定の両方をサポートする証拠ベースの分析情報を提供します。これは、HPC および AI ワークロードに対していくつかの重要な目的を果たします。

適切なインフラストラクチャを選択します。ワークロードの特性を最適な Azure VM ファミリに一致させます。
パフォーマンスを検証する: デプロイされたシステムが予想されるスループットと待機時間のターゲットを満たしていることを確認します。
構成の最適化: コンピューティング、メモリ、ストレージ、ネットワーク全体のボトルネックを特定します。
コスト効率の分析: VM オプション間の価格とパフォーマンスの比率を比較します。
調達の決定をサポートする: 反復可能で防御可能なパフォーマンスデータを利害関係者に提供します。

主要なパフォーマンスメトリック

HPC システムのパフォーマンスを測定するために使用されるコアメトリックを理解することは、意味のあるシステムの評価と比較に不可欠です。比較のための客観的な測定値を提供し、システムのボトルネックを特定し、それによってパフォーマンスチューニングを可能にし、アプリケーションのパフォーマンスを予測するのに役立ちます。メトリックはワークロードの種類によって異なりますが、通常は 4 つのカテゴリに分類されます。

コンピューティングパフォーマンスメトリックは、システムの生の処理機能と、その機能が実際にどのように効果的に実現されるかを表します。 FLOS (1 秒あたりの浮動小数点演算) は、計算スループットを定量化するために一般的に使用され、多くの場合、HPL (LINPACK) などのベンチマークによって報告されます。ピークパフォーマンスはハードウェアの理論上の最大機能を表しますが、持続的なパフォーマンスは実際のワークロードの下でアプリケーションが実際に達成するものを反映しているため、ほとんどの評価にとってより意味のある指標となります。

HPC と AI 用の Azure VM ファミリ

Azure には、さまざまなワークロードパターンに合わせて調整された特殊な VM ファミリが用意されています。

CPU ベースの HPC (HB シリーズ)

HB シリーズの VM は、メモリ帯域幅と待機時間の短いネットワーク用に最適化されており、次のような従来の HPC ワークロードに適しています。

計算流体力学 (CFD)
気象と気候のモデリング
有限要素解析

主な特性は次のとおりです。

コア数の多い AMD EPYC プロセッサ
大きなメモリ帯域幅 (新しい世代の HBM を含む)
高速 InfiniBand ネットワーク

GPU ベースの AI (ND シリーズ)

ND シリーズの VM は、GPU で高速化されたワークロード用に設計されています。次に例を示します。

ディープラーニングトレーニング
大規模言語モデル (LLM) 推論
AI の研究と実験

次の VM 機能:

NVIDIA データセンター GPU (H100、H200、Blackwell)
GPU メモリ容量が大きい
高帯域幅の GPU 間および GPU とネットワーク間の相互接続

ベンチマークカテゴリ

異なるベンチマークが異なる質問に回答します。評価するパフォーマンスの側面に基づいてベンチマークを選択します。

合成ベンチマーク

合成ベンチマークは、特定のシステムコンポーネントを分離し、ベースライン検証に役立ちます。

STREAM – 持続可能なメモリ帯域幅を測定する
HPL (LINPACK) – 浮動小数点演算のピークパフォーマンスを測定
HPCG – 実際の HPC ワークロードに近い、疎な線形代数のパフォーマンスを評価します
OSU Micro-Benchmarks – MPI の待機時間と帯域幅を検証します
NCCL テスト – GPU の集合通信パフォーマンスを測定する

アプリケーションベンチマーク

アプリケーションベンチマークは実際の動作を反映しており、多くの場合、より代表的です。

ANSYS Fluent – CFD ソルバーのパフォーマンス
WRF – 気象と大気モデリング
GROMACS / NAMD – 分子動力学スループット
MLPerf トレーニング – エンドツーエンドの AI トレーニングのパフォーマンス
MLPerf 推論 – スループットと待機時間を提供するモデル

作業の開始

Azure でのベンチマークを開始するには、次の推奨パスに従います。

1. Set up infrastructure
   └── Setting Up Your First HPC Cluster (CycleCloud + Slurm)
   
2. Run baseline benchmarks
   ├── Running Your First Benchmark: STREAM (CPU/memory)
   └── Running NCCL Benchmarks (GPU communication)
   
3. Compare VM options
   ├── CPU HPC VMs Comparison
   └── GPU AI VMs Comparison
   
4. Optimize for your workload
   └── Optimizing NCCL for Azure (AI training)

ベストプラクティス

信頼性が高く再現可能なベンチマークのガイドラインを次に示します。

ベンチマークを実行する前に

HPC/AI 最適化イメージの使用: 事前構成済みのドライバーとライブラリを含む Azure HPC イメージ (AlmaLinux-HPC、Ubuntu-HPC) から開始する
ドライバーのバージョンを確認する: GPU ドライバー、InfiniBand ドライバー、NCCL のバージョンが最新であることを確認する
トポロジの確認: NUMA 構成と GPU と NIC 間のアフィニティを確認する

ベンチマーク中

ウォームアップ実行: キャッシュを安定させるために最初の実行を破棄する
複数のイテレーション: 少なくとも 5 回のイテレーションを実行し、中央値または平均を報告する
一貫性のある条件: OS、ドライバー、および構成を比較で同一に保つ
すべてを文書化する: ソフトウェアのバージョン、環境変数、およびコマンドラインパラメーターを記録する

回避する一般的な落とし穴

ウォームアップ期間が不十分
異なるソフトウェアバージョンの比較
NUMA トポロジの無視
最適化なしで既定の構成を使用する
サンプルサイズが不十分

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-02-25

次の方法で共有