Container Insights または Managed Prometheus を使用して GPU 監視を構成する

2025-06-20

Container insights では、次の GPU ベンダーによる GPU クラスターの監視がサポートされています。

NVIDIA
AMD

注

Nvidia DCGM エクスポーターを使用している場合は、Managed Prometheus と Managed Grafana で GPU 監視を有効にすることができます。セットアップと手順の詳細については、「 Nvidia DCGM エクスポーターを使用して GPU 監視を有効にする」を参照してください。

Container insights を使用すると、次のメトリックが 60 秒間隔で収集され、InsightMetrics テーブルに格納されることで、ノードでの GPU の使用率および GPU を要求するポッドとワークロードの監視が自動的に開始されます。

注意事項

この方法は、GPU メトリックを収集するために推奨されなくなりました。

注

GPU ノードがあるクラスターをプロビジョニングした後、GPU ワークロードを実行するために、Azure Kubernetes Service (AKS) に必要とされる GPU ドライバーを確実にインストールしてください。 Container insights により、ノードで実行されている GPU ドライバーポッドを介して GPU メトリックが収集されます。

メトリック名	メトリックディメンション (タグ)	説明
コンテナGPU制限	container.azm.ms/clusterId、container.azm.ms/clusterName、containerName	各コンテナーでは、1 つまたは複数の GPU として制限を指定できます。 GPU の一部を要求または制限することはできません。
コンテナのGPU要求	container.azm.ms/clusterId、container.azm.ms/clusterName、containerName	各コンテナーでは、1 つまたは複数の GPU を要求できます。 GPU の一部を要求または制限することはできません。
nodeGpuAllocatable	container.azm.ms/clusterId、container.azm.ms/clusterName、gpuVendor	Kubernetes で使用できるノード内の GPU の数。
ノードGPU容量	container.azm.ms/clusterId、container.azm.ms/clusterName、gpuVendor	ノード内の GPU の合計数。

GPU パフォーマンスグラフ

Container insights には、すべてのクラスターに対する GPU ブックとして、前の表で示したメトリックの事前構成済みのグラフが含まれています。 Container insights で利用可能なワークブックの説明については、Container insights のワークブックを参照してください。

次のステップ

GPU が有効なノードを含む AKS クラスターをデプロイする方法については、「Azure Kubernetes Service でコンピューティングを集中的に使用するワークロードに GPU を使用する」を参照してください。
Azure での GPU 最適化済み VM SKU について学習します。
Kubernetes での GPU のサポートを確認し、クラスター内の 1 つまたは複数のノードでの GPU の管理に関する Kubernetes の実験的サポートについてさらに学習します。

次の方法で共有

Container Insights または Managed Prometheus を使用して GPU 監視を構成する

GPU パフォーマンス グラフ

次のステップ

フィードバック

その他のリソース

GPU パフォーマンスグラフ