次の方法で共有


Container Insights または Managed Prometheus を使用して GPU 監視を構成する

Container insights では、次の GPU ベンダーによる GPU クラスターの監視がサポートされています。

Nvidia DCGM エクスポーターを使用している場合は、Managed Prometheus と Managed Grafana で GPU 監視を有効にすることができます。 セットアップと手順の詳細については、「 Nvidia DCGM エクスポーターを使用して GPU 監視を有効にする」を参照してください。

Container insights を使用すると、次のメトリックが 60 秒間隔で収集され、InsightMetrics テーブルに格納されることで、ノードでの GPU の使用率および GPU を要求するポッドとワークロードの監視が自動的に開始されます。

注意事項

この方法は、GPU メトリックを収集するために推奨されなくなりました。

GPU ノードがあるクラスターをプロビジョニングした後、GPU ワークロードを実行するために、Azure Kubernetes Service (AKS) に必要とされる GPU ドライバーを確実にインストールしてください。 Container insights により、ノードで実行されている GPU ドライバー ポッドを介して GPU メトリックが収集されます。

メトリック名 メトリック ディメンション (タグ) 説明
コンテナGPU制限 container.azm.ms/clusterId、container.azm.ms/clusterName、containerName 各コンテナーでは、1 つまたは複数の GPU として制限を指定できます。 GPU の一部を要求または制限することはできません。
コンテナのGPU要求 container.azm.ms/clusterId、container.azm.ms/clusterName、containerName 各コンテナーでは、1 つまたは複数の GPU を要求できます。 GPU の一部を要求または制限することはできません。
nodeGpuAllocatable container.azm.ms/clusterId、container.azm.ms/clusterName、gpuVendor Kubernetes で使用できるノード内の GPU の数。
ノードGPU容量 container.azm.ms/clusterId、container.azm.ms/clusterName、gpuVendor ノード内の GPU の合計数。

GPU パフォーマンス グラフ

Container insights には、すべてのクラスターに対する GPU ブックとして、前の表で示したメトリックの事前構成済みのグラフが含まれています。 Container insights で利用可能なワークブックの説明については、Container insights のワークブック を参照してください。

次のステップ