Container insights では、次の GPU ベンダーによる GPU クラスターの監視がサポートされています。
注
Nvidia DCGM エクスポーターを使用している場合は、Managed Prometheus と Managed Grafana で GPU 監視を有効にすることができます。 セットアップと手順の詳細については、「 Nvidia DCGM エクスポーターを使用して GPU 監視を有効にする」を参照してください。
Container insights を使用すると、次のメトリックが 60 秒間隔で収集され、InsightMetrics テーブルに格納されることで、ノードでの GPU の使用率および GPU を要求するポッドとワークロードの監視が自動的に開始されます。
注意事項
この方法は、GPU メトリックを収集するために推奨されなくなりました。
注
GPU ノードがあるクラスターをプロビジョニングした後、GPU ワークロードを実行するために、Azure Kubernetes Service (AKS) に必要とされる GPU ドライバーを確実にインストールしてください。 Container insights により、ノードで実行されている GPU ドライバー ポッドを介して GPU メトリックが収集されます。
メトリック名 | メトリック ディメンション (タグ) | 説明 |
---|---|---|
コンテナGPU制限 | container.azm.ms/clusterId、container.azm.ms/clusterName、containerName | 各コンテナーでは、1 つまたは複数の GPU として制限を指定できます。 GPU の一部を要求または制限することはできません。 |
コンテナのGPU要求 | container.azm.ms/clusterId、container.azm.ms/clusterName、containerName | 各コンテナーでは、1 つまたは複数の GPU を要求できます。 GPU の一部を要求または制限することはできません。 |
nodeGpuAllocatable | container.azm.ms/clusterId、container.azm.ms/clusterName、gpuVendor | Kubernetes で使用できるノード内の GPU の数。 |
ノードGPU容量 | container.azm.ms/clusterId、container.azm.ms/clusterName、gpuVendor | ノード内の GPU の合計数。 |
GPU パフォーマンス グラフ
Container insights には、すべてのクラスターに対する GPU ブックとして、前の表で示したメトリックの事前構成済みのグラフが含まれています。 Container insights で利用可能なワークブックの説明については、Container insights のワークブック を参照してください。
次のステップ
- GPU が有効なノードを含む AKS クラスターをデプロイする方法については、「Azure Kubernetes Service でコンピューティングを集中的に使用するワークロードに GPU を使用する」を参照してください。
- Azure での GPU 最適化済み VM SKU について学習します。
- Kubernetes での GPU のサポートを確認し、クラスター内の 1 つまたは複数のノードでの GPU の管理に関する Kubernetes の実験的サポートについてさらに学習します。