Configurare il monitoraggio della GPU con Informazioni dettagliate sui contenitori e/o Prometheus gestito

2025-06-20

Analisi dei container supporta il monitoraggio dei cluster GPU dai seguenti fornitori di GPU:

NVIDIA
AMD

Nota

Se si usa l'utilità di esportazione NVIDIA DCGM, è possibile abilitare il monitoraggio gpu con Managed Prometheus e Managed Grafana. Per informazioni dettagliate sull'installazione e le istruzioni, vedere Abilitare il monitoraggio gpu con l'utilità di esportazione Nvidia DCGM.

Informazioni dettagliate sui container avvia automaticamente il monitoraggio dell'utilizzo della GPU sui nodi e dei pod e dei carichi di lavoro che richiedono GPU, raccogliendo le seguenti metriche a intervalli di 60 secondi e archiviandole nella tabella InsightMetrics.

Attenzione

Questo metodo non è più consigliato per la raccolta delle metriche GPU.

Nota

Dopo aver effettuato il provisioning dei cluster con nodi GPU, assicurarsi che il driver GPU sia installato come richiesto dal servizio Azure Kubernetes per eseguire carichi di lavoro GPU. Informazioni dettagliate contenitore raccoglie le metriche GPU tramite pod driver GPU in esecuzione nel nodo.

Nome della metrica	Dimensione metrica (tag)	Descrizione
containerGpuLimits	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Ogni contenitore può specificare limiti come una o più GPU. Non è possibile richiedere o limitare una frazione di una GPU.
richiesteGpuDelContenitore	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Ogni contenitore può richiedere una o più GPU. Non è possibile richiedere o limitare una frazione di una GPU.
nodeGpuAllocatable	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Numero di GPU in un nodo che può essere usato da Kubernetes.
nodeGpuCapacity	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Numero totale di GPU in un nodo.

Grafici delle prestazioni della GPU

Informazioni dettagliate contenitore include grafici preconfigurati per le metriche elencate in precedenza nella tabella come cartella di lavoro GPU per ogni cluster. Per una descrizione delle cartelle di lavoro disponibili per Container insights, vedere Cartelle di lavoro in Container insights.

Passaggi successivi

Vedere Usare GPU per carichi di lavoro a elevato utilizzo di calcolo nel servizio Azure Kubernetes per informazioni su come distribuire un cluster del servizio Azure Kubernetes che include nodi abilitati per GPU.
Visualizzare altre informazioni sugli SKU di macchine virtuali ottimizzati per la GPU in Azure.
Vedere Supporto delle GPU in Kubernetes per altre informazioni sul supporto sperimentale di Kubernetes per la gestione delle GPU in uno o più nodi in un cluster.

Condividi tramite

Configurare il monitoraggio della GPU con Informazioni dettagliate sui contenitori e/o Prometheus gestito

Grafici delle prestazioni della GPU

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive