Configurare il monitoraggio della GPU con Informazioni dettagliate contenitore
Informazioni dettagliate contenitore supporta il monitoraggio dei cluster GPU dai fornitori di GPU seguenti:
Informazioni dettagliate contenitore avvia automaticamente il monitoraggio dell'utilizzo della GPU sui e sulla GPU che richiedono pod e carichi di lavoro raccogliendo le metriche seguenti a intervalli di 60 secondi e archiviandole nella tabella InsightMetrics.
Nota
Dopo aver effettuato il provisioning dei cluster con nodi GPU, assicurarsi che il driver GPU sia installato come richiesto dal servizio Azure Kubernetes per eseguire carichi di lavoro GPU. Informazioni dettagliate contenitore raccoglie le metriche GPU tramite pod driver GPU in esecuzione nel nodo.
Nome metrica | Dimensione metrica (tag) | Descrizione |
---|---|---|
containerGpuDutyCycle* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Percentuale di tempo nel periodo di campionamento precedente (60 secondi) durante il quale la GPU è stata occupata/con elaborazioni attive per un contenitore. Il ciclo di servizio è un numero compreso tra 1 e 100. |
containerGpuLimits | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Ogni contenitore può specificare limiti come una o più GPU. Non è possibile richiedere o limitare una frazione di una GPU. |
containerGpuRequests | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Ogni contenitore può richiedere una o più GPU. Non è possibile richiedere o limitare una frazione di una GPU. |
containerGpumemoryTotalBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Quantità di memoria GPU in byte disponibile per l'uso per un contenitore specifico. |
containerGpumemoryUsedBytes | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Quantità di memoria GPU in byte usata da un contenitore specifico. |
nodeGpuAllocatable | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Numero di GPU in un nodo che può essere usato da Kubernetes. |
nodeGpuCapacity | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Numero totale di GPU in un nodo. |
* In base alle modifiche upstream di Kubernetes, queste metriche non vengono più raccolte per impostazione predefinita. Come hotfix temporaneo per il servizio Azure Kubernetes, aggiornare il pool di nodi GPU alla versione più recente o *-2022.06.08 o successiva. Per Kubernetes abilitato per Azure Arc, abilitare il controllo delle funzionalità DisableAcceleratorUsageMetrics=false
nella configurazione kubelet del nodo e riavviare kubelet. Dopo che le modifiche upstream raggiungono la disponibilità generale, questa correzione non funzionerà più.
Grafici delle prestazioni della GPU
Informazioni dettagliate contenitore include grafici preconfigurati per le metriche elencate in precedenza nella tabella come cartella di lavoro GPU per ogni cluster. Per una descrizione delle cartelle di lavoro disponibili per Informazioni dettagliate contenitore, vedere Cartelle di lavoro in Informazioni dettagliate contenitore.
Passaggi successivi
- Vedere Usare GPU per carichi di lavoro a elevato utilizzo di calcolo nel servizio Azure Kubernetes per informazioni su come distribuire un cluster del servizio Azure Kubernetes che include nodi abilitati per GPU.
- Visualizzare altre informazioni sugli SKU di macchine virtuali ottimizzati per la GPU in Azure.
- Vedere Supporto delle GPU in Kubernetes per altre informazioni sul supporto sperimentale di Kubernetes per la gestione delle GPU in uno o più nodi in un cluster.