Meer informatie over metrische NVIDIA GPU-gegevens voor het optimaliseren van GPU-prestaties en -gebruik in Azure Kubernetes Service (AKS)

Voor efficiënte plaatsing en optimalisatie van GPU-workloads is vaak inzicht in het resourcegebruik en de prestaties vereist. Beheerde GPU-metrieken op AKS (preview) bieden geautomatiseerde verzameling en weergave van GPU-gebruiksefficiëntie, geheugen- en prestatiegegevens in NVIDIA-GPU-geactiveerde knooppool. Hierdoor kunnen platformbeheerders clusterbronnen en ontwikkelaars optimaliseren om workloads met beperkte handmatige instrumentatie af te stemmen en fouten op te sporen.

In dit artikel komt u meer te weten over GPU-metriek die zijn verzameld door de NVIDIA Data Center GPU Manager (DCGM) exporter in Azure Kubernetes Service (AKS) met een volledig beheerde GPU-knooppuntgroep (preview).

Belangrijk

AKS preview-functies zijn beschikbaar op selfservice, opt-in basis. Previews worden geleverd 'zoals het is' en 'voor zover beschikbaar' en zijn uitgesloten van de serviceovereenkomsten en beperkte garantie. AKS-previews worden gedeeltelijk gedekt door klantondersteuning naar best vermogen. Zodoende zijn deze functies niet bedoeld voor productiegebruik. Zie de volgende ondersteuningsartikelen voor meer informatie:

Vereiste voorwaarden

Een AKS-cluster met een volledig beheerde GPU-knooppuntgroep (voorvertoning) en zorg ervoor dat de GPU's kunnen worden gescheduled.
Een voorbeeld van een GPU-workload die is geïmplementeerd in uw knooppuntgroep.

Beperkingen

Beheerde GPU-metrische gegevens worden momenteel niet ondersteund met Azure Managed Prometheus of Azure Managed Grafana.

Controleer of beheerde GPU-onderdelen zijn geïnstalleerd

Nadat u de beheerde NVIDIA GPU-knooppuntgroep (preview) hebt gemaakt, controleert u of de GPU-softwareonderdelen zijn geïnstalleerd met de opdracht az aks nodepool show :

az aks nodepool show \
    --resource-group <resource-group-name> \
    --cluster-name <cluster-name> \
    --name <node-pool-name> \

De uitvoer moet de volgende waarden bevatten:

...
...
"gpuInstanceProfile": …
    "gpuProfile": {
      "driver": "Install"
    },
...
...

Begrip van GPU-metrieken

Metrische gegevens over GPU-gebruik

Metrische gegevens over GPU-gebruik geven het percentage tijd aan dat de kernen van de GPU actief worden verwerkt. Hoge waarden geven aan dat de GPU intensief wordt gebruikt, wat over het algemeen wenselijk is voor workloads zoals training of gegevensverwerking. Interpretatie van deze metrische gegevens moet rekening houden met het type workload: AI-training houdt doorgaans het gebruik hoog, terwijl inferentie intermitterend gebruik kan hebben vanwege verkeer met pieken.

Geheugengebruik: geeft het percentage GPU-geheugen weer dat in gebruik is. Hoog geheugengebruik zonder hoog GPU-gebruik kan duiden op geheugengebonden werkbelastingen waarbij de GPU wacht op geheugenoverdrachten. Weinig geheugengebruik met een laag gebruik kan suggereren dat de werkbelasting te klein is om volledig gebruik te maken van de GPU.

SM-efficiëntie (streaming multiprocessor): meet de efficiëntie waarmee de kernen van de GPU worden gebruikt. Een lage SM-efficiëntie geeft aan dat kernen niet actief of te weinig worden gebruikt vanwege onevenwichtige werkbelasting of suboptimale kernelontwerp. Hoge efficiëntie is ideaal voor rekenkrachtige toepassingen.

Geheugenstatistieken

Geheugenbandbreedtegebruik: Geeft aan hoeveel van de theoretische geheugenbandbreedte wordt verbruikt. Een hoog bandbreedtegebruik met een laag rekengebruik kan duiden op een werkbelasting die afhankelijk is van het geheugen. Omgekeerd stelt een hoog gebruik in zowel reken- als geheugenbandbreedte een goed verdeelde workload voor.

Geheugenfouten: houdt ECC-fouten (Error-Correcting Code) bij indien ingeschakeld. Een groot aantal fouten kan duiden op hardwaredegradatie of thermische problemen en moet worden gecontroleerd op betrouwbaarheid.

Metrische gegevens over temperatuur en energie

GPU-temperatuur: geeft de operationele temperatuur van de GPU aan. Aanhoudende hoge temperaturen kunnen thermische throttling veroorzaken, met verminderde prestaties. Bij ideale interpretatie van deze metrische waarde moet de temperatuur ten opzichte van de thermische limieten en koelcapaciteit van de GPU worden waargenomen.

Vermogensgebruik: toont het directe stroomverbruik. Als u het energieverbruik vergelijkt met TDP (Thermal Design Power) krijgt u inzicht in of de GPU wordt gepusht tot de limieten. Plotselinge dalingen in macht kunnen duiden op beperking of ondergebruik.

Metrische gegevens voor klokken en frequentie

GPU Clock: de werkelijke operationele frequentie van de GPU. In combinatie met het gebruik kunt u hiermee bepalen of de GPU wordt afgeremd of ondermaats presteert ten opzichte van zijn potentieel.

Geheugenklok: operationele frequentie van GPU-geheugen. Geheugengebonden werkbelastingen kunnen profiteren van hogere geheugenklokken; een niet-overeenkomend geheugen- en rekengebruik kan knelpunten markeren.

PCIe- en NVLink-metrieken

PCIe-bandbreedte: meet de doorvoer via de PCIe-bus. Een laag gebruik met zware werkbelastingen kan suggereren dat CPU-GPU communicatie geen knelpunt is. Hoog gebruik kan wijzen op beperkingen voor gegevensoverdracht die van invloed zijn op de prestaties.

NVLink-bandbreedte: deze metriek is vergelijkbaar met de PCIe-bandbreedte, maar specifiek voor NVLink-interconnects en relevant in multi-GPU-systemen voor communicatie tussen GPU's. Hoog NVLink-gebruik met een laag SM-gebruik kan duiden op vertragingen bij synchronisatie of gegevensoverdracht.

Metrische gegevens over fouten en betrouwbaarheid

Buiten gebruik gestelde pagina's en XID-fouten: GPU-geheugenfouten en kritieke fouten bijhouden. Frequent voorkomende signalen wijzen op potentiële hardwarefouten en vereisen aandacht voor langdurige workloads.

Richtlijnen voor interpretatie

DCGM-metrics moeten altijd worden geïnterpreteerd in de context van uw type workload op AKS. Een rekenintensieve taak moet idealiter hoog GPU- en SM-gebruik laten zien, hoog geheugenbandbreedtegebruik, stabiele temperaturen onder de afknijpingsdrempels en stroomverbruik dat bijna tot aan maar onder TDP ligt.

Geheugengebonden werkbelastingen kunnen een hoog geheugengebruik en een hoge bandbreedte tonen, maar lager rekengebruik. Afwijkingen zoals een laag gebruik met een hoge temperatuur of hoog energieverbruik geven vaak beperkingen, inefficiënte planning of knelpunten op systeemniveau aan.

Het bewaken van trends in de loop van de tijd in plaats van enkele momentopnamen is essentieel. Plotselinge dalingen in gebruik of pieken in fouten geven vaak onderliggende problemen aan voordat ze van invloed zijn op productieworkloads. Het vergelijken van metrics over meerdere GPU's kan ook helpen om uitbijters of niet goed functionerende apparaten in een cluster te identificeren. Inzicht in deze metrische gegevens in combinatie, in plaats van isolatie, biedt het duidelijkste inzicht in gpu-efficiëntie en workloadprestaties.

Algemene GPU-metrische gegevens

De volgende metrische NVIDIA DCGM-gegevens worden doorgaans geëvalueerd voor de prestaties van GPU-knooppuntgroepen in Kubernetes:

Naam van GPU-metrische gegevens	Meaning	Standaard bereik/indicator	Gebruikstip
`DCGM_FI_DEV_GPU_UTIL`	GPU-gebruik (% tijd dat GPU-kernen actief zijn)	0-100% (hoger is beter)	Per knooppunt en per pod bewaken; lage waarden kunnen duiden op CPU- of I/O-knelpunten
`DCGM_FI_DEV_SM_UTIL`	Efficiëntie van streaming multiprocessor (% actieve kernen)	0-100%	Lage waarden met een hoog geheugengebruik geven een geheugengebonden workload aan
`DCGM_FI_DEV_FB_USED`	Gebruikt framebuffer geheugen (bytes)	0 tot geheugentotaal	Gpu-geheugenlimieten voor pods gebruiken en geheugengebruik per pod bijhouden
`DCGM_FI_DEV_FB_FREE`	Vrij GPU-geheugen (bytes)	0 tot totaal geheugen	Handig voor het plannen en voorkomen van OOM-fouten
`DCGM_FI_DEV_MEMORY_UTIL`	Geheugengebruik (%)	0-100%	Combineren met GPU/SM-gebruik om geheugengebonden workloads te bepalen
`DCGM_FI_DEV_MEMORY_CLOCK`	Huidige geheugenklokfrequentie (MHz)	0 tot maximale geheugenklok	Lage waarden bij hoog geheugengebruik kunnen wijzen op throttling
`DCGM_FI_DEV_POWER_USAGE`	Onmiddellijk energieverbruik (Watts)	0 tot TDP	Dalingen tijdens hoge belasting kunnen duiden op vertraging.
`DCGM_FI_DEV_TEMPERATURE`	GPU-temperatuur (°C)	~30-85°C normaal	Waarschuwing bij aanhoudende hoge temperaturen
`DCGM_FI_DEV_NVLINK_RX`	NVLink ontvangt bandbreedtegebruik (%)	0-100%	Knelpunt in synchronisatie tussen meerdere GPU's bij hoge synchronisatie met laag SM-gebruik
`DCGM_FI_DEV_XID_ERRORS`	Kritieke GPU-fouten gerapporteerd door stuurprogramma	Meestal 0	Onmiddellijk onderzoek vereist; kan een taint op een knooppunt in Kubernetes toepassen.

Ga naar de DOCUMENTATIE van NVIDIA DCGM Upstream voor meer informatie over de volledige suite met gpu-metrische gegevens.

Volgende stappen

De status van uw GPU-knooppunt bijhouden met Node Problem Detector (NPD)
GPU-knooppool met meerdere instanties aanmaken in AKS
De add-on voor AI-toolketenoperators verkennen voor AI-inferentie en het fijnregelen

Feedback

Is deze pagina nuttig?

Last updated on 2025-11-08