Konfigurera GPU-övervakning med Container Insights
Container insights stöder övervakning av GPU-kluster från följande GPU-leverantörer:
Containerinsikter börjar automatiskt övervaka GPU-användning på noder och GPU som begär poddar och arbetsbelastningar genom att samla in följande mått med 60 sekunders intervall och lagra dem i tabellen InsightMetrics .
Anteckning
När du har etablerat kluster med GPU-noder kontrollerar du att GPU-drivrutinen är installerad enligt vad som krävs av Azure Kubernetes Service (AKS) för att köra GPU-arbetsbelastningar. Containerinsikter samlar in GPU-mått via GPU-drivrutinspoddar som körs i noden.
Måttnamn | Måttdimension (taggar) | beskrivning |
---|---|---|
containerGpuDutyCycle* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Procentandel av tiden under den senaste exempelperioden (60 sekunder) under vilken GPU:n var upptagen/bearbetade aktivt för en container. Arbetscykeln är ett tal mellan 1 och 100. |
containerGpuLimits | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Varje container kan ange gränser som en eller flera GPU:er. Det går inte att begära eller begränsa en bråkdel av en GPU. |
containerGpuRequests | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Varje container kan begära en eller flera GPU:er. Det går inte att begära eller begränsa en bråkdel av en GPU. |
containerGpumemoryTotalBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Mängden GPU-minne i byte som är tillgängligt för användning för en specifik container. |
containerGpumemoryUsedBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Mängden GPU-minne i byte som används av en specifik container. |
nodeGpuAllocatable | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Antal GPU:er i en nod som kan användas av Kubernetes. |
nodeGpuCapacity | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Totalt antal GPU:er i en nod. |
* Baserat på Kubernetes uppströmsändringar samlas dessa mått inte längre in i rutan. Som en tillfällig snabbkorrigering uppgraderar du GPU-nodpoolen till den senaste versionen eller *-2022.06.08 eller senare för AKS. För Azure Arc-aktiverade Kubernetes aktiverar du funktionsporten DisableAcceleratorUsageMetrics=false
i kubelet-konfigurationen av noden och startar om kubelet. När de överordnade ändringarna har nått allmän tillgänglighet fungerar inte längre den här korrigeringen.
Containerinsikter innehåller förkonfigurerade diagram för måtten som angavs tidigare i tabellen som en GPU-arbetsbok för varje kluster. En beskrivning av de arbetsböcker som är tillgängliga för Container Insights finns i Arbetsböcker i Container Insights.
- Se Använda GPU:er för beräkningsintensiva arbetsbelastningar i Azure Kubernetes Service för att lära dig hur du distribuerar ett AKS-kluster som innehåller GPU-aktiverade noder.
- Läs mer om GPU-optimerade VM-SKU:er i Azure.
- Granska GPU-stöd i Kubernetes för att lära dig mer om kubernetes experimentellt stöd för hantering av GPU:er över en eller flera noder i ett kluster.