Konfigurera GPU-övervakning med Container Insights
Från och med agentversionen ciprod03022019 stöder containerinsiktsintegrerad agent nu övervakning av GPU-användning (graphical processing unit) på GPU-medvetna Kubernetes-klusternoder och övervakar poddar eller containrar som begär och använder GPU-resurser.
Anteckning
Enligt Kubernetes uppströmsmeddelande håller Kubernetes på att fasa ut GPU-mått som rapporteras av kubelet för Kubernetes version 1.20+. Det innebär att Container Insights inte längre kan samla in följande mått direkt:
- containerGpuDutyCycle
- containerGpumemoryTotalBytes
- containerGpumemoryUsedBytes
Om du vill fortsätta samla in GPU-mått via Container Insights migrerar du till din GPU-leverantörsspecifika måttexportör senast den 31 december 2022. Konfigurera Prometheus-skrapning för att skrapa mått från den distribuerade leverantörsspecifika exportören.
GPU-leverantörer som stöds
Container insights stöder övervakning av GPU-kluster från följande GPU-leverantörer:
Containerinsikter börjar automatiskt övervaka GPU-användning på noder och GPU som begär poddar och arbetsbelastningar genom att samla in följande mått med 60 sekunders intervall och lagra dem i tabellen InsightMetrics .
Anteckning
När du har etablerat kluster med GPU-noder kontrollerar du att GPU-drivrutinen är installerad enligt Azure Kubernetes Service (AKS) för att köra GPU-arbetsbelastningar. Containerinsikter samlar in GPU-mått via GPU-drivrutinspoddar som körs i noden.
Måttnamn | Måttdimension (taggar) | Beskrivning |
---|---|---|
containerGpuDutyCycle* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Procentandel av tiden under den senaste exempelperioden (60 sekunder) under vilken GPU:n var upptagen/bearbetades aktivt för en container. Tullcykeln är ett tal mellan 1 och 100. |
containerGpuLimits | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Varje container kan ange gränser som en eller flera GPU:er. Det går inte att begära eller begränsa en bråkdel av en GPU. |
containerGpuRequests | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Varje container kan begära en eller flera GPU:er. Det går inte att begära eller begränsa en bråkdel av en GPU. |
containerGpumemoryTotalBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Mängden GPU-minne i byte som är tillgängligt för användning för en specifik container. |
containerGpumemoryUsedBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Mängden GPU-minne i byte som används av en specifik container. |
nodeGpuAllocatable | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Antal GPU:er i en nod som kan användas av Kubernetes. |
nodeGpuCapacity | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Totalt antal GPU:er i en nod. |
* Baserat på Kubernetes överordnade ändringar samlas dessa mått inte längre in direkt. Som en tillfällig snabbkorrigering uppgraderar du GPU-nodpoolen till den senaste versionen eller *-2022.06.08 eller senare för AKS. För Azure Arc-aktiverade Kubernetes aktiverar du funktionsporten DisableAcceleratorUsageMetrics=false
i kubelet-konfigurationen för noden och startar om kubelet. När de överordnade ändringarna når allmän tillgänglighet fungerar inte längre den här korrigeringen. Planera migreringen till att använda din GPU-leverantörsspecifika måttexportör senast den 31 december 2022.
GPU-prestandadiagram
Containerinsikter innehåller förkonfigurerade diagram för måtten som angavs tidigare i tabellen som en GPU-arbetsbok för varje kluster. En beskrivning av de arbetsböcker som är tillgängliga för containerinsikter finns i Arbetsböcker i Containerinsikter.
Nästa steg
- Mer information om hur du distribuerar ett AKS-kluster som innehåller GPU-aktiverade noder finns i Använda GPU:er för beräkningsintensiva arbetsbelastningar på Azure Kubernetes Service.
- Läs mer om GPU-optimerade VM-SKU:er i Azure.
- Granska GPU-stöd i Kubernetes för att lära dig mer om Kubernetes experimentella stöd för hantering av GPU:er över en eller flera noder i ett kluster.
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för