Dela via


Konfigurera GPU-övervakning med Container Insights

Från och med agentversionen ciprod03022019 stöder containerinsiktsintegrerad agent nu övervakning av GPU-användning (graphical processing unit) på GPU-medvetna Kubernetes-klusternoder och övervakar poddar eller containrar som begär och använder GPU-resurser.

Anteckning

Enligt Kubernetes uppströmsmeddelande håller Kubernetes på att fasa ut GPU-mått som rapporteras av kubelet för Kubernetes version 1.20+. Det innebär att Container Insights inte längre kan samla in följande mått direkt:

  • containerGpuDutyCycle
  • containerGpumemoryTotalBytes
  • containerGpumemoryUsedBytes

Om du vill fortsätta samla in GPU-mått via Container Insights migrerar du till din GPU-leverantörsspecifika måttexportör senast den 31 december 2022. Konfigurera Prometheus-skrapning för att skrapa mått från den distribuerade leverantörsspecifika exportören.

GPU-leverantörer som stöds

Container insights stöder övervakning av GPU-kluster från följande GPU-leverantörer:

Containerinsikter börjar automatiskt övervaka GPU-användning på noder och GPU som begär poddar och arbetsbelastningar genom att samla in följande mått med 60 sekunders intervall och lagra dem i tabellen InsightMetrics .

Anteckning

När du har etablerat kluster med GPU-noder kontrollerar du att GPU-drivrutinen är installerad enligt Azure Kubernetes Service (AKS) för att köra GPU-arbetsbelastningar. Containerinsikter samlar in GPU-mått via GPU-drivrutinspoddar som körs i noden.

Måttnamn Måttdimension (taggar) Beskrivning
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Procentandel av tiden under den senaste exempelperioden (60 sekunder) under vilken GPU:n var upptagen/bearbetades aktivt för en container. Tullcykeln är ett tal mellan 1 och 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Varje container kan ange gränser som en eller flera GPU:er. Det går inte att begära eller begränsa en bråkdel av en GPU.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Varje container kan begära en eller flera GPU:er. Det går inte att begära eller begränsa en bråkdel av en GPU.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Mängden GPU-minne i byte som är tillgängligt för användning för en specifik container.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Mängden GPU-minne i byte som används av en specifik container.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Antal GPU:er i en nod som kan användas av Kubernetes.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Totalt antal GPU:er i en nod.

* Baserat på Kubernetes överordnade ändringar samlas dessa mått inte längre in direkt. Som en tillfällig snabbkorrigering uppgraderar du GPU-nodpoolen till den senaste versionen eller *-2022.06.08 eller senare för AKS. För Azure Arc-aktiverade Kubernetes aktiverar du funktionsporten DisableAcceleratorUsageMetrics=false i kubelet-konfigurationen för noden och startar om kubelet. När de överordnade ändringarna når allmän tillgänglighet fungerar inte längre den här korrigeringen. Planera migreringen till att använda din GPU-leverantörsspecifika måttexportör senast den 31 december 2022.

GPU-prestandadiagram

Containerinsikter innehåller förkonfigurerade diagram för måtten som angavs tidigare i tabellen som en GPU-arbetsbok för varje kluster. En beskrivning av de arbetsböcker som är tillgängliga för containerinsikter finns i Arbetsböcker i Containerinsikter.

Nästa steg