Konfigurace monitorování GPU s využitím Container Insights

Článek
08/09/2023

Počínaje verzí agenta ciprod03022019 podporuje integrovaný agent Container Insights monitorování využití grafických procesorů (GPU) na uzlech clusteru Kubernetes s podporou GPU a monitoruje pody nebo kontejnery, které požadují a používají prostředky GPU.

Poznámka

Podle upstreamového oznámení Kubernetes Kubernetes vyřazuje metriky GPU, které hlásí kubelet, pro Kubernetes verze 1.20 a novější. V důsledku toho už přehledy kontejneru nebudou moct shromažďovat následující metriky:

containerGpuDutyCycle
containerGpumemoryTotalBytes
containerGpumemoryUsedBytes

Pokud chcete pokračovat ve shromažďování metrik GPU prostřednictvím přehledů kontejneru, migrujte do 31. prosince 2022 na export metriky specifické pro konkrétního dodavatele GPU. Nakonfigurujte škrábání Prometheus tak, aby se z nasazeného exportéru specifického pro dodavatele odečítá metriky.

Podporovaní dodavatelé GPU

Container Insights podporuje monitorování clusterů GPU od následujících dodavatelů GPU:

NVIDIA
AMD

Container Insights automaticky začne monitorovat využití GPU na uzlech a GPU, které požadují pody a úlohy, tím, že shromažďuje následující metriky v 60sekundových intervalech a ukládá je do tabulky InsightMetrics .

Poznámka

Po zřízení clusterů s uzly GPU se ujistěte, že je ovladač GPU nainstalovaný podle potřeby Azure Kubernetes Service (AKS) pro spouštění úloh GPU. Přehledy kontejnerů shromažďují metriky GPU prostřednictvím podů ovladačů GPU spuštěných v uzlu.

Název metriky	Dimenze metriky (značky)	Popis
containerGpuDutyCycle*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Procento času za poslední ukázkové období (60 sekund), během kterého bylo GPU zaneprázdněno nebo aktivně zpracovává kontejner. Cyklus zatížení je číslo mezi 1 a 100.
containerGpuLimits	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Každý kontejner může určit limity jako jeden nebo více GPU. Není možné požádat nebo omezit zlomek GPU.
containerGpuRequests	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Každý kontejner může požádat o jeden nebo více GPU. Není možné požádat nebo omezit zlomek GPU.
containerGpumemoryTotalBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Velikost paměti GPU v bajtech, která je k dispozici pro konkrétní kontejner.
containerGpumemoryUsedBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Velikost paměti GPU v bajtech používaných konkrétním kontejnerem
nodeGpuAllocatable	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Počet grafických procesorů v uzlu, které může Kubernetes používat
nodeGpuCapacity	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Celkový počet GPU v uzlu

* Na základě upstreamových změn Kubernetes se tyto metriky už neshromažďují. Jako dočasnou opravu hotfix pro AKS upgradujte fond uzlů GPU na nejnovější verzi nebo *-2022.06.08 nebo novější. V případě Kubernetes s podporou Azure Arc povolte bránu DisableAcceleratorUsageMetrics=false funkcí v konfiguraci kubeletu uzlu a restartujte kubelet. Jakmile upstreamové změny dosáhnou obecné dostupnosti, tato oprava už nebude fungovat. Do 31. prosince 2022 naplánujte migraci na použití exportéru metrik specifických pro konkrétního dodavatele GPU.

Grafy výkonu GPU

Container Insights zahrnuje předkonfigurované grafy pro metriky uvedené dříve v tabulce jako sešit GPU pro každý cluster. Popis sešitů dostupných pro přehledy kontejnerů najdete v tématu Sešity v přehledech kontejnerů.

Další kroky

Informace o nasazení clusteru AKS, který zahrnuje uzly s podporou GPU, najdete v tématu Použití gpu pro úlohy náročné na výpočetní výkon na Azure Kubernetes Service.
Přečtěte si další informace o SKU virtuálních počítačů optimalizovaných pro GPU v Azure.
Další informace o experimentální podpoře Kubernetes pro správu GPU na jednom nebo několika uzlech v clusteru najdete v tématu Podpora GPU v Kubernetes .

Sdílet prostřednictvím

Konfigurace monitorování GPU s využitím Container Insights

Podporovaní dodavatelé GPU

Grafy výkonu GPU

Další kroky

Další materiály