Sdílet prostřednictvím


Konfigurace monitorování GPU s využitím Container Insights

Počínaje verzí agenta ciprod03022019 podporuje integrovaný agent Container Insights monitorování využití grafických procesorů (GPU) na uzlech clusteru Kubernetes s podporou GPU a monitoruje pody nebo kontejnery, které požadují a používají prostředky GPU.

Poznámka

Podle upstreamového oznámení Kubernetes Kubernetes vyřazuje metriky GPU, které hlásí kubelet, pro Kubernetes verze 1.20 a novější. V důsledku toho už přehledy kontejneru nebudou moct shromažďovat následující metriky:

  • containerGpuDutyCycle
  • containerGpumemoryTotalBytes
  • containerGpumemoryUsedBytes

Pokud chcete pokračovat ve shromažďování metrik GPU prostřednictvím přehledů kontejneru, migrujte do 31. prosince 2022 na export metriky specifické pro konkrétního dodavatele GPU. Nakonfigurujte škrábání Prometheus tak, aby se z nasazeného exportéru specifického pro dodavatele odečítá metriky.

Podporovaní dodavatelé GPU

Container Insights podporuje monitorování clusterů GPU od následujících dodavatelů GPU:

Container Insights automaticky začne monitorovat využití GPU na uzlech a GPU, které požadují pody a úlohy, tím, že shromažďuje následující metriky v 60sekundových intervalech a ukládá je do tabulky InsightMetrics .

Poznámka

Po zřízení clusterů s uzly GPU se ujistěte, že je ovladač GPU nainstalovaný podle potřeby Azure Kubernetes Service (AKS) pro spouštění úloh GPU. Přehledy kontejnerů shromažďují metriky GPU prostřednictvím podů ovladačů GPU spuštěných v uzlu.

Název metriky Dimenze metriky (značky) Popis
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Procento času za poslední ukázkové období (60 sekund), během kterého bylo GPU zaneprázdněno nebo aktivně zpracovává kontejner. Cyklus zatížení je číslo mezi 1 a 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Každý kontejner může určit limity jako jeden nebo více GPU. Není možné požádat nebo omezit zlomek GPU.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Každý kontejner může požádat o jeden nebo více GPU. Není možné požádat nebo omezit zlomek GPU.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Velikost paměti GPU v bajtech, která je k dispozici pro konkrétní kontejner.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Velikost paměti GPU v bajtech používaných konkrétním kontejnerem
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Počet grafických procesorů v uzlu, které může Kubernetes používat
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Celkový počet GPU v uzlu

* Na základě upstreamových změn Kubernetes se tyto metriky už neshromažďují. Jako dočasnou opravu hotfix pro AKS upgradujte fond uzlů GPU na nejnovější verzi nebo *-2022.06.08 nebo novější. V případě Kubernetes s podporou Azure Arc povolte bránu DisableAcceleratorUsageMetrics=false funkcí v konfiguraci kubeletu uzlu a restartujte kubelet. Jakmile upstreamové změny dosáhnou obecné dostupnosti, tato oprava už nebude fungovat. Do 31. prosince 2022 naplánujte migraci na použití exportéru metrik specifických pro konkrétního dodavatele GPU.

Grafy výkonu GPU

Container Insights zahrnuje předkonfigurované grafy pro metriky uvedené dříve v tabulce jako sešit GPU pro každý cluster. Popis sešitů dostupných pro přehledy kontejnerů najdete v tématu Sešity v přehledech kontejnerů.

Další kroky