Konfigurace monitorování GPU s využitím Container Insights
Počínaje verzí agenta ciprod03022019 podporuje integrovaný agent Container Insights monitorování využití grafických procesorů (GPU) na uzlech clusteru Kubernetes s podporou GPU a monitoruje pody nebo kontejnery, které požadují a používají prostředky GPU.
Poznámka
Podle upstreamového oznámení Kubernetes Kubernetes vyřazuje metriky GPU, které hlásí kubelet, pro Kubernetes verze 1.20 a novější. V důsledku toho už přehledy kontejneru nebudou moct shromažďovat následující metriky:
- containerGpuDutyCycle
- containerGpumemoryTotalBytes
- containerGpumemoryUsedBytes
Pokud chcete pokračovat ve shromažďování metrik GPU prostřednictvím přehledů kontejneru, migrujte do 31. prosince 2022 na export metriky specifické pro konkrétního dodavatele GPU. Nakonfigurujte škrábání Prometheus tak, aby se z nasazeného exportéru specifického pro dodavatele odečítá metriky.
Podporovaní dodavatelé GPU
Container Insights podporuje monitorování clusterů GPU od následujících dodavatelů GPU:
Container Insights automaticky začne monitorovat využití GPU na uzlech a GPU, které požadují pody a úlohy, tím, že shromažďuje následující metriky v 60sekundových intervalech a ukládá je do tabulky InsightMetrics .
Poznámka
Po zřízení clusterů s uzly GPU se ujistěte, že je ovladač GPU nainstalovaný podle potřeby Azure Kubernetes Service (AKS) pro spouštění úloh GPU. Přehledy kontejnerů shromažďují metriky GPU prostřednictvím podů ovladačů GPU spuštěných v uzlu.
Název metriky | Dimenze metriky (značky) | Popis |
---|---|---|
containerGpuDutyCycle* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Procento času za poslední ukázkové období (60 sekund), během kterého bylo GPU zaneprázdněno nebo aktivně zpracovává kontejner. Cyklus zatížení je číslo mezi 1 a 100. |
containerGpuLimits | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Každý kontejner může určit limity jako jeden nebo více GPU. Není možné požádat nebo omezit zlomek GPU. |
containerGpuRequests | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Každý kontejner může požádat o jeden nebo více GPU. Není možné požádat nebo omezit zlomek GPU. |
containerGpumemoryTotalBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Velikost paměti GPU v bajtech, která je k dispozici pro konkrétní kontejner. |
containerGpumemoryUsedBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Velikost paměti GPU v bajtech používaných konkrétním kontejnerem |
nodeGpuAllocatable | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Počet grafických procesorů v uzlu, které může Kubernetes používat |
nodeGpuCapacity | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Celkový počet GPU v uzlu |
* Na základě upstreamových změn Kubernetes se tyto metriky už neshromažďují. Jako dočasnou opravu hotfix pro AKS upgradujte fond uzlů GPU na nejnovější verzi nebo *-2022.06.08 nebo novější. V případě Kubernetes s podporou Azure Arc povolte bránu DisableAcceleratorUsageMetrics=false
funkcí v konfiguraci kubeletu uzlu a restartujte kubelet. Jakmile upstreamové změny dosáhnou obecné dostupnosti, tato oprava už nebude fungovat. Do 31. prosince 2022 naplánujte migraci na použití exportéru metrik specifických pro konkrétního dodavatele GPU.
Grafy výkonu GPU
Container Insights zahrnuje předkonfigurované grafy pro metriky uvedené dříve v tabulce jako sešit GPU pro každý cluster. Popis sešitů dostupných pro přehledy kontejnerů najdete v tématu Sešity v přehledech kontejnerů.
Další kroky
- Informace o nasazení clusteru AKS, který zahrnuje uzly s podporou GPU, najdete v tématu Použití gpu pro úlohy náročné na výpočetní výkon na Azure Kubernetes Service.
- Přečtěte si další informace o SKU virtuálních počítačů optimalizovaných pro GPU v Azure.
- Další informace o experimentální podpoře Kubernetes pro správu GPU na jednom nebo několika uzlech v clusteru najdete v tématu Podpora GPU v Kubernetes .