Configuración de la supervisión de GPU con Container insights

A partir de la versión del agente ciprod03022019, el agente integrado de Container Insights ahora admite la supervisión del uso de GPU (unidades de procesamiento gráfico) en los nodos de clúster de Kubernetes con reconocimiento de GPU y supervisa los pods o contenedores que solicitan y usan recursos de GPU.

Nota

Según el anuncio ascendente, Kubernetes va a dejar de usar las métricas de GPU notificadas por kubelet para Kubernetes versión 1.20+. Como resultado, Container Insights ya no podrá recopilar las siguientes métricas de forma predeterminada:

  • containerGpuDutyCycle
  • containerGpumemoryTotalBytes
  • containerGpumemoryUsedBytes

Para seguir recopilando métricas de GPU a través de Container Insights, migre al exportador de métricas específicas del proveedor de GPU antes del 31 de diciembre de 2022. Configure la extracción de Prometheus para extraer métricas del exportador específico del proveedor implementado.

Proveedores de GPU admitidos

Container Insights admite la supervisión de clústeres de GPU de los siguientes proveedores de GPU:

Container Insights inicia automáticamente la supervisión del uso de GPU en los nodos y de los pods y las áreas de trabajo que solicitan GPU mediante la recopilación de las métricas siguientes a intervalos de 60 segundos y su almacenamiento en la tabla InsightMetrics.

Nota

Después de aprovisionar clústeres con nodos de GPU, asegúrese de que el controlador de GPU está instalado según lo requiera Azure Kubernetes Service (AKS) para ejecutar cargas de trabajo de GPU. Container Insights recopila métricas de GPU a través de los pods del controlador de GPU que se ejecutan en el nodo.

Nombre de métrica Dimensión de métrica (etiquetas) Descripción
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Porcentaje de tiempo del período de muestra anterior (60 segundos) durante el cual la GPU estuvo ocupada o realizando un procesamiento activo para un contenedor. El ciclo de servicio es un número comprendido entre 1 y 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Cada contenedor puede especificar límites para una o varias GPU. No es posible solicitar ni limitar una fracción de GPU.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Cada contenedor puede solicitar una o varias GPU. No es posible solicitar ni limitar una fracción de GPU.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Cantidad de memoria de GPU en bytes disponible para su uso en un contenedor específico.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Cantidad de memoria de GPU en bytes que usa un contenedor específico.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Número de GPU en un nodo que puede usar Kubernetes.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Número total de GPU en un nodo.

* En función de los cambios ascendentes de Kubernetes, estas métricas ya no se recopilan de forma predeterminada. Como corrección temporal, para AKS, actualice el grupo de nodos de GPU a la versión más reciente o *-2022.06.08 o posterior. Para Kubernetes habilitado para Azure Arc, habilite la puerta DisableAcceleratorUsageMetrics=false de características en la configuración de kubelet del nodo y reinicie kubelet. Una vez que los cambios ascendentes alcancen la disponibilidad general, esta corrección dejará de funcionar. Realice planes para migrar mediante el exportador de métricas específicas del proveedor de GPU antes del 31 de diciembre de 2022.

Gráficos de rendimiento de GPU

Container Insights incluye gráficos preconfigurados para las métricas indicadas anteriormente en la tabla como un libro de GPU para cada clúster. Para obtener una descripción de los libros disponibles para Container Insights, consulte Libros en Container Insights.

Pasos siguientes