Configuración de la supervisión de GPU con Container insights

Artículo
08/09/2023

A partir de la versión del agente ciprod03022019, el agente integrado de Container Insights ahora admite la supervisión del uso de GPU (unidades de procesamiento gráfico) en los nodos de clúster de Kubernetes con reconocimiento de GPU y supervisa los pods o contenedores que solicitan y usan recursos de GPU.

Nota

Según el anuncio ascendente, Kubernetes va a dejar de usar las métricas de GPU notificadas por kubelet para Kubernetes versión 1.20+. Como resultado, Container Insights ya no podrá recopilar las siguientes métricas de forma predeterminada:

containerGpuDutyCycle
containerGpumemoryTotalBytes
containerGpumemoryUsedBytes

Para seguir recopilando métricas de GPU a través de Container Insights, migre al exportador de métricas específicas del proveedor de GPU antes del 31 de diciembre de 2022. Configure la extracción de Prometheus para extraer métricas del exportador específico del proveedor implementado.

Proveedores de GPU admitidos

Container Insights admite la supervisión de clústeres de GPU de los siguientes proveedores de GPU:

NVIDIA
AMD

Container Insights inicia automáticamente la supervisión del uso de GPU en los nodos y de los pods y las áreas de trabajo que solicitan GPU mediante la recopilación de las métricas siguientes a intervalos de 60 segundos y su almacenamiento en la tabla InsightMetrics.

Nota

Después de aprovisionar clústeres con nodos de GPU, asegúrese de que el controlador de GPU está instalado según lo requiera Azure Kubernetes Service (AKS) para ejecutar cargas de trabajo de GPU. Container Insights recopila métricas de GPU a través de los pods del controlador de GPU que se ejecutan en el nodo.

Nombre de métrica	Dimensión de métrica (etiquetas)	Descripción
containerGpuDutyCycle*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Porcentaje de tiempo del período de muestra anterior (60 segundos) durante el cual la GPU estuvo ocupada o realizando un procesamiento activo para un contenedor. El ciclo de servicio es un número comprendido entre 1 y 100.
containerGpuLimits	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Cada contenedor puede especificar límites para una o varias GPU. No es posible solicitar ni limitar una fracción de GPU.
containerGpuRequests	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Cada contenedor puede solicitar una o varias GPU. No es posible solicitar ni limitar una fracción de GPU.
containerGpumemoryTotalBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Cantidad de memoria de GPU en bytes disponible para su uso en un contenedor específico.
containerGpumemoryUsedBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Cantidad de memoria de GPU en bytes que usa un contenedor específico.
nodeGpuAllocatable	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Número de GPU en un nodo que puede usar Kubernetes.
nodeGpuCapacity	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Número total de GPU en un nodo.

* En función de los cambios ascendentes de Kubernetes, estas métricas ya no se recopilan de forma predeterminada. Como corrección temporal, para AKS, actualice el grupo de nodos de GPU a la versión más reciente o *-2022.06.08 o posterior. Para Kubernetes habilitado para Azure Arc, habilite la puerta DisableAcceleratorUsageMetrics=false de características en la configuración de kubelet del nodo y reinicie kubelet. Una vez que los cambios ascendentes alcancen la disponibilidad general, esta corrección dejará de funcionar. Realice planes para migrar mediante el exportador de métricas específicas del proveedor de GPU antes del 31 de diciembre de 2022.

Gráficos de rendimiento de GPU

Container Insights incluye gráficos preconfigurados para las métricas indicadas anteriormente en la tabla como un libro de GPU para cada clúster. Para obtener una descripción de los libros disponibles para Container Insights, consulte Libros en Container Insights.

Pasos siguientes

Consulte Uso de GPU para cargas de trabajo de cálculo intensivo en Azure Kubernetes Service (AKS) para aprender a implementar un clúster de AKS que incluya nodos habilitados para GPU.
Obtenga más información sobre las SKU de máquinas virtuales optimizadas para GPU en Azure.
Revise la compatibilidad con GPU en Kubernetes para obtener más información sobre la compatibilidad experimental de Kubernetes con la administración de GPU en uno o varios nodos de un clúster.

Configuración de la supervisión de GPU con Container insights

Proveedores de GPU admitidos

Gráficos de rendimiento de GPU

Pasos siguientes

Recursos adicionales