Supervisión del rendimiento del clúster de Kubernetes con Container Insights

2025-05-19

Use los libros, los gráficos de rendimiento y el estado de mantenimiento de Container Insights para supervisar la carga de trabajo de los clústeres de Kubernetes hospedados en Azure Kubernetes Services (AKS), Azure Stack u otro entorno. Este artículo le ayuda a comprender cómo usar Azure Monitor para ayudarle a evaluar, investigar y resolver rápidamente los problemas detectados.

Cuadernos de trabajo

Los libros combinan texto, consultas de registros, métricas y parámetros en informes interactivos enriquecidos que permiten analizar el rendimiento del clúster. Para una descripción de los libros de trabajo disponibles para Container Insights y cómo acceder a ellos, consulte Libros de trabajo en Container Insights.

Vista de varios clústeres desde Azure Monitor

Azure Monitor ofrece una vista de varios clústeres que muestra el estado de mantenimiento de todos los clústeres de Kubernetes supervisados e implementados en los grupos de recursos de sus suscripciones. Con esta vista, puede comprender de forma inmediata el estado del clúster y explorar en profundidad la página de rendimiento del controlador y del nodo, o explorar para ver los gráficos de rendimiento del clúster. En el caso de los clústeres detectados e identificados como no supervisados, puede habilitar la supervisión desde la vista.

Nota

Azure Stack (versión preliminar) y servicios que no son de Azure (también en versión preliminar) ya no se admiten en esta vista.

Para acceder a la vista de varios clústeres, seleccione Supervisar en el panel izquierdo de Azure Portal. En la sección Conclusiones , seleccione Contenedores.

En la pestaña Clústeres supervisados , aprenderá lo siguiente:

Cuántos clústeres se encuentran en un estado crítico o incorrecto, frente a cuántos están en buen estado o no se notifican (es decir, tienen un estado Desconocido).
Cuántos nodos y pods de usuario y de sistema se implementan por clúster.

Los estados de mantenimiento incluidos son:

Crítico: se detectan uno o más problemas críticos que deben abordarse para restaurar el estado operativo normal según lo previsto.
Advertencia: Se han detectado uno o más problemas que deben solucionarse; de lo contrario, el estado de salud podría volverse crítico.
No autorizado: el usuario no tiene permisos necesarios para leer datos en el área de trabajo o en la regla de recopilación de datos.
No encontrado: se eliminó el área de trabajo, el grupo de recursos o la suscripción que contiene el área de trabajo.
Habilitar reglas de grabación: habilitelas reglas de grabación de Prometheus para desbloquear datos de mayor rendimiento y visualizaciones de Prometheus.
Mal configurado: Algo salió mal.
Error: error al intentar leer datos del área de trabajo.
Sin datos: los datos no se han notificado al área de trabajo durante los últimos 30 minutos.
Desconocido: si el servicio no pudo realizar una conexión con el nodo o pod, el estado cambia a un estado Desconocido.
Correcto: no se detectan problemas para la máquina virtual y funciona según sea necesario.
Pendiente: la configuración de supervisión de los clústeres habilitados para Arc suele tardar unos 5 minutos. Si el clúster está desconectado de Azure, este proceso puede retrasarse.
Pendiente durante X horas: la configuración de supervisión del clúster habilitado para Arc tarda más de lo esperado.
Error: la configuración de supervisión del clúster habilitado para Arc no se realizó correctamente.

El estado de salud determina el estado general del clúster como el peor de los tres estados con una excepción. Si alguno de los tres estados es Desconocido, el estado general del clúster muestra Desconocido.

En la tabla siguiente se proporciona un desglose del cálculo que controla los estados de mantenimiento para un clúster supervisado en la vista de varios clústeres.

Clúster supervisado	Estado	Disponibilidad
Pod del usuario	Saludable Advertencia Crítico Desconocido	100 % 90 - 99 % <90 % No se notificó en los últimos 30 minutos
Pod del sistema	Saludable Advertencia Crítico Desconocido	100 % N/D 100 % No se notificó en los últimos 30 minutos
Nodo	Saludable Advertencia Crítico Desconocido	>85 % 60 - 84 % <60 % No se notificó en los últimos 30 minutos

En la lista de clústeres, puede explorar en profundidad la página Información general de AKS y la página Clúster para clústeres habilitados para Arc seleccionando el nombre del clúster. A continuación, vaya a la página de rendimiento de Nodos seleccionando la acumulación de nodos de la columna Nodos de ese clúster específico. También puede explorar en profundidad la página de rendimiento de los Controladores seleccionando la acumulación de la columna Pods de usuario o Pods del sistema.

Vista del rendimiento directamente desde un clúster

El acceso a Container Insights está disponible directamente desde un clúster de AKS seleccionando Supervisar en el panel izquierdo o al seleccionar un clúster en la vista de varios clústeres. Para más información sobre Insights, consulte Visualizaciones de Prometheus administradas en Azure Monitor.

Visualización de métricas de contenedor en el Explorador de métricas

En el Explorador de métricas se pueden visualizar métricas agregadas de utilización de nodos y pods de Container Insights. En la tabla siguiente se resumen los detalles que le ayudarán a aprender a usar los gráficos de métricas para visualizar las métricas de contenedor.

Espacio de nombres	Métrica	Descripción
insights.container/nodes
	uso de CPU en milicoros	Medida agregada del uso de CPU en el clúster. Se trata de un núcleo de CPU dividido en 1000 unidades (milli = 1000). Se usa para determinar el uso de los núcleos de un contenedor en el que muchas aplicaciones podrían estar utilizando un solo núcleo.
	Porcentaje de uso de la CPU	Uso medio agregado de la CPU del clúster en porcentaje.
	memoryRssBytes	Memoria RSS del contenedor utilizada, en bytes.
	memoryRssPercentage	Memoria RSS del contenedor utilizada, en porcentaje.
	bytesDelConjuntoDeTrabajoDeMemoria	Memoria del espacio de trabajo del contenedor utilizada.
	memoryWorkingSetPercentage	Memoria del espacio de trabajo del contenedor utilizada, en porcentaje.
	conteoDeNodos	Número de nodos de Kubernetes.
insights.container/pods
	PodCount	Número de pods de Kubernetes.

Puede dividir una métrica para verla por dimensión y visualizar cómo se comparan los distintos segmentos entre sí. Para un nodo, puede segmentar el gráfico por la dimensión host . Para un pod, puede segmentar el gráfico según las dimensiones siguientes:

Controlador
Espacio de nombres de Kubernetes
Nodo
Fase

Análisis de nodos, controladores y mantenimiento de contenedores

Al cambiar a las pestañas Nodos, Controladores y Contenedores , se muestra automáticamente un panel de propiedades en el lado derecho de la página. Este muestra las propiedades del elemento seleccionado, incluidas las etiquetas que haya definido para organizar los objetos de Kubernetes. Cuando se selecciona un nodo de Linux, la sección Capacidad del disco local también muestra el espacio en disco disponible y el porcentaje usado para cada disco presentado al nodo. Seleccione el vínculo >> en el panel para verlo u ocultarlo.

A medida que expande los objetos en la jerarquía, el panel de propiedades se actualiza según el objeto seleccionado. En el panel, también puede ver los registros de contenedor de Kubernetes (stdout/stderror), los eventos y las métricas de pod seleccionando la pestaña Eventos en directo de la parte superior del panel. Para obtener más información sobre la configuración necesaria para conceder y controlar el acceso para ver estos datos, consulte Configuración de los datos en directo.

Mientras examina los recursos del clúster, puede ver estos datos del contenedor en tiempo real. Para obtener más información sobre esta característica, consulte Visualización de registros, eventos y métricas de pod de Kubernetes en tiempo real.

Para ver los datos de registro de Kubernetes almacenados en el área de trabajo en función de las búsquedas de registros predefinidas, seleccione Ver registros de contenedor en la lista desplegable Ver en análisis . Para obtener más información, consulte Consulta de registros desde Container Insights.

Use la opción + Agregar filtro en la parte superior de la página para filtrar los resultados de la vista por servicio, nodo, espacio de nombres o grupo de nodos. Después de seleccionar el ámbito de filtro, seleccione uno de los valores que se muestran en el campo Seleccionar valores . Una vez se configura el filtro, se aplica globalmente mientras se visualiza cualquier perspectiva del clúster de AKS. La fórmula solo admite el signo igual. Puede agregar filtros adicionales que complementen al primero para restringir aún más los resultados. Por ejemplo, si especifica un filtro por nodo, solo puede seleccionar Servicio o Espacio de nombres para el segundo filtro.

Si especifica un filtro en una pestaña, seguirá aplicándose cuando seleccione otra. Se elimina después de seleccionar el símbolo x junto al filtro especificado.

Cambie a la pestaña Nodos y la jerarquía de filas sigue el modelo de objetos de Kubernetes, que comienza con un nodo del clúster. Expanda el nodo para ver uno o varios de los pods que se ejecutan en el nodo. Si hay más de un contenedor agrupado en un pod, se muestran como la última fila de la jerarquía. También puede ver cuántas cargas de trabajo no relacionadas con pods se ejecutan en el host si el host tiene presión de memoria o procesador.

En la lista, los contenedores de Windows Server que usan el sistema operativo Windows Server 2019 se muestran después de todos los nodos basados en Linux. Al expandir un nodo virtual de Windows Server, se pueden ver uno o varios pods y contenedores que se ejecutan en el nodo. Una vez seleccionado un nodo, el panel Propiedades muestra la información de versión.

Los nodos virtuales de Azure Container Instances que ejecutan el sistema operativo Linux se muestran tras el último nodo del clúster de AKS en la lista. Al expandir un nodo virtual de Container Instances, puede ver uno o varios pods y contenedores de Container Instances que se ejecutan en el nodo. No se recopilan ni notifican métricas para los nodos, solo para los pods.

En un nodo expandido, puede explorar en profundidad desde el pod o contenedor que se ejecuta en el nodo hasta el controlador para ver los datos de rendimiento filtrados por ese controlador. Seleccione el valor en la columna Controlador para el nodo específico.

Seleccione los controladores o los contenedores en la parte superior de la página para revisar el estado y el uso de recursos de dichos objetos. Para revisar el uso de memoria, en la lista desplegable Métrica , seleccione Memoria RSS o Conjunto de trabajo memoria. Memory RSS solo se admite para Kubernetes versión 1.8 y posteriores. De lo contrario, verá los valores de Min % como NaN %, que es un valor de tipo de datos numérico que representa un valor no definido o no representativo.

El conjunto de trabajo de memoria muestra tanto la memoria residente como la memoria virtual (caché) incluidas y es un total de lo que usa la aplicación. Memory RSS muestra solo la memoria principal, que no es más que la memoria residente. Esta métrica muestra la capacidad real de la memoria disponible. ¿Cuál es la diferencia entre la memoria residente y la memoria virtual?

La memoria residente o la memoria principal son la cantidad real de memoria de la máquina disponible para los nodos del clúster.
La memoria virtual se reserva el espacio en disco duro (caché) usado por el sistema operativo para intercambiar datos de memoria a disco cuando se encuentra bajo presión de memoria y, a continuación, recuperarlos en la memoria cuando sea necesario.

De forma predeterminada, los datos de rendimiento se basan en las últimas seis horas, pero puede cambiar la ventana mediante la opción TimeRange en la esquina superior izquierda. También puede filtrar los resultados dentro del intervalo de tiempo seleccionando Min, Avg, 50th, 90th, 95th y Max en el selector de percentil.

Al mantener el puntero sobre el gráfico de barras en la columna Tendencia , cada barra muestra el uso de CPU o memoria, en función de la métrica seleccionada, en un período de ejemplo de 15 minutos. Después de seleccionar el gráfico de tendencias con el teclado, use las teclas Alt + Re Pág o Alt + Av Pág para recorrer cada barra por separado. Obtendrá los mismos detalles que si moviera el puntero sobre la barra.

En el ejemplo siguiente, para el primer nodo de la lista, aks-nodepool1-, el valor de Containers es 25. Este valor es un resumen del número total de contenedores implementados.

Esta información puede ayudarle a identificar rápidamente si tiene el equilibrio adecuado de contenedores entre los nodos del clúster.

La información que se presenta al ver la pestaña Nodos se describe en la tabla siguiente.

Columna	Descripción
Nombre	El nombre del host.
Estado	Vista de Kubernetes del estado del nodo.
% mín., % prom., % 50.º, % 90.º, % 95.º, % máx.	Porcentaje medio de nodos basado en el percentil durante la duración seleccionada.
Mínimo, Promedio, 50.º, 90.º, 95.º, Máximo	Valor real de promedio de nodos basado en el percentil para la duración seleccionada. El valor promedio se mide a partir del límite de CPU o memoria establecido para un pod. En el caso de los pods y los contenedores, es el valor promedio indicado por el host.
Contenedores	Número de contenedores.
Tiempo de actividad	Representa la hora desde un nodo iniciado o que se reinició.
Controlador	Solo para los contenedores y pods. Muestra el controlador en el que reside. No todos los pods están en un controlador, por lo que algunos pueden mostrar N/A.
Tendencia % mín., % prom., % 50.º, % 90.º, % 95.º, % máx.	Tendencia de gráfico de barras que presenta el porcentaje de métricas de percentil promedio del controlador.

Es posible que observe una carga de trabajo después de expandir un nodo denominado Otro proceso. Representa procesos fuera de contenedores que se ejecutan en el nodo, e incluye:

Procesos de Kubernetes administrados o autoadministrados fuera de contenedor.
Procesos de ejecución en contenedor.
Kubelet.
Procesos del sistema que se ejecutan en el nodo.
Otras cargas de trabajo no de Kubernetes que se ejecutan en hardware de nodo o una VM.

Se calcula mediante el uso total de CAdvisor - y el uso del proceso contenedorizado.

En el selector, seleccione Controladores.

Aquí puede ver el estado de rendimiento de los controladores y a los controladores del nodo virtual de Container Instances o los pods de nodo virtual no conectados a un controlador.

$Captura de pantalla que muestra una vista de rendimiento de los controladores \<Name> .$

La jerarquía de filas comienza con un controlador. Al expandir un controlador, se pueden ver uno o varios pods. Expanda un pod, en la última fila se muestra el contenedor agrupado al pod. Desde un controlador expandido, puede explorar en profundidad el nodo en que se ejecuta para ver los datos de rendimiento filtrados por ese nodo. Los pods de Container Instances no conectados a un controlador se enumeran los últimos en la lista.

Seleccione el valor en la columna Node para el controlador específico.

La información que se muestra al ver los controladores se describe en la siguiente tabla.

Columna	Descripción
Nombre	El nombre del controlador.
Estado	Estado de acumulación de los contenedores cuando han terminado de ejecutarse con un estado, como Correcto, Finalizado, Erróneo, Detenido o En pausa. Si el contenedor se está ejecutando, pero el estado no se mostró correctamente o el agente no lo seleccionó, y no ha respondido durante más de 30 minutos, el estado es Desconocido. En la tabla siguiente se proporcionan detalles adicionales del icono de estado.
% mín., % prom., % 50.º, % 90.º, % 95.º, % máx.	Promedio resumen del porcentaje medio de cada entidad para la métrica y el percentil seleccionados.
Mínimo, Promedio, 50.º, 90.º, 95.º, Máximo	Resumen del rendimiento medio de memoria o CPU de millares de núcleos del contenedor para el percentil seleccionado. El valor medio se mide a partir del límite de CPU o memoria establecido para un pod.
Contenedores	Número total de contenedores para el controlador o pod.
Reinicios	Resumen del número de reinicios de los contenedores.
Tiempo de actividad	Representa el tiempo desde que se inició un contenedor.
Nodo	Solo para los contenedores y pods. Muestra el controlador en el que reside.
Tendencia % mín., % prom., % 50.º, % 90.º, % 95.º, % máx.	Tendencia de gráfico de barras que representa las métricas de percentil promedio del controlador.

Los iconos del campo de estado indican el estado en línea de los contenedores.

Icono	Estado
	Ejecución
	En pausa o en espera
	Se notificó por última vez como en ejecución, pero no ha respondido en más de 30 minutos
	Se detuvo correctamente o no se pudo detener

El icono de estado muestra un número en función de lo que proporciona el pod. Muestra los dos peores estados. Al desplazar el puntero sobre el estado, se muestra un estado de consolidación de todos los pods del contenedor. Si no hay un estado listo, el valor de estado muestra (0).

En el selector, seleccione Contenedores.

Aquí se puede ver el estado del rendimiento de los contenedores de AKS y Container Instances.

$Captura de pantalla que muestra una vista de rendimiento de los contenedores \<Name> .$

En un contenedor, puede explorar en profundidad un pod o un nodo para ver los datos de rendimiento filtrados por ese objeto. Seleccione el valor en la columna Pod o Node del contenedor específico.

La información que se muestra al ver los contenedores se describe en la siguiente tabla.

Columna	Descripción
Nombre	El nombre del controlador.
Estado	Estado de los contenedores, si lo hay. En la tabla siguiente se proporcionan detalles adicionales del icono de estado.
% mín., % prom., % 50.º, % 90.º, % 95.º, % máx.	El resumen del porcentaje medio de cada entidad para la métrica y el percentil seleccionados.
Mínimo, Promedio, 50.º, 90.º, 95.º, Máximo	Resumen del rendimiento medio de memoria o CPU de millares de núcleos del contenedor para el percentil seleccionado. El valor medio se mide a partir del límite de CPU o memoria establecido para un pod.
Pod	Contenedor en el que reside el pod.
Nodo	Nodo donde reside el contenedor.
Reinicios	Representa el tiempo desde que se inició un contenedor.
Tiempo de actividad	Representa el tiempo desde que se inicia o reinicia un contenedor.
Tendencia % mín., % prom., % 50.º, % 90.º, % 95.º, % máx.	Tendencia de gráfico de barras que representa el porcentaje de métricas de percentil promedio del contenedor.

Otros procesos

La entrada Otros procesos en la vista Nodo está pensada para ayudarle a comprender claramente la causa principal del uso elevado de recursos en el nodo. Esta información le ayuda a distinguir el uso entre los procesos en contenedores frente a los procesos fuera de contenedores. Estos son procesos no contenerizados que se ejecutan en el nodo e incluyen lo siguiente:

Procesos fuera de contenedores de Kubernetes administrados o autoadministrados.
Procesos de ejecución en contenedor.
Kubelet.
Procesos del sistema que se ejecutan en el nodo.
Otras cargas de trabajo no de Kubernetes que se ejecutan en hardware de nodo o una VM.

El valor de otros procesos es Total usage from CAdvisor - Usage from containerized process.

Estado

Los iconos en el campo de estado indican los estados en línea de los pods, tal como se describen en la tabla siguiente.

Icono	Estado

	En pausa o en espera
	Última notificación: en ejecución, pero no ha respondido en más de 30 minutos
	Se detuvo correctamente o no se pudo detener
	Estado de error

Supervisión y visualización de configuraciones de red

El Administrador de directivas de redes de Azure (Azure NPM) incluye métricas informativas de Prometheus que permiten supervisar y comprender mejor las configuraciones de red. Proporciona visualizaciones integradas en Azure Portal o en Grafana Labs. Para más información, consulte Supervisión y visualización de configuraciones de red con Azure npm.

Pasos siguientes

Vea Creación de alertas de rendimiento con Container Insights para aprender a crear alertas de alto uso de CPU y memoria y apoyar sus procesos operativos y de DevOps.
Consulte Ejemplos de consultas de registro para ver consultas y ejemplos predefinidos para evaluar o personalizar las alertas, visualizar o analizar los clústeres.
Consulte Supervisión del estado del clúster para obtener información sobre cómo ver el estado de mantenimiento del clúster de Kubernetes.