Visualización de métricas de cómputo

En este artículo se explica cómo usar la herramienta nativa de métricas de proceso en la interfaz de usuario de Azure Databricks para recopilar métricas clave de hardware y Spark. La interfaz de usuario de métricas está disponible para todos los objetivos y cálculos de trabajos.

Métricas del clúster para las últimas 24 horas

Las métricas están disponibles casi en tiempo real con un retraso normal de menos de un minuto. Las métricas se almacenan en el almacenamiento administrado por Azure Databricks, no en el almacenamiento del cliente.

El proceso sin servidor para cuadernos y trabajos usa información de consulta en lugar de la interfaz de usuario de métricas. Para obtener más información sobre las métricas de proceso sin servidor, consulta Visualización de la información de consultas.

Acceso a la interfaz de usuario de métricas de cómputo

Para ver la interfaz de usuario de métricas de cálculo:

Haga clic en Calcular en la barra lateral.
Haga clic en el recurso de proceso para el que desea ver las métricas.
Haga clic en la pestaña Métricas.

Las métricas de hardware de todos los nodos se muestran de forma predeterminada. Para ver las métricas de Spark, haga clic en la lista desplegable Hardware y seleccione Spark. También puede seleccionar GPU si la instancia está habilitada para GPU.

Filtrar métricas por período de tiempo

Puede ver las métricas históricas seleccionando un intervalo de tiempo mediante el filtro de selección de fecha. Las métricas se recopilan cada minuto, por lo que puede filtrar por cualquier intervalo de día, hora o minuto de los últimos 30 días. Haga clic en el icono de calendario para seleccionar entre intervalos de datos predefinidos o haga clic dentro del cuadro de texto para definir valores personalizados.

Nota:

Los intervalos de tiempo que se muestran en los gráficos se ajustan en función del período de tiempo que esté viendo. La mayoría de las métricas son promedios en función del intervalo de tiempo que está viendo actualmente.

También puede obtener las últimas métricas haciendo clic en el botón Actualizar.

Visualización de métricas en el nivel de nodo

De forma predeterminada, la página de métricas muestra las métricas de todos los nodos de un clúster (incluido el controlador) promedio durante el período de tiempo.

Para ver las métricas de nodos individuales, haga clic en el menú desplegable Todos los nodos y seleccione el nodo para el que desea ver las métricas. Las métricas de GPU solo están disponibles en el nivel de nodo individual. Las métricas de Spark no están disponibles para nodos individuales.

Para ayudar a identificar los nodos atípicos del clúster, también puede ver las métricas de todos los nodos individuales de una sola página. Para acceder a esta vista, haga clic en el menú desplegable Todos los nodos y seleccione Por nodo y, a continuación, seleccione la subcategoría de métricas que desea ver.

Métricas de clúster por nodo durante las últimas 24 horas

Gráficos de métricas de hardware

Los siguientes gráficos de métricas de GPU están disponibles para verlos en la interfaz de usuario de métricas de proceso:

Uso de CPU y nodos activos: el gráfico de líneas muestra el número de nodos activos en cada marca de tiempo para el proceso determinado. El gráfico de barras muestra el porcentaje de tiempo empleado en cada modo, en función del costo total de segundos de CPU. A continuación se muestran los modos de seguimiento:
- guest: si está ejecutando máquinas virtuales, la CPU que usan esas máquinas virtuales.
- iowait: tiempo de espera de E/S
- idle: tiempo que la CPU no tenía nada que hacer
- irq: tiempo invertido en solicitudes de interrupción
- nice: tiempo utilizado por los procesos que tienen una agradableidad positiva, lo que significa una prioridad menor que otras tareas.
- softirq: tiempo invertido en solicitudes de interrupción de software
- steal: si es una máquina virtual, el tiempo que otras máquinas virtuales "tomaron" de sus CPU.
- system: el tiempo invertido en el kernel
- user: el tiempo invertido en el país del usuario
Uso de la memoria del contenedor: la memoria consumida por el contenedor de Spark se promedia en todos los nodos aplicables. Incluye los promedios de memoria no reclamable (Container memory used), la caché de páginas del archivo del sistema operativo (Container memory file cache) y el límite de memoria configurado (Container memory limit).
Uso del montón de JVM: el uso de memoria del montón de JVM, promediado en todos los nodos aplicables. Incluye los promedios del uso real del montón, la capacidad del montón y el límite máximo configurado del montón.
Red recibida y transmitida: el número de bytes recibidos y transmitidos a través de la red por cada dispositivo.
Espacio libre del sistema de archivos: el uso total del sistema de archivos por cada punto de montaje, medido en bytes.

Haga clic en Uso de memoria del nodo en la parte inferior de la pestaña Hardware para expandir el siguiente gráfico adicional:

Uso e intercambio de memoria: el gráfico de líneas muestra el uso total del intercambio de memoria por modo, medido en bytes. El gráfico de barras muestra el uso total de memoria por modo, que también se mide en bytes. Se realiza el seguimiento de los siguientes tipos de uso:
- used: memoria total a nivel del sistema operativo en uso, incluida la memoria utilizada por los procesos en segundo plano que se ejecutan en una unidad de computación. Dado que los procesos en segundo plano y el controlador usan memoria, el uso puede aparecer incluso cuando no se ejecutan trabajos de Spark.
- other: memoria en uso con fines distintos de used, buffero cached
- buffer: memoria utilizada por los búferes del núcleo
- cached: memoria usada por la memoria caché del sistema de archivos en el nivel de sistema operativo.
- free: memoria sin usar. Todo lo que no se atribuye a una de las categorías anteriores del gráfico es gratuito.

Gráficos de métricas de Spark

Los siguientes gráficos de métricas de Spark están disponibles para verlos en la interfaz de usuario de métricas de proceso:

Distribución de carga del servidor: estos iconos muestran el uso de la CPU en el último minuto para cada nodo del recurso de proceso. Cada mosaico es un vínculo clicable que lleva a la página de métricas del nodo específico.
Tareas activas: el número total de tareas que se ejecutan en un momento dado.
Total de tareas con error: el número total de tareas que han fallado en los ejecutores.
Total de tareas completadas: el número total de tareas que se han completado en ejecutores.
Número total de tareas: el número total de todas las tareas (en ejecución, con errores y completadas) en ejecutores.
Lectura aleatoria total: tamaño total de datos de lectura aleatoria, medidos en bytes. Shuffle read significa la suma de datos de lectura serializados en todos los ejecutores al principio de una fase.
Total de escritura aleatoria: Tamaño total de los datos de escritura aleatoria, medidos en bytes. Shuffle Write es la suma de todos los datos serializados escritos en todos los ejecutores antes de transmitirlos (normalmente al final de una fase).
Duración total de la tarea: tiempo total transcurrido que la JVM ha dedicado a ejecutar tareas en ejecutores, medida en segundos.

Gráficos de métricas de GPU

Nota:

Las métricas de GPU solo están disponibles en Databricks Runtime ML 13.3 y versiones posteriores.

Los siguientes gráficos de métricas de GPU están disponibles para verlos en la interfaz de usuario de métricas de proceso:

Distribución de carga del servidor: en este gráfico se muestra el uso de la CPU durante el último minuto para cada nodo.
Uso del descodificador por GPU: El porcentaje de utilización del descodificador de GPU.
Utilización del codificador por GPU: El porcentaje de utilización del codificador de GPU.
Uso de memoria del búfer de fotogramas por GPU (en bytes): el uso de memoria del búfer de fotogramas.
Utilización de memoria por GPU: El porcentaje de utilización de memoria de GPU.
Utilización por GPU: El porcentaje de utilización de GPU.

Solución de problemas

Si ve métricas incompletas o que faltan durante un período, podría ser uno de los siguientes problemas:

Una interrupción en el servicio Databricks responsable de consultar y almacenar métricas.
Problemas de red en el lado del cliente.
La capacidad de cómputo está o estaba en un estado no saludable.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-25