Problemas e investigaciones de Azure Monitor (versión preliminar)

2025-06-08

Los problemas y las investigaciones de Azure Monitor (versión preliminar) son nuevas funcionalidades de AIOps que automatizan los procesos de solución de problemas para las alertas de Azure Monitor.

En este artículo se explica qué son los problemas y las investigaciones de Azure Monitor (versión preliminar) y cómo se usan para evaluar y mitigar los problemas con un recurso de Azure.

Nota:

En el caso de la versión preliminar, la única alerta admitida es una alerta de recursos de Application Insights.

¿Qué es un problema?

Un problema es una vista holística de los problemas relacionados con el servicio que proporcionan un marco estructurado para administrar incidentes. Usa inteligencia artificial para procesos de diagnóstico y análisis automatizados para ofrecer información de alta calidad mediante todos los datos relacionados con la observabilidad para solucionar las degradaciones rápidas y precisas del estado del servicio.

Un problema presenta información general, la investigación, los detalles sobre las alertas y los recursos implicados.

Puede establecer la gravedad, el estado y el tiempo de impacto de un problema.

¿Qué es una investigación?

Una investigación es un análisis de un conjunto de conclusiones dentro del contexto de un problema. El análisis usa procesos de diagnóstico y evaluación de prioridades iterativos basados en IA. La investigación minimiza el esfuerzo manual para habilitar la solución de problemas más rápida y precisa.

Solo se muestra la investigación más reciente. Los usuarios pueden editar el ámbito y el tiempo de impacto y ejecutar una nueva investigación. Una investigación examina hasta dos horas de telemetría desde el tiempo de impacto del problema.

Resultados

Los hallazgos identifican un comportamiento anómalo que podría explicar un problema con un recurso de servicio. Resumen el análisis de varias anomalías (por ejemplo, "El rendimiento de la máquina virtual es bajo debido a una posible pérdida de memoria") en función de las señales pertinentes (métricas, registros, etc.) y podría sugerir pasos de investigación adicionales y posibles mitigaciones.

Un resultado contiene un resumen que puede incluir:

¿Qué pasó. Descripción del hallazgo con los recursos incluidos en la investigación.
Una posible explicación. Descripción de lo que podría estar causando problemas para la constatación específica y la evidencia relacionada.
Pasos siguientes. Sugerencias para continuar la investigación o mitigar los problemas.
Evidencia. La evidencia son los datos que justifican el hallazgo, como anomalías, perspectivas de diagnóstico, datos de salud, cambios de recursos, recursos relacionados y alertas relacionadas.

Nota:

Se muestran hasta cinco hallazgos y todas las demás anomalías se agrupan en datos adicionales.

Tipos de evidencia

Explicaciones de anomalías de métricas

Además de detectar anomalías, se crean explicaciones basadas en las dimensiones de métrica, por ejemplo, la región específica o el código de error de la anomalía.

Análisis de registros de aplicaciones

La investigación examina los registros de la aplicación para detectar anomalías. Se analizan los tres principales eventos de error (para las dependencias, las solicitudes y las excepciones). Para cada evento:

Explicación: Se genera una explicación de lo que ha ocurrido en relación al fallo.
Ejemplos de transacciones: lista de ejemplos de transacciones en las que existe el evento de error específico. Al seleccionar el ejemplo se muestra la transacción de un extremo a otro en Application Insights.
Excepciones: si hay identificadores de problema de excepción específicos que se correlacionan con el error, se mostrarán con el recuento de apariencias en los registros. Los identificadores de problema se explican en lenguaje natural y se proporciona un ejemplo.
Patrón de transacción: si hay un patrón de transacción específico, se muestra el error. Esta información puede ayudar a explicar el problema y mostrar la causa principal. Si hay varios patrones de transacción, no se muestra ningún patrón.
Patrones de Mensaje de Seguimiento: si hay patrones de mensajes de seguimiento específicos que se correlacionan con el error, se mostrarán con el recuento de apariciones en los registros. Los patrones se explican en lenguaje natural y se proporciona un ejemplo.

Información de diagnóstico

Proporciona soluciones accionables y diagnósticos basados en telemetría anómala de los procedimientos recomendados de soporte técnico de Azure, lo que mejora la eficacia de la resolución de problemas.

Contiene datos de alertas de alta gravedad relacionadas con el recurso afectado por el problema que ocurrieron en los últimos 15 minutos. Esas alertas se vuelven a sincronizar con el problema y aparecen en la pestaña Alertas.

Estado de los recursos

Proporciona datos de eventos de Azure Resource Health sobre la degradación del estado de los recursos en el período investigado.

Capacidades

Ámbito configurable

La investigación de Azure Monitor realiza sugerencias para qué recursos se van a analizar en función del ámbito de la investigación. El ámbito predeterminado de una investigación incluye todas las métricas del recurso. Puede cambiar el ámbito para incluir hasta cinco recursos. Consulte Ámbito de la investigación en Uso de problemas e investigación.

Ámbito inteligente

Una investigación también ofrece un alcance inteligente para los recursos de Application Insights. En este caso, los posibles recursos sospechosos se identifican automáticamente examinando las dependencias y la infraestructura donde se ejecuta el servicio, las incluye en el análisis. Esto sucede durante una investigación y los resultados se sincronizan con el problema.

Ejemplo de flujo de trabajo inicial de problema e investigación

Se recibe un correo electrónico de alerta de Azure Monitor.
Una selección en el botón Investigar del correo electrónico crea un problema e inicia una investigación. La página del problema de Azure Portal se abre en el explorador.
En la página Problema, se le presenta lo siguiente:
1. Información general sobre el problema en el que se presentan las conclusiones de la última investigación con evidencia resumida.
2. Cada hallazgo contiene el resumen del análisis de IA, las acciones sugeridas para realizar y la evidencia utilizada para el análisis.
Cada hallazgo de una investigación presenta más detalles sobre la posible causa y presenta los pasos siguientes entre los que elegir.

Regiones

Estas son las regiones de Azure admitidas para problemas y servicios de investigación:

Disponibilidad de la región de versión preliminar pública
australiaeast
centralus
eastasia
eastus
eastus2euap
uksouth
westeurope