Descripción de la correlación de alertas

Última modificación del tema: 2015-03-09

La parte fundamental del Módulo de administración de supervisión de Microsoft Exchange Server 2010 es el motor de correlación. El motor de correlación se desarrolló para reducir considerablemente el número de alertas generadas por el paquete de administración.

En el paquete de administración de Exchange 2007, las alertas siempre se generaban cuando se cambiaba el estado de una supervisión de verde a rojo. Este tipo de alerta se desactiva en el paquete de administración de Exchange Server 2010. En su lugar, el motor de correlación administra las alertas. Procesa los datos de las supervisiones del paquete de administración y determina si es necesario enviar una alerta. El motor de correlación ayuda al administrador que esté supervisando el entorno de Exchange a centrarse solamente en las alertas que puedan requerir una acción.

Arquitectura

El motor de correlación es un servicio de Windows independiente que utiliza la interfaz del kit de desarrollo de software (SDK) de Operations Manager para recuperar en primer lugar el modelo de mantenimiento (o espacio de instancia) y procesar después los eventos de cambio de estado. Al guardar el modelo de mantenimiento en la memoria y procesar los eventos de cambio de estado, el motor de correlación es capaz de determinar el momento de generar una alerta basada en el estado del sistema.

Motor de correlación

En este diagrama se muestra que, en respuesta a un problema, varias supervisiones cambian el estado y el agente reenvía los eventos de cambio de estado correspondientes al equipo del Servidor de administración raíz (RMS). Una vez que el RMS los recibe, el motor de correlación procesa estos eventos, lo que puede generar una alerta a través de la interfaz del kit de desarrollo de software (SDK) del Servidor de administración raíz. Esta alerta puede verse luego en la consola de Operations Manager.

Clasificación de alertas

Las alertas del Módulo de administración de supervisión de Exchange Server 2010 se clasifican en una de tres categorías. Utilice las siguientes directrices para comprender estas clasificaciones de alertas.

  • Indicador clave de mantenimiento (KHI)   Los KHI son problemas que afectan al mantenimiento del servicio. La mayoría de las alertas cae dentro de esta categoría (por ejemplo, "Una base de datos de buzones está desmontada.")

  • Sin impacto en el servicio (NSI)   Los monitores de NSI detectan problemas que pueden afectar a algunos usuarios, pero no a todos los usuarios del sistema. Un buen ejemplo de una situación NSI es cuando hay dos usuarios con la misma dirección del proxy (el correo a esta dirección será devuelto como que no se ha podido entregar, pero el sistema de transporte general no se verá afectado).

  • Forenses   Los monitores forenses sirven para registrar información que puede ser relevante mientras se soluciona un problema, pero no indican necesariamente un error de sistema existente o importante. "Actividad de CPU >90% durante 5 minutos" es un ejemplo de problema forense. Puede que haya un proceso que esté consumiendo ciclos de CPU de forma inadecuada o que el servidor se haya reiniciado y ahora esté recuperando la actividad normal del sistema. Estos monitores pueden verse en el campo Contexto de alerta de las propiedades de alerta del Explorador de mantenimiento. No se generan alertas para monitores forenses.

Nota

El estado no se actualiza cuando se genera una única alerta de monitor forense. Sin embargo, el estado puede actualizarse basándose en la inclusión de alertas de monitores forenses actuales para cada componente.

Gravedad de alerta

Las alertas del Módulo de administración de supervisión de Exchange Server 2010 también se clasifican según la gravedad de las alertas, de la siguiente manera:

  • Alertas de error   Las alertas de error indican un problema grave que requiere atención inmediata.

  • Alertas de advertencia   Las alertas de advertencia indican una condición que podría causar problemas en el futuro.

  • Alertas informativas El módulo de administración de Exchange 2010 no genera alertas informativas.

Factores de correlación

Las acciones llevadas a cabo por el motor de correlación se basan en diversos factores, como:

Supervisar eventos de cambio de estado   Las supervisiones recopilan información de diagnóstico del entorno de Exchange de orígenes como mensajes del registro de eventos, umbrales de contadores de rendimiento y eventos de resultados de tareas de PowerShell. Registran eventos de cambio de estado cuando detectan que se ha producido o solucionado un problema (es decir, que ha pasado de rojo a verde o viceversa). Asimismo, registran cambios de estado cuando no se puede contactar con un servidor de Exchange o cuando un servidor de Exchange pasa a estar disponible. Por último, las supervisiones registran cambios de estado cuando se activa o desactiva el modo de mantenimiento de un servidor de Exchange. En el paquete de administración de Exchange 2007, las alertas se generaban cuando se cambiaba el estado de una supervisión de verde a rojo. En el paquete de administración de Exchange 2010, las alertas no se generan automáticamente por cambios de estado de una supervisión. El motor de correlación determina si se debe generar una alerta. El paquete de administración de Exchange 2010 incluye una regla de alerta para cada supervisión. Esto permite al personal de supervisión usar la Consola del operador para obtener acceso a las propiedades de cada supervisión en el paquete de administración. Pueden introducir notas específicas de la empresa para una determinada supervisión en el campo Knowledge Base de la compañía aunque la supervisión no genere alertas por sí sola.

Modelo de mantenimiento   La jerarquía de clases importada a Operations Manager por el paquete de administración de Exchange 2010 incluye relaciones de clases que definen las dependencias de componentes en el sistema. La definición de estas dependencias ayuda al paquete de administración de Exchange 2010 a entender el mantenimiento de la organización de Exchange. Por ejemplo, si el paquete de administración de Exchange 2010 identifica que Active Directory está sin conexión, también informará de que la mensajería de Exchange no está totalmente operativa.

Intervalos El motor de correlación funciona a intervalos de 90 segundos. Cuando se producen eventos de cambio de estado para varias supervisiones a la vez, el motor de correlación espera a ver si se detecta alguna otra cosa potencialmente relacionada con el error para determinar la causa raíz con la mayor efectividad posible.

Algoritmo de correlación

Introducción al proceso del motor de correlación

  1. El motor de correlación conecta con el servicio del SDK de Operations Manager para descargar la jerarquía del modelo de mantenimiento y el estado de instancia. Esto solo se produce al iniciar el servicio, o bien si los errores lo precisan.

  2. El motor de correlación consulta a Operations Manager los últimos eventos de cambio de estado relacionados con las entidades del paquete de administración de Exchange.

  3. Si se detectan nuevos cambios de estado que no afectan al servicio, el motor de correlación genera las alertas correspondientes.

  4. A continuación, aísla los datos para todas las supervisiones de indicador clave de mantenimiento que se encuentra en el estado rojo. Organiza los datos en grupos lógicos que muestran cada proceso en relación con aquellos de los que depende y los que dependen de él. Estos grupos se conocen como "cadenas de indicador clave de mantenimiento". Cada cadena indica dónde se ha producido el error en una dependencia y por qué está afectando a uno o más procesos dependientes.

  5. El motor de correlación genera una alerta para cada cadena de indicador clave de mantenimiento. Cada alerta generada por el motor de correlación identifica la causa raíz de cada problema.

  6. El motor de correlación espera noventa segundos y empieza de nuevo desde el segundo paso.

Información adicional sobre el proceso del motor de correlación

  • Si la "cadena" de los indicadores clave de mantenimiento incluye supervisiones de error y de advertencia, la alerta se genera como un error, independientemente de la clase de la supervisión de la causa raíz. Por ejemplo, si un proceso de nivel superior define una supervisión de error para que capte casos de error, y si está correlacionada con una supervisión de advertencia en una dependencia, se generará la alerta para la dependencia, pero se marcará como un error en lugar de una advertencia.

  • No todas las relaciones de clase se utilizan para la correlación de alertas. Consulte el Apéndice: Jerarquía de clases que aparece más adelante en esta guía para ver las relaciones específicas que utiliza el motor de correlación.

  • La cadena de indicador clave de mantenimiento, incluidas las supervisiones forenses, se incluye en el campo Contexto de alerta, que está disponible en las propiedades de la alerta final. De este modo, el administrador puede revisar las supervisiones que estén correlacionadas con una determinada alerta. Las alertas generadas desde supervisiones de dependencia deben ser revisadas para determinar el error específico al que hace referencia la alerta.

¿Qué se ve afectado por la correlación de alertas y qué no?

Es importante entender a qué aspectos afecta el motor de correlación.

La funcionalidad siguiente es distinta en el paquete de administración de Exchange 2010 debido a la incorporación del motor de correlación:

  • Las supervisiones no generarán alertas automáticamente cuando se produzcan eventos de cambio de estado. De esta forma, el motor de correlación puede determinar cuál es la mejor alerta que generar.

  • El paquete de administración de Exchange 2010 no genera alertas relacionadas con el mantenimiento del entorno de Exchange cuando se detiene el motor de correlación. Si se detiene el motor de correlación, se envía una alerta general para notificarle que el motor de correlación no está en ejecución.

La siguiente funcionalidad no se ve afectada por la incorporación del motor de correlación:

  • Las invalidaciones siguen funcionando de la forma esperada. Puede cambiar determinados valores o deshabilitar las supervisiones como prefiera.

  • El motor de correlación omite las supervisiones y los objetos que están en el modo de mantenimiento. No es preciso hacer nada especial, ya que los monitores no generan eventos de cambio de estado.

  • Ningún otro paquete de administración no se ve afectado por la presencia del motor de correlación.

Notas de funcionamiento

El motor de correlación debe conservar en la memoria el espacio de instancia del grupo de administración para determinar supervisiones y alertas relacionadas. Por tanto, cuantas más bases de datos y servidores de Exchange tenga, más memoria requerirá el motor de correlación.

El motor de correlación requiere aproximadamente 5 megabytes de memoria por servidor de Exchange supervisado. Hay factores que pueden aumentar o reducir este número, pero constituye un buen punto de partida para conocer el impacto de los recursos sobre el servidor que hospeda el servicio.

Restablecimiento automático de supervisiones de evento en el paquete de administración de Exchange 2010

En el paquete de administración de Exchange 2010, la mayoría de supervisiones de evento se restablecen automáticamente mediante el motor de correlación. El restablecimiento automático se ha incorporado a dichas supervisiones para que no se omitan problemas la próxima vez que se produzcan. En la siguiente tabla se enumeran las supervisiones de evento que no se restablecen automáticamente.

Nombre de la supervisión

Se ha producido un error mientras el agente de registro en diario cargaba la información de configuración.

Un error está causando que un mensaje permanezca en la cola de entrega.

La configuración del servicio Detección automática no es segura. Para solucionar este problema, deshabilite el acceso anónimo al directorio virtual de Detección automática.

Exchange no pudo crear el directorio del archivo de registro. Los archivos de registro no se generarán mientras no se haya corregido la razón del error. El componente de origen y la causa del error se especifican en la descripción del evento.

Exchange no pudo crear un archivo de registro. Los archivos de registro no se generarán mientras no se haya corregido la razón del error. El componente de origen y la causa del error se especifican en la descripción del evento.

Se encontraron archivos de solo lectura en el directorio de recogida.

El servicio de transporte de Microsoft Exchange ha detectado un error de almacenamiento grave y ha llevado a cabo una acción de recuperación automática moviendo la base de datos.

Servicio de distribución de archivos: Error al leer el descriptor de seguridad de Active Directory para la libreta de direcciones sin conexión.

Advertencia ExBPA.

Error ExBPA.

No se puede mover el buzón.

La biblioteca DLL de DsProxy es necesaria, pero no se puede cargar.

No se pudieron inicializar los contadores de rendimiento para el proxy NSPI.

El índice está dañado en la copia de la base de datos local. Reinicialice el catálogo usando el cmdlet Update-MailboxDatabaseCopy con el parámetro -CatalogOnly.

No se pudieron cargar los contadores de rendimiento para el servicio de envío de correo de Microsoft Exchange. El objeto de rendimiento relacionado se denomina MSExchangeMailSubmission.

El servidor de topología local no pertenece a ningún sitio de Active Directory.

El servicio de envío de correo de Microsoft ha encontrado una excepción al intentar cargar la información de topología de red.

La detección de topologías de Exchange no pudo encontrar el servidor local de Exchange en Active Directory.

Un error está causando que un mensaje permanezca en la cola de envío.

La copia de una base de datos detectó un error grave de vaciado que puede haber afectado a todas las copias de la base de datos.

La copia de una base de datos activa detectó un error grave de vaciado que puede haber afectado a todas las copias de la base de datos.

La copia de una base de datos local detectó un error grave de vaciado que puede haber afectado a todas las copias de la base de datos.

El motor de base de datos ha consumido el 99 % de los recursos de "árboles b" (87 048 usados de un máximo de 87 696) para la base de datos.

No se pudieron quitar los archivos de reinicialización incremental de una copia de la base de datos.

No se pudieron quitar los archivos de replicación continua de una copia de la base de datos.

El proceso de restauración de una página empezó con la corrección de un error de una copia de la base de datos.

El proceso de restauración de una página corrigió con éxito un error de una copia de la base de datos.

Error al quitar un archivo de registro de la base de datos. El archivo está en uso o el servicio no tiene permisos suficientes.

El valor de intervalo de correlación especificado es menor que el valor mínimo permitido.

El valor de la ventana de tiempo de correlación especificado es menor que el valor mínimo permitido.