Recomendaciones para diseñar una estrategia de supervisión y alertas confiable

Se aplica a esta recomendación de lista de comprobación de confiabilidad de Azure Well-Architected Framework:

RE:10 Mida y publique los indicadores de estado de la solución. Capture continuamente el tiempo de actividad y otros datos de confiabilidad de toda la carga de trabajo y también de componentes individuales y flujos clave.

En esta guía se describen las recomendaciones para diseñar una estrategia confiable de supervisión y alertas. Implemente esta estrategia para mantener a los equipos de operaciones informados del estado de mantenimiento del entorno y asegurarse de que cumple los objetivos de confiabilidad establecidos para la carga de trabajo.

Definiciones

Término Definición
Métricas Valores numéricos recopilados a intervalos regulares. Las métricas describen algunos aspectos de un sistema en un momento determinado.
Registros del recurso Datos que genera un sistema. Proporciona información sobre el estado del sistema.
Traces Datos que proporcionan información sobre la ruta de acceso que una solicitud viaja a través de servicios y componentes.

Estrategias de diseño principales

Antes de crear una estrategia de supervisión y alertas, realice las siguientes tareas para la carga de trabajo como parte del planeamiento de confiabilidad:

Cree una estrategia de supervisión y alertas para asegurarse de que la carga de trabajo funciona de forma confiable. Una estrategia de supervisión y alertas proporciona conocimiento a los equipos de operaciones para que se les notifiquen los cambios en la condición de la carga de trabajo y puedan solucionar rápidamente los problemas. Cree una estrategia de supervisión sólida y confiable mediante la creación de un modelo de mantenimiento para los flujos críticos y los componentes que componen estos flujos críticos. El modelo de mantenimiento define los estados correctos, degradados y incorrectos. Diseñe la posición operativa para detectar inmediatamente los cambios en estos estados. Cuando los estados de mantenimiento cambian de correcto a degradado o incorrecto, los mecanismos de alerta desencadenan las medidas correctivas automáticas y notifican a los equipos adecuados.

Implemente las siguientes recomendaciones para diseñar una estrategia de supervisión y alertas que cumpla los requisitos de su negocio.

Instrucciones generales

  • Comprenda la diferencia entre las métricas, los registros y los seguimientos.

  • Habilite el registro para todos los recursos en la nube. Use la automatización y la gobernanza en las implementaciones para habilitar el registro de diagnóstico en todo el entorno.

  • Reenvíe todos los registros de diagnóstico a una plataforma centralizada de análisis y receptor de datos, como un área de trabajo de Log Analytics. Si tiene requisitos de soberanía de datos regionales, debe usar receptores de datos locales en las regiones que están sujetas a esos requisitos.

Equilibrio: hay implicaciones de costos para almacenar y consultar registros. Observe cómo el análisis y la retención de registros afectan al presupuesto y determine el mejor equilibrio de uso para satisfacer sus requisitos. Para obtener más información, consulte Procedimientos recomendados para la optimización de costos.

  • Si las cargas de trabajo están sujetas a uno o varios marcos de cumplimiento, algunos de los registros de componentes que controlan la información confidencial también están sujetos a esos marcos. Envíe los registros de componentes pertinentes a un sistema de administración de eventos e información de seguridad (SIEM), como Microsoft Sentinel.

  • Cree una directiva de retención de registros que incorpore los requisitos de retención a largo plazo que los marcos de cumplimiento imponen a la carga de trabajo.

  • Use el registro estructurado para todos los mensajes de registro para optimizar la consulta de los datos de registro.

  • Configure alertas para que se desencadenen cuando los valores superen umbrales críticos que se correlacionan con un cambio de estado del modelo de mantenimiento, como verde a amarillo o rojo.

    La configuración de umbral es una práctica de mejora continua. A medida que evoluciona la carga de trabajo, los umbrales que defina pueden cambiar. En algunos casos, los umbrales dinámicos son una buena opción para la estrategia de supervisión.

  • Considere la posibilidad de usar alertas cuando los estados mejoran, como rojo a amarillo o rojo a verde, para que los equipos de operaciones puedan realizar un seguimiento de estos eventos para futuras referencias.

  • Visualice el estado en tiempo real de su entorno.

  • Use los datos recopilados durante los incidentes para mejorar continuamente los modelos de mantenimiento y la estrategia de supervisión y alertas.

  • Incorpore los servicios de supervisión y alertas de la plataforma en la nube, entre los que se incluyen:

  • Incorpore la supervisión y el análisis avanzados creados específicamente que ofrece el proveedor de nube, como las herramientas de información de Azure Monitor.

  • Implemente la supervisión de copia de seguridad y recuperación para capturar:

    • Estado de replicación de datos para asegurarse de que la carga de trabajo logra la recuperación dentro del objetivo de punto de recuperación (RPO) de destino.

    • Copias de seguridad y recuperaciones correctas y con errores.

    • Duración de la recuperación para informar al planeamiento de la recuperación ante desastres.

Supervisión de aplicaciones

  • Cree sondeos de estado o compruebe las funciones y ejecútelas periódicamente desde fuera de la aplicación. Asegúrese de probar desde varias ubicaciones que estén geográficamente cerca de los clientes.

  • Registrar datos mientras la aplicación se ejecuta en el entorno de producción. Necesita información suficiente para diagnosticar la causa de problemas en el estado de producción.

  • Registre eventos en los límites del servicio. Incluya un identificador de correlación que traspase los límites del servicio. Si una transacción fluye a través de varios servicios y se produce un error en uno de ellos, el identificador de correlación le ayuda a realizar un seguimiento de las solicitudes en la aplicación y a identificar por qué se produjo un error en la transacción.

  • Usar llamadas asincrónicas. A veces, las operaciones de registro sincrónicas bloquean el código de la aplicación, lo que hace que las solicitudes se realicen copias de seguridad a medida que se escriben los registros. Use el registro asincrónico para conservar la disponibilidad durante el registro de la aplicación.

  • Separe el registro de aplicaciones de la auditoría. Los registros de auditoría se mantienen normalmente debido a requisitos normativos o de cumplimiento y deben estar completos. Para evitar transacciones eliminadas, mantenga los registros de auditoría separados de los registros de diagnóstico.

  • Use la correlación de telemetría para asegurarse de que puede asignar transacciones a través de la aplicación de un extremo a otro y los flujos críticos del sistema. Este proceso es fundamental para realizar el análisis de la causa principal (RCA) en busca de errores. Recopile métricas y registros de nivel de plataforma, como porcentaje de CPU, red dentro, salida de red y operaciones de disco por segundo, desde la aplicación para informar a un modelo de estado y para detectar y predecir problemas. Este enfoque puede ayudar a distinguir entre errores transitorios y no transitorios.

  • Use la supervisión de caja blanca para instrumentar la aplicación con métricas y registros semánticos. Recopile métricas y registros de nivel de aplicación, como el consumo de memoria o la latencia de solicitudes, de la aplicación para informar a un modelo de mantenimiento y detectar y predecir problemas.

  • Use la supervisión de caja negra para medir los servicios de plataforma y la experiencia del cliente resultante. La supervisión de caja negra prueba el comportamiento de las aplicaciones externamente visible sin conocimientos del interior del sistema. Este enfoque es común para medir los indicadores de nivel de servicio (SLA) centrados en el cliente, los objetivos de nivel de servicio (SLO) y los acuerdos de nivel de servicio (SLA).

Nota

Para obtener más información sobre la supervisión de aplicaciones, consulte Patrón de supervisión de puntos de conexión de mantenimiento.

Supervisión de datos y almacenamiento

  • Supervise las métricas de disponibilidad de los contenedores de almacenamiento. Cuando esta métrica cae por debajo del 100 por ciento, indica errores de escritura. Las caídas transitorias de disponibilidad pueden producirse cuando el proveedor de nube administra la carga. Realice un seguimiento de las tendencias de disponibilidad para determinar si hay un problema con la carga de trabajo.

    En algunos casos, una disminución de las métricas de disponibilidad de un contenedor de almacenamiento indica un cuello de botella en la capa de proceso asociada al contenedor de almacenamiento.

  • Hay muchas métricas para supervisar las bases de datos. En el contexto de confiabilidad, las métricas importantes para supervisar incluyen:

    • Duración de la consulta

    • Tiempos de expiración

    • Tiempos de espera

    • Presión de memoria

    • Bloqueos

Facilitación de Azure

  • Azure Monitor es una solución de supervisión completa que se usa para recopilar, analizar y responder a los datos de supervisión de los entornos locales y en la nube.

  • Log Analytics es una herramienta de la Azure Portal que se usa para editar y ejecutar consultas de registro en los datos del área de trabajo de Log Analytics.

  • Application Insights es una extensión de Azure Monitor. Proporciona características de supervisión del rendimiento de aplicaciones (APM).

  • Azure Monitor Insights son herramientas de análisis avanzadas que ayudan a supervisar servicios de Azure, como máquinas virtuales, servicios de aplicaciones y contenedores. Insights se basa en Azure Monitor y Log Analytics.

  • Azure Monitor para soluciones de SAP es un producto de supervisión nativo de Azure para entornos de SAP que se ejecutan en la plataforma.

  • Azure Policy ayuda a aplicar los estándares de la organización y a evaluar el cumplimiento a gran escala.

  • Centro de continuidad de Azure empresarial proporciona información sobre su patrimonio de continuidad empresarial. A medida que aplique los enfoques proporcionados para la continuidad empresarial y la recuperación ante desastres (BCDR), use Centro de continuidad de Azure empresarial para centralizar la administración de la protección de continuidad empresarial en azure y cargas de trabajo híbridas. Centro de continuidad de Azure empresarial identifica los recursos que carecen de protección adecuada (a través de la copia de seguridad o la recuperación ante desastres) y realiza acciones correctivas. La herramienta facilita la supervisión unificada y le permite establecer el cumplimiento de gobernanza y auditoría a través de Azure Policy, todo lo que es convenientemente accesible en una ubicación.

  • Para conocer los procedimientos recomendados de varias áreas de trabajo, consulte Diseño de una arquitectura de área de trabajo de Log Analytics.

Ejemplo

Para obtener ejemplos de soluciones de supervisión reales, consulte Supervisión de aplicaciones web en Azure y arquitectura de línea base para un clúster de Azure Kubernetes Service.

  • Alertas de línea base de Azure Monitor (AMBA) es un repositorio central de definiciones de alertas que los clientes y asociados pueden usar para mejorar su experiencia de observabilidad a través de la adopción de Azure Monitor.

Lista de comprobación de confiabilidad

Consulte el conjunto completo de recomendaciones.