Compartir vía


Recopilación de los datos de supervisión adecuados

Observar el estado y la disponibilidad de la solución en la nube ayuda a comprender las señales que espera en los sistemas para que pueda determinar qué datos debe recopilar.

Este artículo forma parte de una serie en la guía de supervisión en la nube.

Consideraciones sobre la recopilación de datos

Formule estas preguntas para establecer criterios para una configuración de supervisión:

  • Composición del servicio: ¿Cuál es la composición de los servicios? ¿Se supervisan las dependencias actualmente? Si es así, ¿hay varias herramientas implicadas y existe la oportunidad de consolidar sin introducir riesgos adicionales?

  • Defina los estados de error predecibles: estas señales son los síntomas del error, no la causa. Las herramientas de supervisión usan métricas y registros para los diagnósticos avanzados y análisis de la causa principal.

  • Acuerdo de Nivel de Servicio: ¿Cuál es el Acuerdo de Nivel de Servicio (SLA) del servicio y cómo se medirá y notificará?

  • Diseño del panel de servicio: ¿Qué aspecto debe tener el panel de servicio al revisar incidentes? ¿Qué aspecto debería tener el panel cuando el propietario del servicio y el equipo que respalda el servicio lo vean?

  • Métricas de recursos: ¿Qué métricas de recursos genera la solución que necesita supervisar?

  • Búsqueda de registros: ¿Cómo realizarán búsquedas en los registros el propietario del servicio, los equipos de soporte técnico y personal adicional?

  • Participación de las partes interesadas: incluya al propietario del servicio de supervisión, al administrador de operaciones de TI y a otras partes interesadas durante la fase de planeación. Continúe con ellos a lo largo de los ciclos de desarrollo y lanzamiento de las soluciones de supervisión.

  • Información confidencial: ¿qué datos confidenciales debo evitar recopilar para las aplicaciones que no quiero exponer a mis operadores?

El modo en que se responda a esas preguntas, y los criterios de alerta, determinarán cómo se usará la plataforma de supervisión.

Evaluación de las señales de supervisión necesarias

Tanto si va a implementar nuevas cargas de trabajo con una nueva solución de supervisión, como si va a migrar desde una plataforma de supervisión existente o desde un conjunto de herramientas de supervisión, es esencial evaluar las señales de supervisión necesarias. Diseñar cuidadosamente las señales necesarias ayudan a impulsar los resultados esperados y reduce el ruido.

Tenga en cuenta lo siguiente.

  • Procesable: recuerde que los datos de supervisión deben ser procesables para reducir el ruido y los falsos positivos.
  • Optimizado: optimice los datos recopilados para ofrecerle una vista holística del estado general del servicio.
  • Instrumentación de incidentes: la instrumentación que está definida para identificar incidentes reales debe ser tan sencilla, predecible y confiable como sea posible.

Desarrollo de una configuración de supervisión

Normalmente, el propietario de un servicio de supervisión y su equipo cumplen un conjunto estándar de actividades para crear una configuración de supervisión. Estas actividades comprenden las fases de planeación, las pruebas y la validación en un entorno que no es de producción y la implementación en producción.

Para desarrollar configuraciones de supervisión, el equipo se basa en los modos de error conocidos, los resultados de las pruebas de los errores simulados y la experiencia de varios usuarios de la organización, como el departamento de servicio, el personal de operaciones, los ingenieros y los desarrolladores.

Estas configuraciones están diseñadas bajo la suposición de que el servicio ya existe, está realizando la migración a la nube y no se ha reestructurado. Para garantizar que se logren resultados de calidad de nivel de servicio, es esencial supervisar el estado y la disponibilidad de estos servicios al principio del proceso de desarrollo. Si la supervisión del diseño del servicio o la aplicación solo se considera una idea posterior, es probable que los resultados sean menos correctos.

Para impulsar una resolución más rápida del incidente, tenga en cuenta las siguientes recomendaciones:

  • Paneles de componentes individuales: defina un panel para cada componente de servicio para ayudar a identificar rápidamente los problemas conocidos en cualquier área determinada de las aplicaciones y la infraestructura.

  • Usar métricas: utilice las señales de métricas integradas en los distintos componentes para ayudar a diagnosticar e identificar soluciones o soluciones alternativas si no puede identificar una causa principal.

  • Habilitar las personalizaciones de panel: diseñe los paneles para que pueda explorar en profundidad fácilmente los datos de los paneles de supervisión. Asegúrese de que admite la personalización dinámica de las vistas, lo que permite un filtrado sencillo y la solución de problemas.

La adopción de este conjunto de principios puede ayudarle a obtener información casi en tiempo real y una mejor administración del servicio.

Pasos siguientes