Observabilidad en la supervisión en la nube
Este artículo forma parte de una serie en la guía de supervisión en la nube.
Las siguientes secciones tienen por objeto impulsar la madurez operativa mediante la observación y la iteración constante para mejorar la forma en que supervisa sus servicios. Obtenga información sobre cómo las organizaciones implementan una estrategia de supervisión coherente más rápido mediante el establecimiento de observabilidad para cada solución de supervisión.
Definición de la observabilidad
Aunque la observabilidad y la supervisión se complementan entre sí, hay una distinción notable:
- Supervisión: recopila información e informa de que detectó un problema en función de su configuración para supervisar esas condiciones. Está supervisando errores conocidos o predecibles.
- Observabilidad: capacidad de comprender lo que sucede dentro de un sistema examinando los datos de salida. Una solución de observabilidad le ayuda a analizar estos datos para evaluar el estado del sistema y encontrar formas de solucionar problemas en la infraestructura de TI.
La observabilidad impulsa primero al consumidor de supervisión a comprender lo que se considera el funcionamiento normal de un servicio. En otras palabras, busca una visibilidad total lo antes posible.
Una vez que se logra la observabilidad inicial, puede basarse en ese nivel inicial de visibilidad para desarrollar alertas accionables, crear paneles útiles y evaluar soluciones de AIOps. Esta información le permite familiarizarse con la métrica subyacente y los datos de supervisión de registro.
Nota
Este es el enfoque opuesto al que se utilizaba en el pasado, cuando los equipos trabajaban para definir todos los requisitos de supervisión primero en papel, antes de la compilación, la prueba y la implementación.
Tanto si el plan de supervisión tiene como destino una aplicación, la infraestructura en la nube o la plataforma de Azure, el primer paso es establecer la observabilidad.
Este enfoque también simplifica los planes. En todos los casos, la visibilidad total significa lograr y mantener la visibilidad suficiente en tres dimensiones o aspectos:
- Supervisión en profundidad: recopilar señales significativas y relevantes.
- Supervisión de un extremo a otro o de la amplitud: desde la capa más baja de la pila hasta la aplicación.
- Supervisión en el modelo de mantenimiento: centrada en aspectos de mantenimiento, como la disponibilidad, el rendimiento, la seguridad y la continuidad.
La observabilidad es más que un enfoque para los equipos de TI. Un objetivo esencial es garantizar que los usuarios finales puedan usar los sistemas y que se cumplan los Objetivos de nivel de servicio (SLO).
Soluciones de supervisión y observabilidad
La supervisión de la infraestructura y de las aplicaciones puede ser complicada. La transformación empresarial aplica la tecnología para lograr y ayudar a dar forma a sus estrategias. Asimismo, la nube ha influido aún más en la naturaleza complicada de la supervisión.
Esto último se muestra en de las formas siguientes:
- Cambio de transformación digital: los esfuerzos de transformación digital de las empresas cambian hacia la hiperexplotación de la tecnología en la nube.
- Supervisión integrada: la supervisión se integra en los recursos y grupos de recursos de Azure frente a las herramientas independientes que administra de forma local.
- Supervisión expansiva Las arquitecturas de supervisión nativas de la nube como Azure Monitor son similares a las herramientas de administración de eventos e incidentes de seguridad (SIEM). Azure Monitor es expansivo, controlado por registros y órdenes de magnitud más flexibles que las herramientas locales tradicionales.
Los arquitectos, al igual que los operadores, deben comprender qué información de diagnóstico emite una aplicación o un componente de la infraestructura de TI.
La combinación de flujos de registros multivariantes, dinámicos, de serie temporal, con eventos, con estado y de telemetría, y su conversión en inteligencia valiosa, depende de lo siguiente:
- Conocimiento del equipo: El conocimiento y la experiencia del desarrollador o ingeniero de sistemas, que tiene un conocimiento profundo del objetivo de supervisión.
- Experiencia de la solución de problemas: La experiencia de soporte técnico y la solución de problemas mediante el uso de datos, para encontrar o localizar las causas de los problemas.
- Aprendizaje del historial: revise los incidentes pasados para encontrar razones que no son tecnológicas que se pueden corregir automáticamente más adelante.
- Documentación: Las instrucciones en forma de documentación, software, entrenamiento o consultoría por parte del proveedor de software o hardware.
Microsoft y sus asociados proporcionan módulos de administración para System Center Operations Manager. Los módulos de administración son específicos de la tecnología; por ejemplo, si importa un módulo de administración de SQL, Operations Manager detecta y apunta automáticamente a los servidores que alojan SQL Server y comienza a supervisarlos. Aquí, la observabilidad es más o menos predefinida. Operations Manager está diseñado principalmente para la infraestructura local, que tiende a ser fijo en componentes y modelos de diseño arquitectónico en relación con los servicios en la nube.
En la nube, dispone de una enorme flexibilidad en el tipo de servicios que puede elegir. La supervisión incluye la manera en que los servicios cambian con el tiempo, y pueden ser dinámicos, globales y resistentes. Con Azure Monitor, puede aprovechar las ventajas de los libros existentes que se incluyen en Azure Monitor Insights y que proporcionan una funcionalidad similar a la de un módulo de administración en Operations Manager.
El arte de fijarse en los detalles
La observabilidad se basa en qué y cómo se supervisa algo.
En Azure, existen múltiples orígenes de datos de supervisión, cada una de las cuales ofrece una perspectiva diferente de cómo se comporta algo. Azure incluye varias herramientas para ayudar a analizar los distintos aspectos de estos datos.
Observación de la plataforma
Asimismo, Microsoft proporciona la perspectiva del proveedor de servicios a través de diferentes registros de plataforma.
Los servicios en Azure pueden cambiar de formas diferentes e impredecibles a lo largo del tiempo. Nos referimos a este comportamiento como dinámico. Los administradores de servicios en la nube que observan el servicio a lo largo del tiempo también deben tener en cuenta lo siguiente:
- Reubicación de recursos: los recursos pueden migrar o moverse entre ubicaciones o zonas geográficas.
- Cambios en los recursos: los recursos se agregan, eliminan o modifican.
- Consumo: el consumo varía para diferentes servicios e implementaciones. Tenga en cuenta la supervisión del costo, el consumo y el gasto previsto.
Estos son algunos ejemplos de herramientas que permiten observar la plataforma:
Origen del registro | Descripción |
---|---|
Estado del servicio | Incidentes de servicio y mantenimiento planeado notificados por Microsoft. |
Azure Resource Health | Informa sobre el estado actual y pasado de los recursos. |
Registro de actividad de Azure Monitor | Informa sobre los eventos a nivel de suscripción en todos los recursos desplegados en la suscripción. |
Análisis de cambios de Azure Monitor | Informa sobre los cambios en las aplicaciones de Azure y reduce el tiempo medio de reparación (MTTR). |
Registros de recursos de Azure | Anteriormente conocidos como registros de diagnóstico, los registros de recursos notifican las operaciones realizadas en un recurso de Azure en el plano de datos. |
Registros de informes de Microsoft Entra (AzureAD) | Informa sobre el historial de la actividad de inicio de sesión y la pista de auditoría de los cambios realizados en Microsoft Entra ID para un inquilino determinado. |
Azure Advisor | Use Azure Advisor para recibir soluciones recomendadas basadas en procedimientos recomendados para optimizar las implementaciones de Azure. |
Registros de transparencia de Microsoft Cloud for Sovereignty | Informa sobre cuándo se accede a los recursos y qué ingeniero de Microsoft accede al recurso. Los registros de transparencia proporcionan detalles del acceso a los recursos del cliente. Los registros también le avisan cuando no ha habido ningún acceso, lo cual es habitual. |
La observabilidad evoluciona gradualmente, empezando por un plan de supervisión mínimamente viable; asimismo, el esfuerzo de integrar herramientas y procesos ya está en marcha. A medida que se sienta cómodo con los datos (las métricas, los registros y las transacciones), puede comprender el comportamiento y los signos de los síntomas o los problemas de esos recursos o aplicaciones. Igualmente, al familiarizarse con los datos, se crea confianza al trabajar con Azure Monitor y los datos.
Obtención de confianza de la observabilidad
Con una observabilidad adecuada, obtendrá confianza y podrá determinar la causa y encontrar respuestas que puedan ayudarle. Cuanto más aprenda sobre los datos, más evolucionados se convierten los procesos y los equipos obtienen información.
Para establecer la escena, estas son algunas maneras de obtener confianza de la observabilidad:
Aumento de la previsibilidad: la supervisión mejorada de los recursos y los servicios ayuda a identificar los problemas de forma proactiva, lo que los hace predecibles y administrables en el futuro.
Detección temprana de anomalías: la observabilidad permite la detección oportuna de anomalías o desviaciones del comportamiento esperado, lo que reduce el impacto de los posibles problemas.
Identificación de la causa principal: los datos detallados de observabilidad ayudan a identificar las causas principales de los problemas, lo que permite una resolución más rápida y evita la periodicidad.
Mejorar la eficacia de la solución de problemas: con la observabilidad, los equipos pueden diagnosticar y solucionar problemas complejos mediante el análisis de los datos pertinentes y la correlación de eventos.
Mejorar la confiabilidad del sistema: al identificar cuellos de botella, problemas de rendimiento y posibles puntos de error, la observabilidad ayuda a optimizar el rendimiento del sistema y mejorar la confiabilidad general.
Mejorar la experiencia del cliente: la observabilidad ayuda a comprender mejor cómo afecta el rendimiento del sistema a los usuarios finales, lo que permite tomar medidas proactivas para mejorar la satisfacción del cliente.
Facilitar la colaboración: las plataformas de observabilidad proporcionan visibilidad compartida y acceso a los datos, lo que promueve la cooperación entre diferentes equipos, como desarrolladores, operaciones y soporte técnico.
Cumplimiento normativo: la observabilidad ayuda a cumplir los requisitos normativos proporcionando rastreabilidad, registros de auditoría y garantizando el cumplimiento de los estándares de seguridad y privacidad.
Tiempo de resolución más rápido: al proporcionar datos completos y conclusiones, la observabilidad acelera el tiempo para diagnosticar y resolver problemas, lo que minimiza el tiempo de inactividad y las interrupciones del servicio.
Administración proactiva de la capacidad: los datos de observabilidad ayudan a predecir demandas de recursos, identificar brechas de capacidad y ajustar de forma proactiva los recursos para mantener un rendimiento óptimo.
Mitigación de riesgos: con la observabilidad, puede identificar los posibles riesgos al principio, habilitar medidas proactivas de mitigación y reducir la probabilidad de impactos graves.
Supervisión y aprendizaje continuos: la observabilidad permite la supervisión y el aprendizaje continuos, lo que ayuda a los equipos a adaptarse a entornos cambiantes, requisitos y comportamiento del usuario.
Optimización del rendimiento: mediante el análisis de los datos de observabilidad, los equipos pueden identificar y optimizar los cuellos de botella de rendimiento, lo que mejora la eficiencia del sistema.
Priorización de los esfuerzos: la información de observabilidad permite a los equipos priorizar las tareas y asignar recursos en función de la importancia e impacto de los problemas identificados.
Confianza en la administración de cambios: la observabilidad proporciona visibilidad sobre el impacto de los cambios, lo que garantiza que las nuevas implementaciones o actualizaciones no presentan problemas imprevistos.
Respuesta a incidentes mejorada: con la observabilidad, los equipos de respuesta a incidentes pueden recopilar rápidamente información relevante, comprender el contexto e iniciar las acciones adecuadas.
Plan de supervisión
Puede crear un plan de supervisión para describir los objetivos, los requisitos y otros detalles importantes. A continuación, solicite un acuerdo entre todas las partes interesadas pertinentes de la organización.
Un plan de supervisión debe explicar cómo desarrollar y usar una o varias soluciones de supervisión. Comience a crear los planes de supervisión antes de la estrategia y las fases de planeación del proyecto.
Al crear el plan, es esencial recordar las cinco materias de supervisión modernas, como se describe en la documentación de la estrategia de supervisión en la nube: supervisión, medición, respuesta, aprendizaje y mejora.
A continuación se proporciona un esquema inicial recomendado para un plan de supervisión y se enumeran las principales consideraciones para crear un plan individual para los servicios o cuando se estandarizan las características del servicio en la nube, como los tipos de recursos de Azure o los servicios de Microsoft 365.
La esencia del plan es definir la línea de visibilidad entre los proveedores de servicios (que hará las soluciones de campo) y los consumidores (que funcionarán o derivarán el valor).
Perspectiva empresarial
Un plan de supervisión completo debe tener en cuenta las necesidades empresariales con respecto a la supervisión, y esto incluye un enfoque centrado en el usuario. Al definir el plan, es importante documentar y compartir los requisitos empresariales y las opciones siguientes sugieren el ámbito de esta parte del plan.
- Partes interesadas y consumidores
- Flujos y procesos de valor empresarial
- Perspectiva y utilidad del usuario final
- Requisitos de medición e informes
- Riesgos identificados y marcos de control de cumplimiento
- Requisitos de control y acceso
- Riesgo para la empresa
Perspectiva del servicio
Un plan de supervisión completo debe considerar lo que los propietarios de servicios necesitan con y desde la supervisión. Al definir el plan, es importante documentar y compartir sus requisitos y las opciones siguientes sugieren el ámbito de esta parte del plan.
- Partes interesadas y consumidores
- Roles y responsabilidad
- Definición del servicio
- Requisitos de control y acceso
- ¿Consideraciones arquitectónicas?
- Contratos de respaldo de proveedores y asociados
- Acuerdos de servicio (SLA, OLA)
- Identificación de la cobertura de garantía de servicio
- Requisitos de medición e informes
- Riesgos
Perspectiva tecnológica
En esta sección del plan se representa la solución de supervisión mediante la información procedente de la perspectiva empresarial y del servicio. A continuación se sugiere el ámbito de esta parte del plan.
- Escenarios y casos de usuario
- Objetivos técnicos (por ejemplo, redes)
- Asignación de dependencias de componentes
- Tipos (por ejemplo, nativo en la nube, híbrido, local)
- Observacional
- Capacidad de respuesta
- Medición
- Ajuste y optimización
Consideraciones
Resuma el plan para asegurarse de que comunica e informa a todos los consumidores, partes interesadas y niveles de administración pertinentes. Para un plan de supervisión correcto, tenga en cuenta estos puntos:
Consideraciones clave
Fases de producción: La solución de supervisión debe estar lista cuando el servicio se activa. El planeamiento puede incluir la configuración de prueba o preproducción en otra suscripción dedicada para ayudar a experimentar y probar las suposiciones.
Estrategia: los planes también se pueden volver a asignar a la supervisión y a la estrategia de TI para hacer un seguimiento de los objetivos de la misión o la empresa.
Destinos: en el plan, describa y analice los recursos o servicios de destino que se están considerando. Si es necesario, asigne todos los componentes a supervisar, incluidas las dependencias de servicios. Identifique las brechas de cobertura y determine quién posee parte del servicio.
Solución: para la solución de supervisión, identifique a los consumidores, las partes interesadas, los proveedores, los asociados, el acceso y la instrumentación. Además, aspectos de supervisión, ámbito, respuesta, informes y paneles (disponibilidad, seguridad, experiencia del usuario, etc.).
Consideraciones generales
Además de las consideraciones clave, busque comprender mejor cómo estos puntos pueden influir en el plan de supervisión de su organización.
Producto mínimo viable (MVP): Deje que el plan defina el aspecto correcto del producto mínimo viable. En otras palabras, ¿qué es lo que se necesita inicialmente para entrar en funcionamiento y podemos medir el éxito en esto? Una vez que esté en funcionamiento, seguirá evolucionando la solución de supervisión para maximizar el valor.
Proteja los datos de supervisión: La seguridad es un aspecto fundamental para cada organización y equipo hoy en día. Asegúrese de que está informado y conoce las barreras de protección, o que permite a los expertos guiarle para que no agregue riesgos a las soluciones de supervisión, por ejemplo, exponiendo datos de supervisión confidenciales en los registros.
Considere Microsoft 365 : Cualquier plan adecuado tiene en cuenta el inquilino de Azure con Microsoft 365 como un componente significativo. Microsoft 365 depende de Microsoft Entra ID, y Azure Monitor proporciona la integración de Microsoft 365 con la administración de puntos de conexión.
La observabilidad gana: Céntrese en la visibilidad total antes de centrarse en las alertas, ya que el envío de alertas conlleva un costo y puede provocar rápidamente la fatiga por alertas.
Supervisión de actividades: las auditorías, el inicio de sesión y los registros de actividad ahora son fáciles de segmentar para los propietarios de los servicios y la seguridad. Asegúrese de que el plan de supervisión tenga en cuenta la supervisión de la actividad, incluida la información y los paneles que necesita para las partes interesadas pertinentes.