Supervisión y recuperación automática de datos en Microsoft 365

Dada la escala de Microsoft 365, sería imposible mantener los datos de los clientes resistentes y seguros frente a malware sin una supervisión integrada que sea completa, alertas inteligentes y recuperación automática que sea rápida y confiable. La supervisión de un conjunto de servicios a escala de Microsoft 365 es muy difícil. Es necesario introducir nuevas mentalidades y metodologías, y crear nuevos conjuntos de tecnología para operar y administrar el servicio en un entorno global conectado. Nos hemos alejado del enfoque de supervisión tradicional de recopilación y filtrado de datos para crear alertas a un enfoque basado en el análisis de datos; tomar señales y generar confianza en esos datos y, a continuación, usar la automatización para recuperar o resolver el problema. Este enfoque ayuda a sacar a los seres humanos de la ecuación de recuperación, lo que a su vez hace que las operaciones sean menos costosas, más rápidas y menos propensas a errores.

Fundamental para la supervisión de Microsoft 365 es una colección de tecnologías que componen nuestro motor de Data Insights, que se basa en azure, SQL Azure y tecnología de base de datos de streaming de código abierto. Está diseñado para recopilar y agregar datos y llegar a conclusiones. Actualmente, procesa más de 500 millones de eventos por hora de más de 100 000 servidores (aproximadamente 15 TB al día) dispersos en docenas de centros de datos en muchas regiones, y estas cifras están creciendo.

Microsoft 365 usa la supervisión externa, que implica la creación de transacciones sintéticas para probar todo lo que es importante. Por ejemplo, en Exchange Online cada escenario está probando todas las bases de datos de todo el mundo cada cinco minutos de forma dispersa, lo que proporciona una cobertura casi continua de todo lo que se encuentra en el sistema. Desde varias ubicaciones, se realizan 250 millones de transacciones de prueba al día para crear una base de referencia o un latido sólidos para el servicio.

Microsoft 365 también usa el concepto alerta roja, que reduce todas las señales de supervisión de todas las máquinas de nuestros centros de datos a algo que un ser humano puede administrar. El concepto es bastante sencillo: si algo sucede en varias señales, debe haber algo en marcha. No se trata de generar confianza en una señal, se trata de tener una fidelidad razonable para cada señal para que se obtenga una mayor precisión. Este sistema de supervisión es tan potente que no tenemos personal 24x7 observando nuestros monitores; lo único que tenemos es la maquinaria que se reactiva si detecta un problema, en cuyo caso se va a poner en la página al personal de guardia adecuado, o más a menudo como es el caso, simplemente va a seguir adelante y resolver el problema. Una vez que comenzamos a recopilar señales y crear alertas rojas fuera de ellas, podemos empezar a triangular en todas nuestras particiones de servicio.

En función de la combinación de la alerta de error y las alertas rojas, esta alerta indica exactamente qué componentes podrían tener un problema y que el sistema va a intentar corregir el problema por sí mismo reiniciando un servidor de buzón de correo.

Además de las funcionalidades de recuperación automática, como la restauración de una sola página, Exchange Online incluye varias características que adoptan un enfoque de supervisión y recuperación automática que se centra en conservar la experiencia del usuario final. Estas características incluyen disponibilidad administrada, que proporciona acciones integradas de supervisión y recuperación, y AutoReseed, que restaura automáticamente la redundancia de la base de datos después de un error de disco.

Disponibilidad administrada

La disponibilidad administrada proporciona una solución nativa de comprobación y recuperación de estado que supervisa y protege la experiencia del usuario final mediante acciones orientadas a la recuperación. La disponibilidad administrada es la integración de acciones integradas de supervisión y recuperación con la plataforma de alta disponibilidad de Exchange. Está diseñada para detectar y solucionar problemas a medida que surgen y que el sistema los detecta. A diferencia de las técnicas y soluciones de supervisión externas para Exchange, la disponibilidad administrada no intenta identificar ni comunicar la causa principal de un problema. En su lugar, se centra en los aspectos de recuperación que abordan tres áreas clave de la experiencia del usuario final:

  • Disponibilidad : ¿pueden los usuarios acceder al servicio?
  • Latencia : ¿Cómo es la experiencia para los usuarios?
  • Errores : ¿los usuarios pueden lograr lo que quieren?

La disponibilidad administrada es una característica interna que se ejecuta en cada servidor de Microsoft 365 que ejecuta Exchange Online. Sondea y analiza cientos de métricas de mantenimiento cada segundo. Si se detecta que algo está mal, la mayoría de las veces se corrige automáticamente. Pero siempre habrá problemas que la disponibilidad administrada no podrá corregir por sí sola. En esos casos, la disponibilidad administrada escalará el problema a un equipo de soporte técnico de Microsoft 365 mediante el registro de eventos.

AutoReseed

Exchange Online servidores se implementan en una configuración que almacena varias bases de datos y sus flujos de registro en el mismo disco que no es RAID. Esta configuración se conoce a menudo como un montón de discos (JBOD) porque no se usan mecanismos de redundancia de almacenamiento, como RAID, para duplicar los datos en el disco. Cuando se produce un error en un disco en un entorno JBOD, se pierden los datos de ese disco.

Dado el tamaño de Exchange Online y el hecho de que se implementen en él millones de unidades de disco, los errores de unidad de disco son una repetición regular en Exchange Online. De hecho, más de 100 fallan cada día. Cuando se produce un error en un disco en una implementación empresarial local, un administrador debe reemplazar manualmente el disco con errores y restaurar los datos afectados. En una implementación en la nube del tamaño de Microsoft 365, el hecho de que los operadores (administradores de la nube) reemplacen manualmente los discos no es práctico ni económicamente factible.

Reseed automático, o AutoReseed, es una característica que es el reemplazo de lo que normalmente es una acción controlada por el operador en respuesta a un error de disco, un evento de daños en la base de datos u otro problema que requiere una reseida de una copia de base de datos. AutoReseed se ha diseñado con el fin de restaurar automáticamente la redundancia de bases de datos después de un error en el disco mediante el uso de discos de reserva que se aprovisionan al sistema. Si se produce un error en un disco, las copias de base de datos almacenadas en ese disco se reinician automáticamente en un disco de reserva preconfigurado en el servidor, lo que restaura la redundancia.