Descripción de la supervisión de la disponibilidad y el planeamiento de la capacidad
Incluso las servicios en línea más resistentes requieren recursos adecuados para ejecutarse de forma eficaz. Esto es especialmente cierto en situaciones de emergencia cuando una demanda inesperadamente alta tiene el potencial de afectar a la disponibilidad de Microsoft Online Services. Microsoft usa una amplia supervisión de disponibilidad y un planeamiento frecuente de la capacidad para garantizar que nuestros servicios permanezcan disponibles para nuestros clientes incluso en situaciones de emergencia.
Supervisión de la disponibilidad
Microsoft implementa una amplia supervisión de disponibilidad para garantizar que todos nuestros Servicios en línea tienen los recursos necesarios para ejecutarse de forma óptima. Los equipos de servicio usan el análisis automatizado de registros y telemetría para alertar a los ingenieros de guardia sobre los problemas de disponibilidad. Por ejemplo, los equipos de servicio supervisan el uso del procesador y la memoria en busca de picos que puedan amenazar el estado del servicio. Además de la supervisión de disponibilidad general, los equipos de servicio también seleccionan las métricas de disponibilidad adecuadas en función de la naturaleza de su servicio. Por ejemplo, SharePoint Online (SPO) supervisa las funciones principales del cliente, como la disponibilidad de la página principal, así como la capacidad de cargar y descargar documentos.
En muchos casos, nuestros servicios responden automáticamente a los problemas que amenazan la disponibilidad mediante el aprovisionamiento de recursos adicionales o el redireccionamiento del tráfico a componentes de servicio no afectados. Los ingenieros del equipo de servicio responden a las alertas investigando y resolviendo los problemas subyacentes. Los problemas de disponibilidad que indican un posible incidente de seguridad se escalan al equipo de respuesta de seguridad específico de la carga de trabajo para su resolución mediante el proceso de respuesta a incidentes de seguridad.
Planeamiento de la capacidad
El planeamiento de capacidad ayuda a los equipos de servicio a asignar los recursos necesarios para admitir la disponibilidad de Microsoft Online Services. El planeamiento de capacidad regular es necesario como parte del programa ERCM de Microsoft, que garantiza una capacidad coherente para las conmutaciones por error. Los equipos de servicio revisan los datos de capacidad durante las revisiones trimestrales y durante situaciones de emergencia que justifican una revisión adicional de la capacidad.
Cada equipo de servicio mantiene los datos sin procesar para el planeamiento de la capacidad e incluye métricas como el procesamiento del sistema, la memoria y la capacidad de hardware. Las revisiones programadas usan un modelo de la capacidad actual del sistema y lo prueban según las necesidades proyectadas en situaciones de emergencia. Si el modelo indica deficiencias en la capacidad, los cambios propuestos en la capacidad del sistema se envían a la dirección del equipo de servicio para su revisión. Los ingenieros del equipo de servicio incorporan los cambios aprobados en un nuevo modelo antes de la implementación.
Como parte del planeamiento de la capacidad, cada equipo de servicio designa un administrador de proyectos de capacidad (PM), que es responsable de recopilar los datos de rendimiento y de mantener modelos precisos de la capacidad del sistema. Además de coordinar las revisiones de capacidad trimestrales, el PM de capacidad actúa como punto de contacto principal para las alertas de supervisión de disponibilidad automatizada. El PM de capacidad garantiza que se notifique al personal del equipo de servicio adecuado para que pueda responder inmediatamente a los problemas de disponibilidad.