Continuidad empresarial del centro de datos y recuperación ante desastres

Los desastres son imprevisibles, pero los centros de datos de Microsoft y el personal de operaciones se preparan para los desastres con el fin de garantizar la continuidad de las operaciones en caso de que se produzcan eventos inesperados. Una arquitectura resistente y unos planes de continuidad probados y actualizados mitigan los posibles daños y propician una rápida recuperación de las operaciones del centro de datos. Los planes de administración de crisis proporcionan claridad sobre los roles, las responsabilidades y las actividades de mitigación antes, durante y después de una crisis. Los roles y los contactos definidos en estos planes facilitan la remisión eficaz a una instancia superior de la cadena de comandos durante situaciones de crisis.

Resistencia empresarial

En el Programa de continuidad empresarial de Microsoft Cloud Operations and Innovation (CO+I), los centros de datos deben probar la operación y la respuesta continuas a los eventos de crisis. Cada centro de datos administrado por Microsoft tiene su propio plan de continuidad empresarial, creado mediante el uso de la experiencia clave en la materia de CO+I Centro de resistencia de excelencia y operaciones del centro de datos para garantizar que el contexto específico del sitio se factorice en la preparación de emergencia. Estos planes describen roles, responsabilidades, procedimientos de seguridad del personal, criterios de notificación, pasos de escalamientos y listas de comprobación para diferentes escenarios de desastres.

La función de resistencia de la organización CO+I de Microsoft se rige por el programa Enterprise Business Continuity Management y sigue las directivas y estándares empresariales. El Consejo de continuidad empresarial, la dirección departamental y, en última instancia, el equipo del personal directivo de Microsoft revisan el rendimiento del programa de forma periódica.

Administración de crisis y respuesta a pandemias

El Programa de administración de crisis es una parte integral de la respuesta de Microsoft a eventos importantes dada su presencia global. El plan de administración de crisis del centro de datos de Microsoft se basa en los procedimientos recomendados del sector e incluye los componentes críticos necesarios para permitir un enfoque táctico sobre cómo responder a eventos importantes. Además, el Centro de Excelencia de Resistencia co+I desarrolló y continúa manteniendo un plan de enfermedades pandémicas e infecciosas que se usa para responder a enfermedades infecciosas que pueden tener un impacto operativo. Como parte de nuestra respuesta pandémica, el equipo de soporte técnico de resistencia proporciona información crítica y oportuna sobre las enfermedades locales a la dirección de Microsoft basada en Redmond para facilitar una estrategia de mitigación completa.

Microsoft ha establecido un marco de administración de crisis y resistencia empresarial (ERCM) para toda la organización que sirve como guía para desarrollar el Programa de continuidad empresarial en toda la empresa. El programa incluye directivas de continuidad empresarial, directrices de implementación, análisis de impacto empresarial (BIA), evaluación de riesgos, análisis de dependencias y procedimientos para supervisar y mejorar el programa. Enterprise Resilience Office administra los informes de gobernanza y rendimiento en Microsoft. El programa de resistencia de CO+I se coordina a través del Centro de excelencia de resistencia de CO+I para garantizar que el programa se adhiere a una visión y una misión coherentes a largo plazo, y es coherente con los estándares, métodos, directivas y métricas de los programas empresariales. El Centro de excelencia de resistencia de CO+I estableció una serie de estándares diseñados para proporcionar gobernanza adicional a la organización de CO+I.

Los planes de resistencia tecnológica (TDP) de CO+I están diseñados para varios grupos de ingeniería dentro de CO+I para la recuperación de incidentes de alta gravedad o desastres a fin de ayudar a garantizar que nuestra tecnología crítica sigue estando disponible.

El Plan de resistencia empresarial (BRP) y TRP incluye el ámbito y las dependencias aplicables para los servicios, los procedimientos de restauración y las comunicaciones con el equipo de administración de incidentes. Los propietarios del plan dedicado revisan y aprueban el BRP y el TRP al menos anualmente y se ponen a disposición de todos los usuarios aplicables. Los planes se prueban según la programación de pruebas definida como parte de los estándares aplicables.

Programa de resistencia

Microsoft ha definido el BRP para que sirva como guía para responder, recuperar y reanudar operaciones durante un evento adverso grave. El BRP cubre el personal clave, los recursos, los servicios y las acciones necesarias para continuar con procesos y operaciones empresariales críticos. El desarrollo del BRP se basa en las directrices recomendadas de Microsoft Enterprise Resilience Office.

En el ámbito de este plan se encuentran los procesos empresariales críticos de Microsoft, definidos según sea necesario en un plazo de 24 horas o menos. Estos procesos se determinan durante un BIA, en el que Microsoft estimó posibles impactos operativos y financieros si no podían realizar un proceso y determinaron el objetivo de tiempo de recuperación (RTO) y el objetivo de punto de recuperación (RPO). Después de la BIA, se realiza un análisis de dependencias no técnico para determinar las personas, las aplicaciones, los registros vitales y los requisitos de usuario específicos necesarios para realizar el proceso.

Microsoft comprueba periódicamente el BRP para evaluar su eficacia, facilidad de uso e identificar las áreas en las que se pueden eliminar o mitigar los riesgos. Cuando corresponda, los terceros participan en la prueba si hay dependencias asociadas a ellos. Los resultados de las pruebas están documentados, validados y aprobados por el personal adecuado. Esta información se usa para crear y priorizar elementos de trabajo.

Programa de resistencia del centro de datos

Como parte del programa resiliencia del centro de datos, el equipo del Centro de excelencia de resistencia de CO+I desarrolla los métodos, las directivas y las métricas que abordan los requisitos de seguridad de la información necesarios para la continuidad empresarial de la organización. El equipo desarrolla trps para las operaciones continuas de los procesos críticos y los recursos necesarios si se producen interrupciones.