Arquitectura e infraestructura del centro de datos

Los centros de datos de Microsoft están diseñados para implementar una estrategia de defensa en profundidad, empleando varias capas de medidas de seguridad para proteger de forma confiable nuestra arquitectura en la nube y apoyando la infraestructura. La redundancia está integrada en todos los sistemas de varios niveles para admitir la disponibilidad del centro de datos.

Microsoft tiene instalaciones de centros de datos altamente protegidas distribuidas en todo el mundo, lo que permite la creación de una infraestructura de centros de datos distribuidos que admite miles de servicios en línea. Esta infraestructura distribuida globalmente está diseñada para acercar las aplicaciones a los usuarios, conservar la residencia de datos y ofrecer opciones completas de cumplimiento y resistencia para los clientes.

Las regiones son conjuntos de centros de datos que están interconectados a través de una red masiva y resistente. Las regiones se organizan en zonas geográficas, lo que permite a los clientes tener una residencia de datos específica y el cumplimiento necesita la capacidad de mantener sus datos y aplicaciones cerca. La tolerancia a errores integrada permite a las zonas geográficas soportar errores de región completos a través de su conexión a la infraestructura de red dedicada de alta capacidad.

Las ubicaciones físicamente independientes dentro de una región se conocen como zonas de disponibilidad, cada una de las cuales está formada por uno o varios centros de datos equipados con alimentación, refrigeración y redes independientes. Las zonas de disponibilidad permiten que las aplicaciones críticas se ejecuten con replicación de alta disponibilidad y baja latencia.

En la ilustración siguiente se muestra cómo la infraestructura global empareja zonas de disponibilidad y región dentro del mismo límite de residencia de datos para alta disponibilidad, recuperación ante desastres y copia de seguridad.

Límites de residencia de datos.

Los centros de datos distribuidos geográficamente permiten a Microsoft acercar los servicios a los clientes, reducir la latencia de red y permitir la copia de seguridad y la conmutación por error con redundancia geográfica.

Disponibilidad

Los centros de datos de Microsoft están diseñados para proporcionar una disponibilidad del 99,999 % para satisfacer las necesidades de servicio y acuerdos de nivel de servicio de los clientes. Microsoft invierte significativamente en las operaciones globales, la administración, las redes y la sostenibilidad de las instalaciones que ofrecen servicios 24x7x365.

Estándares y requisitos de cumplimiento

Microsoft ha invertido más de 15.000 millones de dólares en la construcción de nuestra infraestructura global y más de 9.000 millones de dólares en investigación y desarrollo para aumentar la eficiencia e impulsar la innovación. Como resultado, los centros de datos de Microsoft evolucionan a un ritmo más rápido que muchas instalaciones del sector y, por tanto, no siguen los requisitos prescriptivos descritos por los estándares tradicionales del centro de datos. Además de la gran cantidad de información operativa que incluye la ejecución de una de las carteras de centros de datos más grandes del mundo, Microsoft usa datos de IEEE Gold Book y software de simulación de confiabilidad de terceros para mejorar continuamente nuestros estándares de diseño de centros de datos. Los centros de datos de Microsoft se auditan exhaustivamente como parte de varias auditorías normativas, como se indica en la cartera de cumplimiento. El nivel de madurez en los centros de datos de Microsoft se puede evaluar a través de la cartera de cumplimiento y, para lograr resistencia específicamente, la certificación ISO 22301.

Aunque Microsoft opera programas en consonancia con el espíritu de ANSI/TIA-942 Telecommunications Infrastructure of Datacenters Standard, partes de este estándar no son aplicables a Microsoft ni entran en conflicto con otros requisitos normativos o específicos del país. Además, Microsoft ha elegido usar un enfoque más basado en el rendimiento para satisfacer las necesidades del cliente.

Redundancia de red y datos

Las instalaciones críticas del centro de datos emplean varias capas de sistemas redundantes para soportar errores y minimizar las interrupciones del servicio. El almacenamiento con redundancia local en el nivel de disco protege los datos dentro de una región, con almacenamiento con redundancia geográfica que proporciona redundancia dentro de la región. Para garantizar comunicaciones de red confiables, Microsoft posee y utiliza diversas rutas de fibra y hardware redundante para proteger los componentes críticos frente a errores o interrupciones del servicio.

La replicación geográfica se usa para proporcionar redundancia a ubicaciones geográficas alternativas. La durabilidad de los datos se obtiene mediante la replicación sincrónica de datos en varias bases de datos en diferentes centros de datos. Las pruebas de restauración se realizan para todos los datos de copia de seguridad propiedad de la nube. La recuperación ante desastres se logra mediante la replicación asincrónica en un centro de datos en una región geográfica diferente.

Capacidad

Cloud Operations es un equipo de capacidad dedicado que prevé los requisitos futuros para garantizar que la capacidad necesaria está estructurada y disponible para el uso interno y del cliente. Los sistemas se supervisan para garantizar el rendimiento del servicio, la disponibilidad, el uso del servicio, el uso del almacenamiento, la latencia de red y la capacidad de registro de auditoría aceptables. Microsoft también protege los centros de datos frente a los efectos de los ataques de denegación de servicio en el ancho de banda, la capacidad transaccional y la capacidad de almacenamiento.

Todos los equipos de servicio incluyen el planeamiento de capacidad como una característica clave de sus modelos de centro de datos y planes de replicación de datos para asegurarse de que hay capacidad necesaria para el procesamiento de información, las telecomunicaciones y el soporte ambiental.

Alimentación

Los centros de datos de Microsoft tienen fuentes de alimentación ininterrumpidas (UPS) dedicadas 24x7 y soporte de energía de emergencia, que incluye generadores locales que proporcionan energía de copia de seguridad. Se realizan regularmente pruebas y mantenimiento de las UPS y los generadores, y los equipos de operaciones tienen acuerdos contractuales con proveedores locales para la entrega de combustible de emergencia. Los centros de datos también tienen un centro de operaciones de instalaciones dedicado para supervisar los sistemas de alimentación, incluidos los componentes críticos de electricidad.

Los centros de datos de Microsoft están equipados con espacios de protección y etiquetado adecuado para los cables. El equipo de la infraestructura eléctrica se coloca en entornos que han sido diseñados para protegerse de los riesgos ambientales. Todos los activos portátiles de servicios en línea deben estar bloqueados o fijados para proporcionar protección contra robos o daños en el movimiento. Los cables de alimentación se ejecutan bajo los suelos, sobrecarga en bandejas de cables y dentro de los gabinetes para protegerse de piezas móviles y daños accidentales. Todos los espacios eléctricos están detrás de lectores de tarjetas o bloqueos de teclas adicionales según corresponda. Los pasillos de acceso, las entradas exteriores y los patios de equipos se supervisan a través de videovigilancia. Los sistemas eléctricos también utilizan redundancia como forma de protección, con múltiples fuentes de alimentación/utilidad en las instalaciones y generadores y sistemas UPS.

Se implementa una fuente de alimentación alternativa a largo plazo para el sistema de información que es capaz de mantener la energía en una capacidad operativa mínimamente necesaria. Cuando la energía falla o cae a un nivel de voltaje inaceptable, los sistemas UPS se conectan al instante. Esto proporciona suficiente potencia para ejecutar los servidores hasta que los generadores puedan asumir el control. Los generadores de emergencia proporcionan energía de copia de seguridad para interrupciones prolongadas, mantenimiento planeado y pueden operar el centro de datos con reservas de combustible in situ si se produce un desastre natural.

Los centros de datos de Microsoft (tanto alquilados como totalmente administrados) implementan la iluminación de emergencia en forma de iluminación de emergencia sobrecargada en circuitos dedicados respaldados por sistemas UPS y generadores. La iluminación automática de emergencia se implementa de acuerdo con el Código de Seguridad De Vida de la Asociación Nacional de Protección y Incendios (NFPA) o el código/ley local aplicable. Si se pierde la energía de la utilidad, la iluminación de emergencia cambiará automáticamente a la energía proporcionada por los sistemas UPS y generador. Los sistemas de iluminación de emergencia dentro de los centros de datos se someten a un mantenimiento rutinario para garantizar que permanecen en el orden de trabajo adecuado.

Mantenimiento

La directiva y los procedimientos de mantenimiento del sistema se aplican de acuerdo con el Estándar de seguridad física y ambiental de Los servicios en línea de Microsoft. Todos los equipos y sistemas de Microsoft se mantienen periódicamente para garantizar la eficiencia operativa. El mantenimiento de cualquier equipo o sistema debe realizarse de acuerdo con las recomendaciones del fabricante, realizado por personal autorizado y registrado en un vale de mantenimiento.

Hay dos equipos de activos que mantienen diferentes tipos de sistemas:

  • Equipo de Entorno crítico (CE):

    • CE es el equipo que proporciona administración de instalaciones para sistemas eléctricos, mecánicos y físicos que componen la infraestructura operativa de la instalación. El equipo de CE programa, realiza, documenta y revisa todas las actividades de mantenimiento realizadas en los componentes de CE. Los centros de datos de Microsoft se basan en un sistema informatizado para administrar las programaciones de mantenimiento y los pedidos de trabajo.
    • La administración del centro de datos (DCM) es responsable de todo el mantenimiento de CE que se realiza en el sitio o de forma remota. El mantenimiento de CE se prescribe en los documentos paso a paso necesarios denominados Métodos de procedimiento (MOP). Los MOP son revisados o aprobados por la administración del centro de datos antes de cualquier comienzo de trabajo.
  • Equipo de Site Services :

    • Site Services es el equipo que proporciona el mantenimiento de los recursos de servicio en línea de Microsoft ubicados en el centro de datos de Microsoft. El equipo de DC Site Services proporciona un servicio de corrección de manos o interrupción inteligente para los recursos que pertenecen a los servicios de aprovisionamiento de propiedades desde el centro de datos. Por ejemplo, los recursos que requieren mantenimiento físico podrían solicitar el servicio de manos inteligentes al equipo de DC Site Services. Todos los trabajos de Site Services en los recursos de Microsoft se programan, realizan, documentan y revisan en vales de trabajo dentro de la herramienta de vales de flujo de trabajo, y no se puede producir ningún trabajo sin una incidencia de trabajo aprobada.
    • El administrador técnico de programas (TPM) y el equipo de DCM son responsables de todo el trabajo de Site Services que se produce en el centro de datos y el trabajo que requiere que el recurso se transfiera fuera del sitio. El mantenimiento de Servicios de sitio se realiza en áreas del centro de datos controladas y protegidas por mecanismos de seguridad física.

Si los componentes ce son necesarios para ser retirados de la instalación, el manejo del equipo es aprobado por DCM. En la mayoría de los casos, los componentes de CE reciben mantenimiento in situ y no se quitan de la instalación. Los recursos de propiedad (por ejemplo, dispositivos de red o servidores) que requieren la transferencia fuera del sitio deben tener la aprobación explícita del propietario del recurso.

Es posible que los medios digitales dentro de la nube no se transporten desde el espacio de colocación a menos que se muevan para que se destruyan. Cuando estos recursos se van a destruir, se almacenan en contenedores de almacenamiento bloqueados que están bajo cobertura de cámara CCTV. Cuando los recursos estén listos para ser destruidos, un responsable de seguridad física y un empleado de Tiempo completo de Microsoft de Asset Management deben escoltar el contenedor bloqueado desde el espacio de colocación hasta donde se va a producir la fragmentación in situ. A medida que se produce la fragmentación en el centro de datos y bajo la supervisión de Microsoft, los recursos de Microsoft no salen de las áreas controladas del centro de datos.

Todo el trabajo de mantenimiento debe aprobarse antes del comienzo del trabajo, incluido el acceso a las herramientas de mantenimiento del sistema. Microsoft Infrastructure ha implementado el control de las herramientas de mantenimiento mediante la creación de un nivel de acceso dentro de la herramienta de acceso al centro de datos (DCAT). Cada instalación contiene una caja de seguridad física restringida o una sala de acceso controlado para el almacenamiento de herramientas de mantenimiento especializadas. El acceso a la caja de seguridad o a la sala de almacenamiento se controla en la herramienta DCAT para prohibir el acceso no autorizado a las herramientas de mantenimiento. Este programa garantiza que solo el personal con acceso aprobado pueda acceder a las herramientas. El equipo de Site Services realiza comprobaciones de inventario rutinarias para comprobar el estado de todas las herramientas. De forma trimestral, el equipo de administración del centro de datos y los equipos de seguridad física realizan auditorías de la lista de acceso de DCAT para mantener actualizada la lista de acceso del personal de mantenimiento. Las terminaciones o transferencias de personal se reflejan inmediatamente a través de una actualización manual de la lista de acceso. El acceso a la caja de seguridad o a la sala de almacenamiento de mantenimiento se realiza un seguimiento en los registros del lector de distintivos de acceso, que están disponibles para cualquier investigación.

El equipo de Site Services mantiene un inventario de herramientas de mantenimiento aprobadas para su uso en el centro de datos. Se dirige al personal de mantenimiento para que use las herramientas de mantenimiento proporcionadas. La aprobación de Administración de centros de datos (DCM) es necesaria para usar herramientas no proporcionadas por el centro de datos. Las herramientas físicas de mano están exentas de este tipo de control.

Los centros de datos de Microsoft mantienen al personal de mantenimiento residente para admitir sistemas de infraestructura de centros de datos críticos (el equipo de entorno crítico) y las operaciones del centro de datos (el equipo de Site Services). Los equipos de Entorno crítico y Servicios de sitio han identificado componentes críticos del sistema de seguridad y tecnología que mantienen en el sitio. Los servicios críticos del sistema de información se aprovisionan desde más de un centro de datos para evitar una interrupción del servicio debido a un incidente en uno de los centros de datos.