Información general
Esta serie proporciona un ejemplo ilustrativo de cómo una organización podría diseñar una estrategia de recuperación ante desastres (DR) para una plataforma de datos empresarial Azure.
- Esta serie de artículos complementa las instrucciones proporcionadas por Cloud Adoption Framework de Microsoft, el Marco de buena arquitectura de Azure y la administración de continuidad empresarial
Azure ofrece una amplia gama de opciones de resiliencia que pueden proporcionar la continuidad del servicio en caso de desastre. Pero unos niveles de servicio más altos pueden introducir complejidad y un sobrecoste. La compensación del costo frente a la resistencia frente a la complejidad es el factor clave de toma de decisiones para la mayoría de los clientes en relación con la recuperación ante desastres.
Aunque se producen errores aislados ocasionales en el servicio de Azure, se debe tener en cuenta que los centros de datos de Microsoft y los servicios de Azure tienen varias capas de redundancia integradas. Cualquier error normalmente se limita en el ámbito y se recupera en cuestión de horas. Normalmente, es mucho más probable que un servicio clave, como la administración de identidades, experimente un problema de servicio en lugar de que toda una región de Azure se desconecte.
También debe reconocerse que los ciberataques, especialmente ransomware, ahora suponen una amenaza tangible para cualquier ecosistema de datos moderno y pueden provocar una interrupción de la plataforma de datos. Aunque este tema queda fuera del ámbito de esta serie, se aconseja a los clientes que implementen controles contra este tipo de ataques como parte del diseño de seguridad y resistencia de cualquier plataforma de datos.
- La guía de Microsoft sobre la protección contra ransomware está disponible en Aspectos básicos de la nube de Azure
Ámbito
El ámbito de esta serie de artículos incluye:
- Recuperación del servicio de una plataforma de datos de Azure desde un desastre físico para un rol ilustrativo del cliente. Este cliente ilustrativo:
- es una organización mediana o grande con una función de soporte operativo definida, siguiendo una metodología de administración de servicios basada en ITIL
- no es nativo de nube, con su empresa principal, los servicios compartidos, como la administración de acceso y autenticación y la administración de incidentes, permanecen en el entorno local
- en el recorrido de la migración de la nube a Azure, habilitado por la automatización
- La plataforma de datos de Azure ha implementado los siguientes diseños dentro del inquilino de Azure del cliente
- Zona de aterrizaje de Enterprise: proporciona la base de la plataforma, incluidas las redes, la supervisión, la seguridad, etc.
- Plataforma de Azure Analytics: proporciona los componentes de datos que admiten las distintas soluciones y productos de datos proporcionados por el servicio
- Este proceso se ejecutará mediante un recurso técnico de Azure en lugar de un experto en la materia de Azure. Por lo tanto, los recursos deben tener el siguiente nivel de conocimientos o aptitudes
- Aspectos básicos de Azure: conocimientos prácticos de Azure, sus servicios principales y componentes de datos
- Conocimientos prácticos de Azure DevOps. Capaz de navegar por el control de código fuente y ejecutar implementaciones de canalización
- Este proceso describe el proceso de conmutación por error, desde la región principal a la secundaria
Fuera de ámbito
Los siguientes elementos se consideran fuera del ámbito de esta serie de artículos:
- El proceso de reserva, desde la región secundaria hasta la región primaria
- Cualquier aplicación, componente o sistema que no sea de Azure, incluidos, entre otros, los locales, otros proveedores de nube, servicios web de terceros, etc.
- Recuperación de cualquier servicio ascendente, como redes locales, puertas de enlace, servicios compartidos empresariales, etc., que son requisitos previos para este proceso
- Recuperación de cualquier servicio descendente, como sistemas operativos locales, sistemas de informes de terceros, modelado de datos o aplicaciones de ciencia de datos, etc., que dependen de este proceso para recuperar sus propios servicios
- Escenarios de pérdida de datos, incluida la recuperación de incidentes de seguridad de datos similares o ransomware
- Estrategias de copia de seguridad de datos y planes de restauración de datos
- Establecimiento de la causa principal de un evento de recuperación ante desastres
- Para los incidentes de servicio/componente de Azure, Microsoft publica un "Análisis de la causa principal" en la Estado: página web Historial
Suposiciones clave
Las suposiciones clave para este ejemplo de recuperación ante desastres son
- La organización sigue una metodología de administración de servicios basada en ITIL para la compatibilidad operativa de la plataforma de datos de Azure
- La organización tiene un proceso de recuperación ante desastres existente como parte de su marco de restauración de servicios para los recursos de TI
- "Infraestructura como código" (IaC) se ha usado para implementar la plataforma de datos de Azure habilitada por un servicio de automatización, como Azure DevOps o similar
- Cada solución hospedada por la plataforma de datos de Azure ha completado una evaluación de impacto empresarial o similar, lo que proporciona requisitos de servicio claros para RPO, RTO y MTO
Pasos siguientes
Ahora que ya conoce el escenario a un alto nivel, puede avanzar hacia la arquitectura diseñada para el caso de uso.
Recursos relacionados
- Recuperación ante desastres para una plataforma de datos de Azure: arquitectura
- Recuperación ante desastres en la plataforma de datos de Azure: detalles del escenario
- Recuperación ante desastres para una plataforma de datos de Azure: recomendaciones
- Recuperación ante desastres en una plataforma de datos de Azure: implementación de este escenario