Recuperación ante desastres para la plataforma de datos de Azure: información general

Azure Synapse Analytics
Azure Machine Learning
Azure Cosmos DB
Azure Data Lake
Azure Event Hubs

Información general

Esta serie proporciona un ejemplo ilustrativo de cómo una organización podría diseñar una estrategia de recuperación ante desastres (DR) para una plataforma de datos empresarial Azure.

Azure ofrece una amplia gama de opciones de resiliencia que pueden proporcionar la continuidad del servicio en caso de desastre. Pero unos niveles de servicio más altos pueden introducir complejidad y un sobrecoste. La compensación del costo frente a la resistencia frente a la complejidad es el factor clave de toma de decisiones para la mayoría de los clientes en relación con la recuperación ante desastres.

Aunque se producen errores aislados ocasionales en el servicio de Azure, se debe tener en cuenta que los centros de datos de Microsoft y los servicios de Azure tienen varias capas de redundancia integradas. Cualquier error normalmente se limita en el ámbito y se recupera en cuestión de horas. Normalmente, es mucho más probable que un servicio clave, como la administración de identidades, experimente un problema de servicio en lugar de que toda una región de Azure se desconecte.

También debe reconocerse que los ciberataques, especialmente ransomware, ahora suponen una amenaza tangible para cualquier ecosistema de datos moderno y pueden provocar una interrupción de la plataforma de datos. Aunque este tema queda fuera del ámbito de esta serie, se aconseja a los clientes que implementen controles contra este tipo de ataques como parte del diseño de seguridad y resistencia de cualquier plataforma de datos.

Ámbito

El ámbito de esta serie de artículos incluye:

  • Recuperación del servicio de una plataforma de datos de Azure desde un desastre físico para un rol ilustrativo del cliente. Este cliente ilustrativo:
    • es una organización mediana o grande con una función de soporte operativo definida, siguiendo una metodología de administración de servicios basada en ITIL
    • no es nativo de nube, con su empresa principal, los servicios compartidos, como la administración de acceso y autenticación y la administración de incidentes, permanecen en el entorno local
    • en el recorrido de la migración de la nube a Azure, habilitado por la automatización
  • La plataforma de datos de Azure ha implementado los siguientes diseños dentro del inquilino de Azure del cliente
  • Este proceso se ejecutará mediante un recurso técnico de Azure en lugar de un experto en la materia de Azure. Por lo tanto, los recursos deben tener el siguiente nivel de conocimientos o aptitudes
    • Aspectos básicos de Azure: conocimientos prácticos de Azure, sus servicios principales y componentes de datos
    • Conocimientos prácticos de Azure DevOps. Capaz de navegar por el control de código fuente y ejecutar implementaciones de canalización
  • Este proceso describe el proceso de conmutación por error, desde la región principal a la secundaria

Fuera de ámbito

Los siguientes elementos se consideran fuera del ámbito de esta serie de artículos:

  • El proceso de reserva, desde la región secundaria hasta la región primaria
  • Cualquier aplicación, componente o sistema que no sea de Azure, incluidos, entre otros, los locales, otros proveedores de nube, servicios web de terceros, etc.
  • Recuperación de cualquier servicio ascendente, como redes locales, puertas de enlace, servicios compartidos empresariales, etc., que son requisitos previos para este proceso
  • Recuperación de cualquier servicio descendente, como sistemas operativos locales, sistemas de informes de terceros, modelado de datos o aplicaciones de ciencia de datos, etc., que dependen de este proceso para recuperar sus propios servicios
  • Escenarios de pérdida de datos, incluida la recuperación de incidentes de seguridad de datos similares o ransomware
  • Estrategias de copia de seguridad de datos y planes de restauración de datos
  • Establecimiento de la causa principal de un evento de recuperación ante desastres
    • Para los incidentes de servicio/componente de Azure, Microsoft publica un "Análisis de la causa principal" en la Estado: página web Historial

Suposiciones clave

Las suposiciones clave para este ejemplo de recuperación ante desastres son

  • La organización sigue una metodología de administración de servicios basada en ITIL para la compatibilidad operativa de la plataforma de datos de Azure
  • La organización tiene un proceso de recuperación ante desastres existente como parte de su marco de restauración de servicios para los recursos de TI
  • "Infraestructura como código" (IaC) se ha usado para implementar la plataforma de datos de Azure habilitada por un servicio de automatización, como Azure DevOps o similar
  • Cada solución hospedada por la plataforma de datos de Azure ha completado una evaluación de impacto empresarial o similar, lo que proporciona requisitos de servicio claros para RPO, RTO y MTO

Pasos siguientes

Ahora que ya conoce el escenario a un alto nivel, puede avanzar hacia la arquitectura diseñada para el caso de uso.