Editar

Share via


Recuperación ante desastres para una plataforma de datos de Azure: arquitectura

Azure Synapse Analytics
Azure Machine Learning
Azure Cosmos DB
Azure Data Lake
Azure Event Hubs

Definición del caso de uso

Para admitir este ejemplo de trabajo, se usará la firma ficticia "Contoso" con una plataforma de datos de Azure basada en las arquitecturas de referencia de Microsoft.

Servicio de datos: vista de componentes

Contoso ha implementado la siguiente estructura básica de Azure, que es un subconjunto de la zona de aterrizaje empresarial. Diagram that shows an example Enterprise Azure landing zone.

Los números de las descripciones siguientes se corresponden a los del diagrama anterior.

Fundamentos de Azure de Contoso: flujo de trabajo

  1. Inscripción empresarial: la inscripción empresarial principal de Contoso dentro de Azure refleja su contrato comercial con Microsoft, su estructura de cuentas organizativas y las suscripciones de Azure disponibles. Proporciona la base de facturación de las suscripciones y cómo se administra el patrimonio digital
  2. Administración de identidad y acceso: componentes necesarios para proporcionar servicios de identidad, autenticación, acceso a los recursos y autorización en la superficie de Azure de Contoso
  3. Organización de grupos de administración y suscripciones: jerarquía de grupos escalable alineada con las funcionalidades principales de la plataforma de datos, lo que permite la operacionalización a gran escala mediante la seguridad y gobernanza administradas centralmente y donde las cargas de trabajo tienen una separación clara. Los grupos de administración de Azure proporcionan un ámbito de gobernanza por encima de las suscripciones
  4. Suscripción de administración: suscripción dedicada para las distintas funciones de nivel de administración necesarias para admitir la plataforma de datos
  5. Suscripción de conectividad: suscripción dedicada para las funciones de conectividad de la plataforma de datos, lo que le permite identificar los servicios con nombre, determinar el enrutamiento seguro y la comunicación entre los servicios internos y externos
  6. Suscripción de zona de aterrizaje: suscripciones de uno a varios para aplicaciones en línea nativas de Azure, cargas de trabajo y recursos internos y externos
  7. Plataforma de DevOps: la plataforma de DevOps que admite la plataforma de datos y básica de Azure. Esta plataforma contiene el repositorio del control de código fuente base y las canalizaciones de CI/CD que permiten implementaciones automatizadas de IaC

Nota

Muchos clientes siguen conservando una gran superficie de IaaS. Para proporcionar funcionalidades de recuperación en IaaS, el componente clave que se va a agregar es Azure Site Recovery. Site Recovery orquestará y automatizara la replicación de máquinas virtuales de Azure entre regiones, de máquinas virtuales locales y de servidores físicos en Azure, así como de máquinas locales en un centro de datos secundario.

En el marco de esta estructura fundacional, Contoso ha implementado los siguientes elementos para dar soporte a sus necesidades de inteligencia empresarial, de acuerdo con las instrucciones de Analytics de un extremo a otro con Azure Synapse.

Diagram that shows architecture for a modern data platform using Azure data services.Plataforma de datos de Contoso

Plataforma de datos de Contoso: flujo de trabajo

El flujo de trabajo se lee de izquierda a derecha, siguiendo el flujo de datos:

  • Orígenes de datos: orígenes o tipos de datos que la plataforma de datos puede consumir
  • Ingesta: funcionalidad de la plataforma para ingerir datos de diversos orígenes de estructura y velocidad variables. Este diseño refleja una arquitectura Lambda.
  • Almacenamiento: funcionalidad para almacenar de forma segura a gran escala los datos que se han ingerido en la plataforma
  • Proceso: funcionalidad de la plataforma para procesar datos, haciendo que sean "aptos para el propósito" para los procesos del flujo descendente, como la limpieza, la estandarización y el modelado. El procesamiento previo de los datos normalmente garantiza que se encuentren en una "posición y condición, listos para su uso".
  • Enriquecimiento: funcionalidad para mejorar los datos procesados en la plataforma mediante estadísticas, aprendizaje automático u otras técnicas de modelado o servicios de Azure AI integrados previamente
  • Servir: funcionalidad de la plataforma para dar forma y presentar los datos para su consumo en el flujo descendente
  • Consumidores de datos: los usuarios, aplicaciones o procesos del flujo descendente que consumen datos de los distintos puntos de contacto de servicio de la plataforma
  • Detección y gobernanza: funcionalidades de la plataforma para gobernar los datos que contiene y asegurarse de que se indexen, detecten o busquen, se describan correctamente, con linaje completo y de forma transparente para los usuarios finales y los procesos de consumo.
  • Plataforma: base sobre la que se ha creado la plataforma, es decir, la base de Azure de Contoso, como se ha descrito anteriormente.

Nota

Para muchos clientes, el nivel conceptual de la arquitectura de referencia de la plataforma de datos usada estará alineado, pero la implementación física puede variar. Por ejemplo, los procesos ELT (extracción, carga, transformación) se pueden realizar mediante Azure Data Factory y el modelado de datos mediante un servidor de Azure SQL. Para solucionar este problema, la siguiente sección Sin estado frente a con estado proporcionará instrucciones.

Para la plataforma de datos, Contoso ha seleccionado los niveles de servicio de producción recomendados más bajos para todos los componentes y ha elegido adoptar una estrategia de recuperación ante desastres de tipo "Reimplementar en caso de desastre" basada en un enfoque de reducción de costos operativos.

Las secciones siguientes proporcionarán una comprensión de línea base del proceso de recuperación ante desastres y las palancas disponibles para que los clientes mejoren esta postura.

Vista de componentes y servicios de Azure

En las tablas siguientes, se presenta un desglose de cada servicio y componente de Azure que se usa en la plataforma de datos de Contoso, con opciones para mejorar la recuperación ante desastres.

Nota

Las secciones siguientes están organizadas por servicios con estado frente a servicios sin estado.

Componentes fundamentales con estado

  • Microsoft Entra ID, incluyendo los derechos de roles

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: Premium P1
    • Opciones de mejora de la recuperación ante desastres: la resistencia de Microsoft Entra ID forma parte de su oferta de SaaS
    • Notas
  • Azure Key Vault

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: N/A
    • Opciones de mejora de la recuperación ante desastres: N/A, cubierto como parte del servicio de Azure
  • Almacén de Recovery Services

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: valor predeterminado (GRS)
    • Opciones de mejora de la recuperación ante desastres: al habilitar la restauración entre regiones, se crea la restauración de datos en la región secundaria emparejada.
    • Notas
      • Aunque LRS y ZRS están disponibles, requiere actividades de configuración diferentes a la configuración predeterminada
  • Azure DevOps

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: DevOps Services
    • Opciones de mejora de la recuperación ante desastres: la resistencia de datos de DevOps Services forma parte de su oferta de SaaS.
    • Notas
      • DevOps Server, ya que, en la oferta para el entorno local, la recuperación ante desastres seguirá siendo responsabilidad del cliente.
      • Si se usan servicios de terceros (SonarCloud, Jfrog Artifactory o servidores de compilación de Jenkins, por ejemplo), la recuperación ante un desastre seguirá siendo responsabilidad del cliente.
      • Si se usan máquinas virtuales de IaaS en la cadena de herramientas de DevOps, la recuperación ante un desastre seguirá siendo responsabilidad del cliente.

Componentes fundamentales sin estado

  • Suscripciones

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: N/A
    • Opciones de mejora de la recuperación ante desastres: N/A, cubierto como parte del servicio de Azure
  • Grupos de administración

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: N/A
    • Opciones de mejora de la recuperación ante desastres: N/A, cubierto como parte del servicio de Azure
  • Azure Monitor

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: N/A
    • Opciones de mejora de la recuperación ante desastres: N/A, cubierto como parte del servicio de Azure
  • Cost Management

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: N/A
    • Opciones de mejora de la recuperación ante desastres: N/A, cubierto como parte del servicio de Azure
  • Microsoft Defender for Cloud

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: N/A
    • Opciones de mejora de la recuperación ante desastres: N/A, cubierto como parte del servicio de Azure
  • DNS de Azure

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: zona única pública
    • Opciones de mejora de la recuperación ante desastres: N/A, DNS tiene alta disponibilidad por diseño
  • Network Watcher

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: N/A
    • Opciones de mejora de la recuperación ante desastres: N/A, cubierto como parte del servicio de Azure
  • Redes virtuales, incluidas subredes, UDR y grupos de seguridad de red

    • Responsabilidad de la recuperación de componentes: Contoso
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Contoso
    • Selección de SKU de Contoso: N/A
    • Opciones de mejora de la recuperación ante desastres: se pueden replicar las redes virtuales en la región secundaria emparejada.
  • Azure Firewall

    • Responsabilidad de la recuperación de componentes: Contoso
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Contoso
    • Selección de SKU de Contoso: Estándar
    • Opciones de mejora de la recuperación ante desastres: Azure Firewall tiene alta disponibilidad por diseño y se puede crear con Availability Zones para aumentar la disponibilidad.
  • Azure DDoS

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Contoso
    • Selección de SKU de Contoso: protección de red contra DDoS
    • Opciones de mejora de la recuperación ante desastres: N/A, cubierto como parte del servicio de Azure
  • Circuito de ExpressRoute

    • Responsabilidad de la recuperación de componentes: Contoso, asociado de conectividad y Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: asociado de conectividad y Microsoft
    • Selección de SKU de Contoso: Estándar
    • Opciones de mejora de la recuperación ante desastres:
    • Notas
      • ExpressRoute tiene redundancia integrada, cada circuito consta de dos conexiones a dos enrutadores perimetrales empresariales de Microsoft (MSEE) en una ubicación de ExpressRoute desde el perímetro de red del cliente y el proveedor de conectividad.
      • Un circuito Premium de ExpressRoute habilitará el acceso a todas las regiones de Azure de forma global.
  • VPN Gateway

    • Responsabilidad de la recuperación de componentes: Contoso
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Contoso
    • Selección de SKU de Contoso: zona única (VpnGw1)
    • Opciones de mejora de la recuperación ante desastres: se puede implementar una instancia de VPN Gateway en una zona de disponibilidad con las SKU VpnGw#AZ para proporcionar un servicio con redundancia de zona.
  • Equilibrador de carga de Azure

    • Responsabilidad de la recuperación de componentes: Contoso
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Contoso
    • Selección de SKU de Contoso: Estándar
    • Opciones de mejora de la recuperación ante desastres:
    • Notas
      • Azure Traffic Manager es un equilibrador de carga de tráfico basado en DNS. Este servicio admite la distribución del tráfico de las aplicaciones de acceso público en las regiones globales de Azure. Esta solución proporcionará protección frente a una interrupción regional dentro de un diseño de alta disponibilidad.

Servicios específicos de la plataforma de datos con estado

  • Cuenta de almacenamiento: Azure Data Lake Gen2

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Contoso
    • Selección de SKU de Contoso: LRS
    • Opciones de mejora de la recuperación ante desastres: las cuentas de almacenamiento tienen una amplia variedad de opciones de redundancia de datos, desde la redundancia de la región primaria hasta la redundancia de la región secundaria.
    • Notas
      • Se recomienda GRS para aumentar la redundancia, ya que proporciona una copia de los datos en la región emparejada.
  • Azure Event Hubs

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Contoso
    • Selección de SKU de Contoso: Estándar
    • Opciones de mejora de la recuperación ante desastres: se puede crear un espacio de nombres de Event Hubs con zonas de disponibilidad habilitadas. Esta resistencia se puede ampliar para cubrir una interrupción completa de la región con la recuperación ante desastres geográfica.
    • Notas
      • Por diseño, la recuperación ante desastres geográfica de Event Hubs no replica los datos, por lo que hay varias consideraciones que debe tener en cuenta para la conmutación por error y de reserva.
  • Instancias de Azure IoT Hub

  • Azure Stream Analytics

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Contoso
    • Selección de SKU de Contoso: Estándar
    • Opciones de mejora de la recuperación ante desastres: aunque Azure Stream Analytics es una oferta de PaaS totalmente administrada, no proporciona conmutación por error geográfica automática. La redundancia geográfica se puede lograr mediante la implementación de trabajos idénticos de Stream Analytics en varias regiones de Azure.
  • Azure Machine Learning

  • Power BI

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: Power BI Pro
    • Opciones de mejora de la recuperación ante desastres: N/A, la resistencia de Power BI forma parte de su oferta de SaaS
    • Notas
  • Azure Cosmos DB

  • Azure Data Share

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: N/A
    • Opciones de mejora de la recuperación ante desastres: la implementación de alta disponibilidad en una región secundaria puede mejorar la resistencia de Azure Data Share.
  • Microsoft Purview

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Contoso
    • Selección de SKU de Contoso: N/A
    • Opciones de mejora de la recuperación ante desastres: N/A
    • Notas

Servicios específicos de la plataforma de datos sin estado

  • Azure Synapse: canalizaciones

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Contoso
    • Selección de SKU de Contoso: Gen2 optimizado para proceso
    • Opciones de mejora de la recuperación ante desastres: N/A, la resistencia de Synapse forma parte de su oferta de SaaS mediante la característica de conmutación por error automática
    • Notas
      • Si se usan canalizaciones de datos autohospedadas, seguirá siendo responsabilidad del cliente la recuperación de un desastre.
  • Azure Synapse: grupos de Data Explorer

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Contoso
    • Selección de SKU de Contoso: optimizado para proceso, pequeño (4 núcleos)
    • Opciones de mejora de la recuperación ante desastres: N/A, la resistencia de Synapse forma parte de su oferta de SaaS
    • Notas
      • Availability Zones está habilitado de manera predeterminada para Synapse Data Explorer cuando esté disponible.
  • Azure Synapse: grupos de Spark

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Contoso
    • Selección de SKU de Contoso: optimizado para proceso, pequeño (4 núcleos)
    • Opciones de mejora de la recuperación ante desastres: N/A, la resistencia de Synapse forma parte de su oferta de SaaS
    • Notas
  • Azure Synapse: grupos de SQL dedicados y sin servidor

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Contoso
    • Selección de SKU de Contoso: Gen2 optimizado para proceso
    • Opciones de mejora de la recuperación ante desastres: N/A, la resistencia de Synapse forma parte de su oferta de SaaS
    • Notas
      • Azure Synapse Analytics toma automáticamente instantáneas a lo largo del día para crear puntos de restauración que están disponibles durante siete días.
      • Azure Synapse Analytics lleva a cabo una copia de seguridad geográfica estándar una vez al día en un centro de datos emparejado. El RPO de una restauración geográfica es de 24 horas.
      • Si se usan canalizaciones de datos autohospedadas, seguirá siendo responsabilidad del cliente la recuperación de un desastre.
  • Servicios de Azure AI (previamente Cognitive Services)

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: Pago por uso
    • Opciones de mejora de la recuperación ante desastres: N/D, las API de Servicios de AI se hospedan en centros de datos administrados por Microsoft.
    • Notas
      • Si se ha implementado Servicios de IA mediante contenedores Docker implementados por el cliente, la recuperación sigue siendo responsabilidad del cliente.
  • Azure AI Search (anteriormente Cognitive Search)

    • Responsabilidad de la recuperación de componentes: Microsoft
    • Responsabilidad de la recuperación de la carga de trabajo y la configuración: Microsoft
    • Selección de SKU de Contoso: Estándar S1
    • Opciones de mejora de la recuperación ante desastres:
    • Notas
      • En la Búsqueda de AI, la continuidad empresarial (y la recuperación ante desastres) se logra mediante varios servicios de la Búsqueda de AI.
      • No hay ningún mecanismo integrado para la recuperación ante desastres. Si se requiere continuidad del servicio en caso de un error catastrófico, se recomienda tener un segundo servicio en otra región e implementar una estrategia de replicación geográfica para asegurarse de que los índices sean totalmente redundantes en todos los servicios.

Componentes con estado frente a componentes sin estado

La velocidad de innovación en el conjunto de productos de Microsoft y Azure, en particular, significa que el conjunto de componentes que hemos usado para este ejemplo de trabajo evolucionará rápidamente. Para evitar que las orientaciones queden obsoletas en el futuro y ampliarlas a componentes no cubiertos explícitamente en este documento, la sección siguiente proporciona algunas instrucciones basadas en la clasificación general del estado.

Un componente o servicio se puede describir como con estado si está diseñado para recordar eventos o interacciones del usuario anteriores. Sin estado significa que no hay ningún registro de las interacciones anteriores y cada solicitud de interacción se debe controlar completamente en función de la información que viene con ella.

Para un escenario de recuperación ante desastres que se basa en una nueva implementación:

  • Los componentes o servicios "sin estado", como Azure Functions y las canalizaciones de Azure Data Factory, se pueden volver a implementar desde el control de código fuente con al menos una prueba de humo para validar la disponibilidad antes de introducirse en un sistema más amplio.
  • Los componentes o servicios "con estado", como Azure SQL Database y las cuentas de almacenamiento, requieren más atención.
    • Al proteger el componente, una decisión clave será la selección de la característica de redundancia de datos. Esta decisión se centra normalmente en un equilibrio entre la disponibilidad y la durabilidad con los costos operativos.
  • Los almacenes de datos también necesitarán una estrategia de copia de seguridad de datos. La funcionalidad de redundancia de datos del almacenamiento subyacente mitiga este riesgo para algunos diseños, mientras que otras, como las bases de datos SQL, necesitarán un proceso de copia de seguridad independiente.
    • Si es necesario, el componente se puede volver a implementar desde el control de código fuente con una configuración validada a través de una prueba de humo
    • Un almacén de datos redistribuido debe tener su conjunto de datos rehidratado. La rehidratación se puede lograr mediante la redundancia de datos (cuando esté disponible) o un conjunto de datos de copia de seguridad. Cuando se haya completado la rehidratación, se debe validar su precisión e integridad
      • En función de la naturaleza del proceso de copia de seguridad, los conjuntos de datos de copia de seguridad pueden requerir validación antes de aplicarse. Un proceso de copia de seguridad dañado o con error puede dar lugar a que se use una copia de seguridad anterior en lugar de la versión más reciente disponible
    • Cualquier diferencia entre la fecha o la marca de tiempo del componente y la fecha actual se debe abordar mediante una nueva ejecución o reproducción de los procesos de ingesta de datos desde ese punto hacia delante
    • Una vez actualizado el conjunto de datos del componente, se puede introducir en el sistema más amplio

Otros servicios clave

Esta sección contiene instrucciones de alta disponibilidad y recuperación ante desastres para otros componentes y servicios de datos clave de Azure.

Pasos siguientes

Ahora que ha aprendido sobre la arquitectura del escenario, puede obtener información sobre los detalles del escenario.