Recuperación en la región mediante zonas de disponibilidad y recuperación ante desastres geográfica entre regiones (Azure Event Grid)

En este artículo se describe cómo Azure Event Grid admite la recuperación automática en la región de las definiciones de recursos y los datos de Event Grid cuando se produce un error en una región que tiene zonas de disponibilidad. También se describe cómo Event Grid admite la recuperación automática de definiciones de recursos de Event Grid (sin datos) en otra región cuando se produce un error en una región que tiene una región emparejada.

Recuperación en la región mediante zonas de disponibilidad

Las zonas de disponibilidad de Azure son ubicaciones separadas físicamente dentro de cada región de Azure y toleran los errores locales. Están conectados por una red de alto rendimiento con una latencia de ida y vuelta de menos de 2 milisegundos. Cada zona de disponibilidad consta de uno o varios centros de datos equipados con una infraestructura de alimentación, refrigeración y redes independientes. Si una zona se ve afectada, los servicios regionales, la capacidad y la alta disponibilidad se mantienen en las dos zonas restantes. Para más información sobre Availability Zones, consulte Regiones y zonas de disponibilidad. En este artículo, también puede ver la lista de regiones que tienen zonas de disponibilidad.

Las definiciones de recursos de Event Grid para temas, temas del sistema, dominios y suscripciones de eventos y datos de eventos se replican automáticamente en tres zonas de disponibilidad (cuando están disponibles) en la región. Cuando se produce un error en una de las zonas de disponibilidad, los recursos de Event Grid conmutan por error automáticamente a otra zona de disponibilidad sin intervención humana. Actualmente, no es posible controlar (habilitar o deshabilitar) esta característica. Cuando una región existente comienza a admitir zonas de disponibilidad, los recursos de Event Grid existentes se conmutarán por error automáticamente para aprovechar esta característica. No se requiere ninguna acción del cliente.

Diagrama que muestra las zonas de disponibilidad que protegen contra desastres localizados y desastres regionales o geográficos a gran escala, mediante el uso de otra región.

Recuperación ante desastres geográfica entre regiones

Cuando una región de Azure experimenta una interrupción prolongada, es posible que le interesen las opciones de conmutación por error en una región alternativa para la continuidad empresarial. Muchas regiones de Azure tienen pares geográficos y algunas no. Para obtener una lista de las regiones que tienen regiones emparejadas, consulte Emparejamientos de replicación entre regiones de Azure para todas las zonas geográficas.

En el caso de las regiones con un par geográfico, Event Grid ofrece una funcionalidad para conmutar por error el tráfico de publicación en la región emparejada para temas personalizados, temas del sistema y dominios. En segundo plano, Event Grid sincroniza automáticamente las definiciones de recursos de temas, temas del sistema, dominios y suscripciones de eventos a la región emparejada. Sin embargo, los datos de eventos no se replican en la región emparejada. En el estado normal, los eventos se almacenan en la región seleccionada para ese recurso. Cuando se produce una interrupción de la región y Microsoft inicia la conmutación por error, los nuevos eventos comienzan a fluir a la región emparejada geográficamente y se enviarán desde allí sin intervención de usted. Los eventos publicados y aceptados en la región original se envían desde allí después de mitigar la interrupción.

La conmutación por error iniciada por Microsoft la ejecuta Microsoft en situaciones concretas para conmutar por error todos los recursos de Event Grid de una región afectada en la región emparejada geográficamente correspondiente. Microsoft se reserva el derecho de determinar cuándo se ejercerá esta opción. Este mecanismo no precisa de consentimiento del usuario antes de realizar la conmutación por error del tráfico del usuario.

Puede habilitar o deshabilitar esta funcionalidad actualizando la configuración del tema o dominio. Seleccione la opción Cross-Geo (valor predeterminado) para habilitar la conmutación por error iniciada por Microsoft y Regional para deshabilitarla. Para conocer los pasos detallados para configurar esta opción, consulte Configuración de la residencia de datos. Si opta por regional, Microsoft no replica ningún dato de ningún tipo en otra región y puede definir su propio plan de recuperación ante desastres. Para más información, consulte Compilación de su propio plan de recuperación ante desastres para temas y dominios de Azure Event Grid.

Captura de pantalla que muestra la página Configuración de un tema personalizado de Event Grid.

Estas son algunas razones por las que puede que quiera deshabilitar la característica de conmutación por error iniciada por Microsoft:

  • La conmutación por error iniciada por Microsoft se realiza de la mejor manera posible.
  • Algunos pares geográficos no cumplen los requisitos de residencia de datos de su organización.

En tales casos, la opción recomendada es crear su propio plan de recuperación ante desastres para Azure Event Grid temas y dominios. Aunque esta opción requiere un poco más de esfuerzo, permite una conmutación por error más rápida y está en control de la elección de regiones secundarias. Si desea implementar la recuperación ante desastres del lado del cliente para los temas de Azure Event Grid, consulte Crear su propia recuperación ante desastres del lado del cliente para los temas de Azure Event Grid.

RTO y RPO

La recuperación ante desastres se mide con dos métricas:

  • Objetivo de punto de recuperación (RPO): minutos u horas de datos que se pueden perder.
  • Objetivo de tiempo de recuperación (RTO): minutos u horas que el servicio puede estar inactivo.

La conmutación automática por error de Event Grid tiene diferentes RPO y RTO para los metadatos (temas, dominios y suscripciones a eventos) y los datos (eventos). Si necesita una especificación distinta a las siguientes, siempre puede implementar su propia conmutación por error del lado cliente con las API de estado de temas.

Objetivo de punto de recuperación (RPO)

  • RPO de metadatos: cero minutos. Para los recursos aplicables, cuando se crea, actualiza o elimina un recurso, la definición del recurso se replica sincrónicamente en el par geográfico. Cuando se produce una conmutación por error, no se pierde ningún metadato.

  • RPO de datos: cuando se produce una conmutación por error, los nuevos datos se procesan desde la región emparejada. En cuanto se mitiga la interrupción de la región afectada, los eventos no procesados se envían desde allí. Si la recuperación de la región requiere más tiempo que el valor de período de vida establecido en eventos, los datos se podrían quitar. Para mitigar esta pérdida de datos, se recomienda configurar un destino de mensajes fallidos para una suscripción de eventos. Si la región afectada se pierde y no se puede recuperar, habrá cierta pérdida de datos. En el mejor de los casos, el suscriptor se mantiene al día con la tasa de publicación y solo se pierden unos segundos de datos. El peor escenario sería cuando el suscriptor no procesa activamente eventos y con un tiempo máximo de vida de 24 horas, la pérdida de datos puede ser de hasta 24 horas.

Objetivo de tiempo de recuperación (RTO)

  • RTO de metadatos: la toma de decisiones de conmutación por error se basa en factores como la capacidad disponible en la región emparejada y pueden durar en el intervalo de 60 minutos o más. Una vez iniciada la conmutación por error, en un plazo de 5 minutos, Event Grid comienza a aceptar llamadas de creación, actualización y eliminación para temas y suscripciones.

  • RTO de datos: igual que la información anterior.

Importante

  • En caso de recuperación ante desastres del lado del servidor, si la región emparejada no tiene capacidad extra para asumir el tráfico adicional, Event Grid no puede iniciar la conmutación por error. La recuperación se realiza de la mejor manera posible.
  • El uso de esta característica no tiene costo.
  • No se admite la recuperación ante desastres geográfica para espacios de nombres de asociados y temas de asociados.

Pasos siguientes

Consulte Compilación de su propia recuperación ante desastres del lado cliente para temas de Azure Event Grid.