Conmutación por error y conmutación por recuperación con Azure Site Recovery

Completado

Azure Site Recovery permite que la organización tenga flexibilidad, ya sea mediante la conmutación por error manual a una región de Azure secundaria o mediante la conmutación por recuperación a una máquina virtual de origen. La manera más sencilla de administrar este proceso es de forma manual en Azure Portal. Aun así, si la empresa quiere automatizar la activación de la conmutación por error, existen otras opciones disponibles, Estas opciones incluyen tecnologías, como el scripting a través de PowerShell o la configuración de runbooks en Azure Automation, para orquestar conmutaciones por error.

Siga estos pasos para ejecutar una conmutación por error completa de una máquina virtual protegida a una región secundaria de la suscripción. Una vez que la conmutación por error se haya completado correctamente, conmutará por recuperación la máquina virtual.

En esta unidad, explorará la conmutación por error y la conmutación por recuperación. Además, descubrirá cómo volver a proteger una máquina virtual conmutada por error y cómo supervisar el estado de la reprotección.

¿Qué es la conmutación por error?

Diagram showing an unavailable source region, and a new target environment being failed over to.

La conmutación por error se produce cuando se decide ejecutar un plan de recuperación ante desastres para la organización. El entorno de producción existente, protegido mediante Site Recovery, se replica en otra región. El entorno de destino se convierte en el entorno de producción de facto y pasa a ser el entorno en el que se ejecutan los servicios de producción de la organización. Una vez que la región de destino esté activa, el entorno de origen ya no se debe usar. Para aplicar esta condición, deje detenidas las máquinas virtuales de origen.

Hay otra ventaja de apagar las máquinas virtuales de origen. Al apagarlas se produce una pérdida de datos mínima, ya que Site Recovery espera a que todos los datos se escriban en el disco antes de desencadenar la conmutación por error. Para usar estos datos y tener el objetivo de punto de recuperación (RPO) más bajo posible, hay que seleccionar el punto de recuperación Más reciente (RPO más bajo).

Screenshot showing the failover options.

¿Qué es la reprotección y por qué es importante?

Cuando se conmuta por error una máquina virtual, la replicación que realiza Site Recovery ya no está activa. Debe volver a habilitar la protección para empezar a proteger la máquina virtual conmutada por error. Como ya tiene la infraestructura en otra región, vuelva a iniciar la replicación de la región de origen. La reprotección permite a Site Recovery empezar a replicar el nuevo entorno de destino al entorno de origen en el que se ha iniciado.

Use la flexibilidad de la conmutación por error de máquinas virtuales únicas o la conmutación por error mediante un plan de recuperación para volver a proteger la infraestructura de conmutación por error. Es decir, puede volver a proteger cada máquina virtual de forma individual o volver a proteger varias máquinas virtuales con un plan de recuperación.

La reprotección tarda entre 45 minutos y dos horas, según el tamaño y el tipo de máquina virtual. A diferencia de los demás procesos de Site Recovery, que se pueden supervisar observando el progreso de los trabajos, el progreso de la reprotección debe visualizarse a nivel de máquina virtual. Esto se debe a que la fase de sincronización no aparece como un trabajo de Site Recovery.

En esta imagen se muestra el estado del elemento protegido, con el porcentaje de sincronización resaltado.

Screenshot showing the status of the patient-records VM, with the percentage synchronized highlighted.

¿Qué es la conmutación por recuperación?

La conmutación por recuperación sucede a la inversa de una conmutación por error. Se produce cuando se ha confirmado una conmutación por error completada a una región secundaria, que pasa a convertirse en el entorno de producción. La reprotección se ha completado para el entorno conmutado por error y el entorno de origen es ahora su réplica. En un escenario de conmutación por recuperación, Site Recovery conmutará por error a las máquinas virtuales de origen.

El proceso para completar una conmutación por recuperación es el mismo que para una conmutación por error, incluso en lo que respecta a reutilizar el plan de recuperación. La selección de la conmutación por error en el plan de recuperación tiene el valor De establecido en la región de destino y el valor A en la región de origen.

Administración de conmutaciones por error

Site Recovery puede ejecutar conmutaciones por error a petición. Las conmutaciones por error de prueba son aisladas, lo que significa que no afectan a los servicios de producción. Esta flexibilidad permite ejecutar una conmutación por error sin interrumpir a esos usuarios del sistema. La flexibilidad también funciona en sentido opuesto, lo que permite la conmutación por recuperación a petición como parte de una prueba planeada o como parte de un proceso de recuperación ante desastres completamente invocado.

Los planes de recuperación de Site Recovery también permiten la personalización y la secuenciación de la conmutación por error y la conmutación por recuperación. Estos planes posibilitan la agrupación de las máquinas y las cargas de trabajo.

También se puede aplicar flexibilidad a la manera en que se desencadena el proceso de conmutación por error. Las conmutaciones por error manuales son fáciles de llevar a cabo mediante Azure Portal. El scripting de PowerShell o el uso de runbooks en Azure Automation también proporcionan opciones de automatización.

Corrección de problemas relacionados con una conmutación por error

Aunque Site Recovery está automatizado, se pueden producir errores. En la siguiente lista se muestran los tres problemas más comunes que se suelen observar. Para obtener una lista completa de los problemas y cómo solucionarlos, vea el vínculo incluido en la unidad de resumen.

Problemas de cuota de recursos de Azure

Site Recovery debe crear recursos en diferentes regiones. Si la suscripción no puede hacerlo, se produce un error en la replicación. Este error también se produce si la suscripción no tiene los límites de cuota adecuados para crear máquinas virtuales que coincidan con el tamaño de las máquinas virtuales de origen.

Para corregirlo, póngase en contacto con el servicio de soporte técnico de facturación de Azure y solicítele que creen máquinas virtuales del tamaño correcto en la región de destino necesaria.

Hay uno o varios discos disponibles para la protección

Este error se produce si, al terminar de configurar Site Recovery para las máquinas virtuales, agrega o inicializa discos adicionales.

Para corregir este error, puede agregar replicación para los discos recién agregados o bien omitir la advertencia sobre el disco.

Certificados raíz de confianza

Compruebe que estén instalados los certificados raíz más recientes para permitir que Site Recovery se comunique y autentique las máquinas virtuales para la replicación de forma segura. Podría ver este error si las máquinas virtuales no tienen aplicadas las actualizaciones más recientes. Antes de que Site Recovery habilite la replicación, debe actualizar las máquinas virtuales Windows y Linux.

La corrección es diferente para cada sistema operativo. En Windows, es tan fácil como asegurarse de que la actualización automática de Windows esté activada y se apliquen las actualizaciones. Para cada distribución de Linux, deberá seguir las instrucciones proporcionadas por el distribuidor.