Uso de clústeres extendidos de Azure Stack HCI para la recuperación ante desastres

Azure Stack HCI

Azure Blob Storage

Azure Backup

Azure Monitor

La siguiente arquitectura de referencia muestra cómo diseñar e implementar la recuperación ante desastres de Azure Stack HCl mediante los clústeres extendidos.

Arquitectura

Descargue un archivo Visio de esta arquitectura.

Componentes

La arquitectura consta de los componentes y las funcionalidades siguientes:

Azure Stack HCI (22H2) . Azure Stack HCI es una solución de clúster de infraestructura hiperconvergida (HCI) que puede usar para hospedar cargas de trabajo de Windows y Linux virtualizadas, así como su almacenamiento en un entorno local híbrido. Puede configurar el clúster extendido con 4 a 16 nodos físicos.
Réplica de almacenamiento . Réplica de almacenamiento es una tecnología de Windows Server que permite la replicación de volúmenes entre servidores o clústeres con fines de recuperación ante desastres.
Migración en vivo. Migración en vivo es una característica de Hyper-V de Windows Server que le permite trasladar sin problemas máquinas virtuales (VM) en ejecución desde un host de Hyper-V a otro sin que se perciba tiempo de inactividad.
Testigo en la nube . Es un testigo de cuórum de clúster de conmutación por error que usa Microsoft Azure Blob Storage para proporcionar un voto en el cuórum de clúster.

Detalles del escenario

Esta arquitectura se usa normalmente para la recuperación ante desastres con conmutación automática por error de las VM de Azure Stack HCI y los recursos compartidos de archivos entre dos ubicaciones físicas dentro de un intervalo de latencia de red de ida y vuelta de 5 ms.

Recomendaciones

La siguiente recomendación sirven para la mayoría de los escenarios. Sígala a menos que tenga un requisito concreto que la invalide.

Uso de clústeres extendidos para implementar la recuperación ante desastres automatizada para cargas de trabajo virtualizadas y recursos compartidos de archivos hospedados en Azure Stack HCl

Para mejorar la resistencia integrada de Azure Stack HCl, implemente un clúster extendido de Azure Stack HCI que conste de dos grupos de nodos, con un grupo por sitio. Cada grupo debe contener un mínimo de dos nodos. El número total de nodos de un clúster no puede superar el número máximo de nodos que admite un clúster de Azure Stack HCI. Los nodos deben cumplir los requisitos de hardware de HCl estándar.

Un clúster extendido de Azure Stack HCI se basa en la réplica de almacenamiento para realizar la replicación sincrónica de almacenamiento entre los volúmenes de almacenamiento hospedados por los dos grupos de nodos en sus respectivos sitios físicos. Si un error afecta a la disponibilidad del sitio principal, el clúster realiza automáticamente la transición de sus cargas de trabajo a los nodos del sitio superviviente para minimizar el tiempo de inactividad potencial. En el caso de los tiempos de inactividad planeados o esperados en el sitio principal, puede usar Migración en vivo de Hyper-V para realizar la transición sin problemas de las cargas de trabajo al otro sitio, y evitar así tiempos de inactividad. En este escenario, debe tener en cuenta la ubicación de almacenamiento. Primero debe invertir la dirección de replicación de la réplica de almacenamiento y, a continuación, realizar la migración en vivo de las máquinas virtuales. Habrá un impacto en el rendimiento hasta que finalice la migración en vivo.

Nota

La replicación sincrónica garantiza la coherencia de bloqueos sin pérdida de datos en el nivel del sistema de archivos durante una conmutación por error.

Precaución

El requisito de replicación sincrónica aplicable a los clústeres extendidos impone un límite de latencia de red de ida y vuelta de 5 ms entre dos grupos de nodos de clúster en los sitios replicados. En función de las características de conectividad de red física, esta restricción normalmente se traduce en unas 20-30 millas físicas.

Nota

La funcionalidad de firma y cifrado de Réplica de almacenamiento protege automáticamente el tráfico de replicación.

Consideraciones

El Marco de buena arquitectura de Microsoft Azure es un conjunto de principios de orientación que se siguen en esta arquitectura de referencia. Las consideraciones siguientes se enmarcan en el contexto de estos principios.

Confiabilidad

La confiabilidad garantiza que la aplicación pueda cumplir los compromisos contraídos con los clientes. Para más información, consulte Resumen del pilar de fiabilidad.

Dominios de error de nivel de sitio. Cada sitio físico de un clúster extendido de Azure Stack HCI representa dominios de error distintos que proporcionan resistencia adicional. Un dominio de error es un conjunto de componentes de hardware que comparten un único punto de error. Para ser tolerante a errores en un nivel determinado, se necesitan varios dominios de error en ese nivel.

Nota

Si cada ubicación corresponde a un sitio de AD DS independiente, el proceso de aprovisionamiento de clústeres configura automáticamente la asignación de sitio. Si no hay ningún sitio de AD DS independiente que represente las dos ubicaciones, pero los nodos están en dos subredes diferentes, el proceso de aprovisionamiento de clústeres identificará los sitios en función de las asignaciones de subred. Si los nodos están en la misma subred, debe definir explícitamente la asignación de sitio.

Reconocimiento del sitio. El reconocimiento del sitio permite controlar la colocación de las cargas de trabajo virtualizadas mediante la designación de sus sitios preferidos. La especificación del sitio preferido para un clúster extendido ofrece muchas ventajas, entre las que se incluyen la posibilidad de agrupar las cargas de trabajo en el nivel de sitio y de personalizar las opciones de votación de cuórum. De forma predeterminada, durante un inicio en frío, todas las máquinas virtuales usan el sitio preferido, aunque también es posible configurar el sitio preferido en el nivel de grupo o rol de clúster. Esto le permite asignar máquinas virtuales específicas a sus sitios respectivos en el modo activo/activo. Desde la perspectiva del cuórum, la selección del sitio preferida afecta a la asignación de votos en favor del sitio. Por ejemplo, si se produce un error en la conectividad entre los dos sitios que hospedan los nodos de clúster extendido y el testigo de clúster no es accesible, el sitio preferido permanece en línea, mientras que los nodos del otro sitio se expulsan.
Mayor velocidad de reparación de los volúmenes de Espacios de almacenamiento directo. Espacios de almacenamiento directo proporciona resincronización automática después de los eventos que afectan a la disponibilidad de discos en este bloque de almacenamiento, como cerrar uno de los nodos del clúster o un error de hardware localizado. Azure Stack HCl implementa un proceso de resincronización mejorado que funciona con una granularidad mucho más fina que Windows Server 2019. Este proceso reduce significativamente la duración de la operación de resincronización y minimiza el impacto potencial de varios errores de hardware superpuestos.
Límites de resistencia. Azure Stack HCI proporciona varios niveles de resistencia, pero debido a su arquitectura hiperconvergida, esa resistencia está sujeta a límites impuestos no solo por el cuórum del clúster, sino también por el cuórum del grupo.
Integración con una variedad de servicios de Azure que proporcionan ventajas adicionales de resistencia. Puede integrar cargas de trabajo virtualizadas que se ejecutan en clústeres de Azure Stack HCI con estos servicios de Azure, como Azure Backup y Azure Site Recovery.
Conmutación por error acelerada. Puede optimizar la infraestructura de red y su configuración para agilizar la realización de una conmutación por error de nivel de sitio. Por ejemplo, puede aprovechar las LAN virtuales extendidas (VLAN), los dispositivos de abstracción de red y los valores de período de vida (TTL) más cortos en los registros DNS que representan los recursos en clúster. Además, considere la posibilidad de reducir el período de resistencia predeterminado, que determina el período de tiempo durante el que se permite que una VM en clúster se ejecute en el estado aislado.

Precaución

El uso de clústeres extendidos con SDN se considera una opción de configuración avanzada, por lo que debe ponerse en contacto con el integrador de sistemas o el Soporte técnico de Microsoft para obtener más ayuda.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para más información, consulte Introducción al pilar de seguridad.

Protección en tránsito. La réplica de almacenamiento ofrece seguridad integrada para su tráfico de replicación, lo que incluye firma de paquetes, cifrado de datos completo AES-128-GCM, compatibilidad con la aceleración de cifrado AES-NI de Intel e integridad de la autenticación previa y la prevención de ataques de tipo "Man in the Middle". La réplica de almacenamiento también emplea Kerberos AES256 para la autenticación entre los nodos de replicación.
Cifrado en reposo. Azure Stack HCI admite el Cifrado de unidad BitLocker para sus volúmenes de datos, lo que facilita el cumplimiento de estándares como FIPS 140-2 e HIPAA.
Integración con una variedad de servicios de Azure que proporcionan ventajas de seguridad adicionales. Puede integrar cargas de trabajo virtualizadas que se ejecutan en clústeres de Azure Stack HCI con servicios de Azure, como Microsoft Defender for Cloud
Configuración compatible con firewall. El tráfico de la réplica de almacenamiento requiere un número limitado de puertos abiertos entre los nodos de replicación.

Precaución

La réplica de almacenamiento y los clústeres extendidos de Azure Stack HCI deben funcionar en un entorno de AD DS. Al planear la implementación de clústeres extendidos de Azure Stack HCI, asegúrese de existe conectividad a los controladores de dominio de AD DS en cada sitio que hospeda nodos de clúster.

Optimización de costos

La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.

Diferencias entre roles activo/activo y activo/pasivo. Los clústeres extendidos de Azure Stack HCI admiten los modos activo/pasivo y activo/activo. En el modo activo/pasivo, un sitio primario designado se replica de forma unidireccional a otro sitio que proporciona la funcionalidad de recuperación ante desastres. En el modo activo/activo, dos sitios replican sus respectivos volúmenes de forma unidireccional entre sí, lo que proporciona la funcionalidad de conmutación por error en caso de error en cualquiera de los dos sitios. El modo activo/activo ayuda a minimizar los costos de continuidad del negocio al eliminar la necesidad de un sitio de recuperación ante desastres dedicado.
Comparación de un testigo en la nube con un testigo de recurso compartido de archivos. Un recurso de testigo es un componente obligatorio en los clústeres de Azure Stack HCI. Para implementarlo, elija un testigo en la nube de Azure o un testigo de recurso compartido de archivos. Un testigo en la nube de Azure se basa en un blob de una cuenta de Azure Storage designada como punto de arbitraje para evitar escenarios de cerebro dividido. Un testigo de recurso compartido de archivos se basa en un recurso compartido de archivos de Bloque de mensajes del servidor (SMB) para lograr el mismo objetivo.

Nota

Testigo en la nube de Azure es la opción recomendada para los clústeres extendidos de Azure Stack HCI, siempre que todos los nodos de servidor del clúster tengan conexiones a Internet confiables. Los cargos de Azure correspondientes son insignificantes; se basan en el precio de un blob pequeño con actualizaciones poco frecuentes correspondientes a los cambios en el estado del clúster. En escenarios que implican clústeres extendidos, un testigo de recurso compartido de archivos debe residir en un tercer sitio, lo que puede aumentar significativamente los costos de implementación, a menos que el tercer sitio ya esté disponible y tenga conexiones confiables existentes con los sitios que hospedan los nodos de clúster extendido.

Desduplicación de datos. Azure Stack HCl y la réplica de almacenamiento admiten la desduplicación de datos. A partir de Windows Server 2019, la desduplicación está disponible en volúmenes formateados con el Sistema de archivos resistente (ReFS), que es el sistema de archivos recomendado para Azure Stack HCl. La desduplicación ayuda a aumentar la capacidad de almacenamiento utilizable mediante la identificación de partes duplicadas de archivos y su almacenamiento solo una vez.

Precaución

Aunque debe instalar el servicio de rol del servidor Desduplicación de datos en los servidores de origen y de destino, no habilite la característica Desduplicación de datos en los nodos de destino dentro de un clúster extendido de Azure Stack HCI. Dado que la desduplicación de datos administra las escrituras, solo debe ejecutarse en los nodos de clúster de origen. Los nodos de destino siempre reciben copias desduplicadas de cada volumen.

Excelencia operativa

La excelencia operativa abarca los procesos de las operaciones que implementan una aplicación y la mantienen en ejecución en producción. Para más información, consulte Introducción al pilar de excelencia operativa.

Recuperación y conmutación automática por error. Un error del sitio primario desencadena una conmutación automática por error. Después de la conmutación por error, el proceso de establecer la replicación también del nuevo sitio primario o el sitio secundario anterior al nuevo sitio secundario o el sitio primario anterior. Para evitar la posible pérdida de datos, el clúster impide la conmutación por recuperación hasta que los volúmenes replicados se sincronizan por completo.
Experiencia simplificada de aprovisionamiento y administración mediante Windows Admin Center. El Asistente para crear clúster de Windows Admin Center proporciona una interfaz controlada por asistente que le guía en el proceso de creación de un clúster extendido de Azure Stack HCI. El asistente detecta si los nodos de clúster residen en dos sitios de Active Directory Domain Services (AD DS) distintos o si sus direcciones IP pertenecen a dos subredes diferentes. Si residen en dos subredes diferentes, el asistente crea y configura automáticamente los sitios de clúster correspondientes, cada uno de los cuales representa un dominio de error independiente. También permite designar el sitio preferido. Del mismo modo, Windows Admin Center simplifica el proceso de aprovisionamiento de volúmenes replicados.

Nota

La creación de volúmenes y discos virtuales para clústeres extendidos es más complicada que en el caso de los clústeres de un solo sitio. Los clústeres extendidos requieren un mínimo de cuatro volúmenes: dos volúmenes de datos y dos de registro, con un par de volúmenes de datos/registro en cada sitio. Al crear un volumen de datos replicados mediante Windows Admin Center, el proceso aprovisiona automáticamente el volumen de registro en el sitio principal y los volúmenes replicados de datos y de registro en el sitio secundario, lo que garantiza que cada uno de ellos tiene el tamaño y la configuración necesarios.

Compatibilidad con el aprovisionamiento de clústeres extendidos automatizados y la administración de almacenamiento mediante Windows PowerShell. Puede ejecutar PowerShell localmente desde uno de los servidores de Azure Stack HCI o de forma remota desde un equipo de administración.
Integración con una variedad de servicios de Azure que proporcionan ventajas operativas adicionales. Puede integrar cargas de trabajo virtualizadas que se ejecutan en clústeres de Azure Stack HCI con estos servicios de Azure, como las soluciones Azure Monitor y Azure Automation, que incluyen Seguimiento de cambios e inventario y Update Management. Después de un procedimiento de registro obligatorio inicial, los clústeres de Azure Stack HCI pueden utilizar Azure Arc para la supervisión y la facturación. La integración de Azure Arc ofrece integración mejorada con otros servicios híbridos, como Azure Policy y Log Analytics. El registro desencadena la creación de un recurso de Azure Resource Manager que representa un clúster de Azure Stack HCl, que extiende de manera eficaz el plano de administración de Azure a Azure Stack HCl.

Eficiencia del rendimiento

La eficiencia del rendimiento es la capacidad de la carga de trabajo para escalar con el fin de satisfacer de manera eficiente las demandas que los usuarios hayan ejercido sobre ella. Para obtener más información, vea Resumen del pilar de eficiencia del rendimiento.

Tráfico de replicación optimizado. Al diseñar la infraestructura para clústeres extendidos de Azure Stack HCI, considere el tráfico de la réplica de almacenamiento adicional, la Migración en vivo y el historial de rendimiento del clúster de réplica de almacenamiento que fluye entre los sitios. La replicación sincrónica requiere al menos 1 Gb de acceso directo a memoria remota (RDMA) o conexión Ethernet/TCP entre los sitios de clúster extendido. Sin embargo, en función del volumen de tráfico de replicación, es posible que necesite una conexión RDMA más rápida. También debe aprovisionar varias conexiones entre sitios, lo que proporciona ventajas de resistencia y permite separar el tráfico de réplica de almacenamiento del tráfico de migración en vivo de Hyper-V.

Precaución

RDMA está habilitado de forma predeterminada para todo el tráfico entre los nodos de clúster de un mismo sitio de la misma subred. RDMA está deshabilitado y no se admite entre sitios o entre diferentes subredes. Debe deshabilitar SMB directo para el tráfico entre sitios o implementar aprovisionamientos adicionales que lo separen del tráfico entre nodos en el mismo sitio.

Compatibilidad con la sincronización inicial inicializada. Puede implementar la sincronización inicial inicializada en escenarios en los que es necesario minimizar el tiempo de sincronización inicial o en los que el ancho de banda disponible entre los dos sitios que hospedan el clúster extendido es limitado.
Procesamiento optimizado de E/S de almacenamiento. Garantice la configuración óptima de los volúmenes de registros y datos replicados, incluidos el nivel de rendimiento, la definición del tamaño del volumen y del sector, el tipo de disco y el sistema de archivos.

Nota

Windows Admin Center asigna automáticamente la configuración óptima si se usa para el aprovisionamiento de volúmenes de clúster extendido.

Compartir a través de

Uso de clústeres extendidos de Azure Stack HCI para la recuperación ante desastres

Arquitectura

Componentes

Detalles del escenario

Recomendaciones

Uso de clústeres extendidos para implementar la recuperación ante desastres automatizada para cargas de trabajo virtualizadas y recursos compartidos de archivos hospedados en Azure Stack HCl

Consideraciones

Confiabilidad

Seguridad

Optimización de costos

Excelencia operativa

Eficiencia del rendimiento

Pasos siguientes

Comentarios

Recursos adicionales

Compartir a través de

Uso de clústeres extendidos de Azure Stack HCI para la recuperación ante desastres

Arquitectura

Componentes

Detalles del escenario

Recomendaciones

Uso de clústeres extendidos para implementar la recuperación ante desastres automatizada para cargas de trabajo virtualizadas y recursos compartidos de archivos hospedados en Azure Stack HCl

Consideraciones

Confiabilidad

Seguridad

Optimización de costos

Excelencia operativa

Eficiencia del rendimiento

Pasos siguientes

Recursos relacionados

Comentarios

Recursos adicionales