Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Azure VMware Solution proporciona nubes privadas que contienen clústeres de VMware vSphere construidos a partir de una infraestructura de Azure bare-metal dedicada. Puede migrar cargas de trabajo desde los entornos locales, implementar nuevas máquinas virtuales (VM) y consumir servicios de Azure desde las nubes privadas. Puede usar una combinación de funcionalidades nativas de VMware y Azure para habilitar la alta disponibilidad y la resistencia de las cargas de trabajo.
Cuando se usa Azure, la confiabilidad es una responsabilidad compartida. Microsoft proporciona una variedad de funcionalidades para admitir resistencia y recuperación. Es responsable de comprender cómo funcionan esas funcionalidades dentro de todos los servicios que usa y de seleccionar las funcionalidades que necesita para cumplir los objetivos empresariales y los objetivos de tiempo de actividad.
En este artículo se describe cómo hacer que Azure VMware Solution sea resistente a posibles interrupciones y problemas, incluidos errores transitorios, interrupciones de zona de disponibilidad y interrupciones de regiones. También se describe cómo puede usar copias de seguridad para recuperarse de otros tipos de problemas y se resalta cierta información clave sobre el contrato de nivel de servicio (SLA) de Azure VMware Solution.
Recomendaciones de implementación de producción
Las implementaciones de Azure VMware Solution requieren una planeación cuidadosa en una variedad de áreas y, a menudo, requieren varios servicios de Azure. Para obtener instrucciones detalladas, consulte Cargas de trabajo de Azure VMware Solution en Well-Architected Framework.
Introducción a la arquitectura de confiabilidad
Azure VMware Solution usa una infraestructura hiperconvergida con clústeres de VMware vSphere.
Al implementar Azure VMware Solution, se implementa una nube privada, que tiene uno o varios clústeres. Cada clúster contiene hosts ESXi que proporcionan proceso, almacenamiento a través de vSAN y redes a través de VMware NSX. Hay dos generaciones de Azure VMware Solution:
- Gen 1 utiliza hardware bare-metal especializado para los nodos y emplea enfoques de red dedicados. Para más información sobre los conceptos clave, consulte Conceptos clave de la nube privada y el clúster de Azure VMware Solution.
- Gen 2 usa tipos de máquinas virtuales de Azure estándar y redes virtuales de Azure. Esta arquitectura simplifica la arquitectura de red, mejora las velocidades de transferencia de datos, reduce la latencia de las cargas de trabajo y mejora el rendimiento al acceder a otros servicios de Azure.
Tolerancia a errores
Azure VMware Solution proporciona varios mecanismos para controlar los errores en el nivel de infraestructura y aplicación:
vSphere High Availability (HA): vSphere HA supervisa los anfitriones ESXi y las máquinas virtuales. Si se produce un error en un host, reinicia automáticamente las máquinas virtuales afectadas en hosts correctos. vSphere HA está habilitado por defecto y reserva la capacidad de proceso y memoria para un único fallo de nodo.
Tolerancia a errores de vSAN: las directivas de almacenamiento de vSAN protegen contra errores transitorios de nivel de almacenamiento manteniendo varias copias de datos entre hosts. Si una ruta de acceso de almacenamiento o un disco experimenta problemas transitorios, vSAN controla automáticamente la conmutación por error a rutas de acceso de almacenamiento saludables.
Redundancia de red: Azure VMware Solution proporciona rutas de acceso de red redundantes y varios adaptadores de red VMkernel para controlar errores transitorios de nivel de red.
Resistencia a errores transitorios
Los errores transitorios son errores breves e intermitentes en los componentes. Se producen con frecuencia en un entorno distribuido como la nube y son una parte normal de las operaciones. Los errores transitorios se corrigen después de un breve período de tiempo. Es importante que las aplicaciones puedan controlar errores transitorios, normalmente mediante el reintento de solicitudes afectadas.
Todas las aplicaciones hospedadas en la nube deben seguir las instrucciones de control de errores transitorios de Azure cuando se comunican con cualquier API, bases de datos y otros componentes hospedados en la nube. Para obtener más información, consulte Recomendaciones para controlar errores transitorios.
En el caso de las aplicaciones que se ejecutan en máquinas virtuales de Azure VMware Solution, implemente procedimientos estándar de control de errores transitorios:
- Configurar estrategias de reintento adecuadas con retroceso exponencial
- Uso de patrones de disyuntor para llamadas de servicio externas
- Supervisión del estado de la aplicación e implementación de una degradación correcta
- Diseñar aplicaciones sin estado siempre que sea posible para reducir el impacto de los reinicios de la máquina virtual
Resistencia a errores de zona de disponibilidad
Las zonas de disponibilidad son grupos físicamente independientes de centros de datos dentro de una región de Azure. Cuando una zona falla, los servicios pueden transferirse a una de las zonas restantes.
Azure VMware Solution Gen 1 admite zonas de disponibilidad a través de clústeres extendidos, que distribuyen hosts ESXi entre dos zonas de disponibilidad dentro de una región. Microsoft selecciona las zonas que se van a usar. El clúster se ejecuta en una configuración activa-activa en las dos zonas y vSAN también abarca varias zonas. Puede designar si cada carga de trabajo se implementa en una o dos zonas.
Un nodo testigo se implementa automáticamente en una tercera zona de disponibilidad para proporcionar cuórum para escenarios de cerebro dividido. Microsoft administra automáticamente el nodo testigo.
Un clúster estándar es uno que no se extiende entre zonas. En un clúster estándar, el clúster y todos sus hosts ESXi se consideran no zonales o regionales. Los clústeres no zonales se pueden colocar en cualquier zona de disponibilidad dentro de la región y Microsoft selecciona la zona. Si una zona de disponibilidad de la región experimenta una interrupción, los clústeres y hosts no zonales podrían estar en la zona afectada y podrían experimentar tiempo de inactividad.
Azure VMware Solution Gen2 admite implementaciones zonales de nubes privadas. Al configurar una nube privada zonal, cada uno de sus clústeres y todos sus hosts ESXi se implementan en una sola zona de disponibilidad que seleccione.
Una nube privada zonal no protege frente a errores de zona de disponibilidad. Puede implementar varias nubes privadas en zonas de disponibilidad independientes para lograr una mayor resistencia, pero es responsable de implementar y configurar cada nube privada de forma independiente.
Si no selecciona una zona de disponibilidad, la nube privada, sus clústeres y todos sus hosts ESXi se consideran no zonales o regionales. Los clústeres no zonales se pueden colocar en cualquier zona de disponibilidad dentro de la región y Microsoft selecciona la zona. Si una zona de disponibilidad de la región experimenta una interrupción, los clústeres nozonales podrían estar en la zona afectada y podrían experimentar tiempo de inactividad.
Para ver información sobre la compatibilidad de zonas de disponibilidad para otras generaciones, seleccione la generación adecuada al principio de esta página.
Requisitos
Compatibilidad con regiones: Los clústeres extendidos están disponibles en regiones de Azure seleccionadas que admiten la configuración de clúster extendido. Compruebe la zona de disponibilidad de la región de Azure para la tabla de asignación de tipos de host para obtener compatibilidad con la región actual.
Hosts mínimos: Implemente un mínimo de seis hosts en dos zonas de disponibilidad (tres hosts por zona) para habilitar la configuración de clúster extendido. Al escalar hacia dentro o hacia fuera, debe hacerlo en pares para que el número de hosts sea igual en cada zona.
SKU de host: Los clústeres extendidos se admiten con los tipos de host AV36, AV36P y AV52. La SKU de AV64 no es compatible con clústeres alargados.
Compatibilidad con regiones: Puede implementar nubes privadas zonales en regiones que admiten Azure VMware Solution Gen 2 y también admiten zonas de disponibilidad.
Consideraciones
Cada zona de disponibilidad de una región puede admitir tipos de host específicos. Para obtener una lista detallada de los tipos de host disponibles en cada zona, consulte la tabla de asignación de tipos de host a zona de disponibilidad en la región de Azure.
Cost
Genera costos para cada nodo del clúster, independientemente de la configuración de la zona de disponibilidad del clúster. Para obtener información detallada sobre los precios, consulte Precios de Azure VMware Solution.
Configurar soporte de zonas de disponibilidad
Implementación de un nuevo clúster: Al crear una nueva nube privada de Azure VMware Solution en una región admitida, puede configurarla como un clúster extendido durante la implementación. Esta configuración distribuye los hosts entre dos zonas de disponibilidad automáticamente. Para más información, consulte Implementación de clústeres extendidos de vSAN.
Clústeres existentes: No se puede convertir un clúster estándar en un clúster extendido ni convertir un clúster extendido en un clúster estándar. En su lugar, debe implementar un nuevo clúster y migrar las cargas de trabajo.
Implementación de un nuevo clúster: Al crear una nueva nube privada de Azure VMware Solution en una región compatible, puede seleccionar su zona de disponibilidad.
Clústeres existentes: No se puede cambiar la configuración de zona de disponibilidad de un clúster existente. En su lugar, debe implementar un nuevo clúster y migrar las cargas de trabajo.
Comportamiento cuando todas las zonas están en buen estado
En esta sección se describe qué esperar cuando el clúster está extendido y todas las zonas de disponibilidad están operativas.
Operación entre regiones: Las máquinas virtuales se pueden ejecutar en hosts en cualquiera de las zonas de disponibilidad. La selección de ubicación de la máquina virtual se puede controlar mediante la afinidad de DRS de vSphere y las reglas de antiafinidad para optimizar los requisitos de rendimiento o disponibilidad.
Replicación de datos entre regiones: vSAN replica los datos de forma sincrónica entre zonas de disponibilidad. Ambas zonas confirman cada operación de escritura antes de la finalización, lo que garantiza una integridad de datos coherente.
En esta sección se describe qué esperar cuando el clúster se implementa en una nube privada zonal y todas las zonas de disponibilidad están operativas.
Operación entre regiones: Las máquinas virtuales se ejecutan en hosts dentro de la zona de disponibilidad del clúster.
Replicación de datos entre regiones: No se replica ningún dato en otra zona.
Comportamiento durante un fallo de zona
En esta sección se describe qué esperar cuando se amplía el clúster y se produce una interrupción de zona de disponibilidad.
- Detección y respuesta: Azure VMware Solution administra la respuesta de nivel de infraestructura a los errores de zona. vSphere HA detecta automáticamente errores de zona e inicia los procedimientos de reinicio de la máquina virtual si es necesario.
- Notificación: Microsoft no le notifica automáticamente cuando una zona está inactiva. Sin embargo, puede usar Azure Resource Health para supervisar el estado de un recurso individual y puede configurar alertas de Resource Health para notificarle problemas. También puede usar Azure Service Health para comprender el estado general del servicio, incluidos los errores de zona, y puede configurar alertas de Service Health para notificarle problemas.
Solicitudes activas: Las máquinas virtuales que se ejecutan en la zona de disponibilidad con errores se reinician en los hosts de la zona de disponibilidad superviviente. Las solicitudes activas y las conexiones a las máquinas virtuales afectadas se finalizan y los clientes son responsables de reintentarlas.
Tiempo de inactividad esperado: El tiempo de reinicio de las máquinas virtuales con errores en la zona correcta suele ser de unos minutos, en función de los procedimientos de inicio y configuración de la máquina virtual. El clúster extendido permanece operativo con una capacidad reducida.
Si la zona de disponibilidad con errores contiene el nodo testigo, el testigo deja de ser accesible. Siempre que haya suficientes réplicas de datos disponibles, los hosts de datos y las cargas de trabajo en ejecución seguirán funcionando sin pérdida de datos inmediata. Sin embargo, vSAN pierde el reconocimiento del cuórum en este estado, lo que impide que tome decisiones de colocación y recuperación de forma segura y haga que se bloqueen determinadas operaciones, como el encendido de la máquina virtual después de errores, el reequilibrio y las reparaciones.
Pérdida de datos esperada: Dado que vSAN usa la replicación sincrónica entre zonas, no se espera ninguna pérdida de datos durante un error de zona.
Redistribución: vSphere DRS redistribuye automáticamente las cargas de trabajo de máquina virtual a la zona de disponibilidad superviviente. El enrutamiento del tráfico de red a través de VMware NSX se adapta automáticamente a la nueva ubicación de la máquina virtual.
En esta sección se describe qué esperar cuando el clúster se implementa en una nube privada zonal y se produce una interrupción de zona de disponibilidad.
- Detección y respuesta: Debe detectar la pérdida de una zona de disponibilidad. Si es necesario, puede iniciar una conmutación por fallo a un clúster secundario que haya creado previamente en otra zona de disponibilidad.
- Notificación: Microsoft no le notifica automáticamente cuando una zona está inactiva. Sin embargo, puede usar Azure Resource Health para supervisar el estado de un recurso individual y puede configurar alertas de Resource Health para notificarle problemas. También puede usar Azure Service Health para comprender el estado general del servicio, incluidos los errores de zona, y puede configurar alertas de Service Health para notificarle problemas.
Solicitudes activas: Las solicitudes activas y las conexiones a las máquinas virtuales afectadas se finalizan y los clientes son responsables de reintentarlas.
Tiempo de inactividad esperado: Cuando una zona no está disponible, el clúster y sus cargas de trabajo no están disponibles hasta que se recupere la zona de disponibilidad.
Pérdida de datos esperada: Los datos de la zona afectada no están disponibles hasta que se recupere la zona.
Redistribución: Usted es responsable de redirigir el tráfico a otros clusters en zonas saludables, si es necesario.
Recuperación de zona
Cuando se recupera la zona de disponibilidad, vSphere DRS puede redistribuir las máquinas virtuales de nuevo a la zona recuperada en función de las reglas de afinidad y configuración de DRS. También puede controlar manualmente la ubicación de la máquina virtual mediante operaciones de vMotion.
Cuando se recupera la zona de disponibilidad, los clústeres y los hosts de la zona están disponibles de nuevo. Es responsable de cualquier procedimiento de recuperación de zona y sincronización de datos que requieran las cargas de trabajo.
Prueba de fallos de zona
Puede simular errores de zona mediante:
Poner hosts en modo de mantenimiento usando vSphere para simular fallos a nivel de zona.
Validar que los sistemas de copia de seguridad y supervisión siguen funcionando durante los errores simulados.
- Probar la resistencia de la aplicación a los reinicios de la máquina virtual y los cambios en la ruta de acceso de red, especialmente cuando se han extendido clústeres o se implementan aplicaciones en clústeres independientes en distintas zonas.
Dado que Azure VMware Solution administra la respuesta de la infraestructura a los errores de zona, principalmente debe probar la respuesta de la aplicación a los reinicios de la máquina virtual.
Es responsable de cualquier respuesta de infraestructura ante fallos en la zona, como realizar un failover a otro clúster en una zona o región diferente. Asegúrese de probar los procesos de respuesta exhaustivamente.
Resistencia a errores en toda la región
Cada clúster de Azure VMware Solution se implementa dentro de una sola región de Azure. Si la región deja de estar disponible, la nube privada y todos los recursos dentro de ella no estarán disponibles.
Sin embargo, también puede diseñar soluciones personalizadas de varias regiones que combinen diferentes enfoques o se integren con la infraestructura existente para satisfacer sus requisitos empresariales y objetivos de recuperación específicos.
Soluciones personalizadas de varias regiones para la resistencia
Para lograr resistencia en varias regiones con Azure VMware Solution, debe implementar nubes privadas independientes en varias regiones e implementar la conmutación por error y otras soluciones de recuperación ante desastres.
Hay una variedad de opciones que admiten diferentes requisitos. Para más información, consulte Soluciones de copia de seguridad y recuperación ante desastres de terceros para Azure VMware: limitaciones, compatibilidad y problemas conocidos.
Copias de seguridad y restauración
Azure VMware Solution realiza automáticamente una copia de seguridad de los componentes de administración (vCenter Server, NSX Manager y HCX Manager si está habilitado). Para restaurar a partir de estas copias de seguridad de administración, cree una solicitud de soporte técnico de Azure.
Para las cargas de trabajo de máquina virtual, Azure VMware Solution admite varios enfoques de copia de seguridad. Para más información, consulte Soluciones de copia de seguridad para máquinas virtuales de Azure VMware Solution.
Resistencia al mantenimiento del servicio
Azure realiza el mantenimiento automático de la plataforma para aplicar actualizaciones de seguridad, implementar nuevas características y mejorar la confiabilidad del servicio.
Para obtener información sobre el efecto que el mantenimiento puede tener en los componentes de Azure VMware Solution y comprender los componentes que es responsable del mantenimiento y los que mantiene Microsoft, consulte Procedimientos recomendados de mantenimiento de la nube privada de Azure VMware Solution.
Puede configurar las ventanas de mantenimiento del clúster para reducir la probabilidad de mantenimiento que afecte a las cargas de trabajo de producción. Para más información, consulte Planeamiento del mantenimiento de autoservicio para Azure VMware Solution (versión preliminar pública).
Acuerdo de nivel de servicio
El contrato de nivel de servicio (SLA) para los servicios de Azure describe la disponibilidad esperada de cada servicio y las condiciones que la solución deberá cumplir para lograr esa expectativa de disponibilidad. Para obtener más información, consulte Acuerdos de Nivel de Servicio para servicios en línea.
Azure VMware Solution proporciona diferentes acuerdos de nivel de servicio de disponibilidad para la infraestructura de cargas de trabajo y para las operaciones de administración.
Los clústeres configurados como clústeres extendidos tienen un SLA de disponibilidad de infraestructura para la carga de trabajo más alto.
Sin embargo, para calificar para los SLA de disponibilidad, debe configurar el clúster de manera específica. Consulte el texto del Acuerdo de Nivel de Servicio para obtener información detallada.