Escenarios de conmutación por error de clúster en el dispositivo GPU Azure Stack Edge Pro
En este artículo se identifican los escenarios comunes de conmutación por error, cómo responde el dispositivo Azure Stack Edge y el impacto general en las cargas de trabajo implementadas en el clúster en caso de que se produzca una conmutación por error.
Acerca de la conmutación por error
Azure Stack Edge se puede configurar como un único dispositivo independiente o un clúster de dos nodos. En un clúster de dos nodos, los nodos en clúster proporcionan alta disponibilidad para las aplicaciones y los servicios que se ejecutan en el clúster.
Si se produce un error en uno de los nodos en clúster, el otro nodo comienza a proporcionar servicio (el proceso se conoce como conmutación por error). También puede producirse una conmutación por error si tiene lugar un error en los componentes de hardware asociados a uno o ambos nodos del dispositivo, como unidades de disco, unidades de fuente de alimentación (PSU), error de red o al actualizar los nodos del dispositivo.
Escenarios de conmutación por error
La conmutación por error puede producirse como resultado de un error de componente de hardware, un error de nodo o al actualizar el clúster de Azure Stack Edge.
Errores de hardware
En estas tablas se resumen los escenarios de error de un componente de hardware físico asociado al clúster del dispositivo, como una o varias unidades de disco, fuente de alimentación o red.
Errores de la unidad de disco
Nodo A | Nodo B | El clúster sobrevive | Conmutación por error | Detalles |
---|---|---|---|---|
Error en una unidad de disco | Sin errores | Sí | No | El clúster se degrada hasta que se reemplaza el disco. |
Error en dos o más unidades de disco | Sin errores | Sí | No | El clúster se degrada hasta que se reemplaza el disco. |
Error en una o más unidades de disco | Error en una o más unidades de disco | No | El clúster se queda sin conexión. |
Errores en la unidad de alimentación
Nodo A | Nodo B | El clúster sobrevive | Conmutación por error | Detalles |
---|---|---|---|---|
Error en una fuente de alimentación | Sin errores | Sí | No | Otro error en la fuente de alimentación del nodo A dará lugar a la conmutación por error al nodo B. |
Error en una fuente de alimentación | Error en una fuente de alimentación | Sí | No | Otro error en la fuente de alimentación de cualquier nodo dará lugar a la conmutación por error. |
Error en dos fuentes de alimentación | Sin errores | Sí | Sí | Las VM del nodo A conmutan por error al nodo B. |
Error en dos fuentes de alimentación (pendiente de confirmación) | Error en una fuente de alimentación | Sí | Sí | Las VM del nodo A conmutan por error al nodo B. |
Error en dos fuentes de alimentación | Error en dos fuentes de alimentación | No | El clúster se queda sin conexión. |
Errores de red
Nodo A | Nodo B | El clúster sobrevive | Conmutación por error | Detalles |
---|---|---|---|---|
Error en los puertos 1, 2, 5 o 6 | Sin errores | Sí | No | El puerto con error no está disponible. Las aplicaciones que escuchan en este puerto se verán afectadas. |
Error en el puerto 3 o en el puerto 4, o en ambos | Sin errores | Sí | Sí | Las VM del nodo A conmutan por error al nodo B. |
Errores y actualizaciones en el nodo
Error en el nodo
En esta tabla se resumen los escenarios de error cuando se produce un error en todo un nodo en el clúster.
Nodo A | Nodo B | El clúster sobrevive | Conmutación por error | Detalles |
---|---|---|---|---|
Error en todo el nodo | Sin errores | Sí | Sí | Las VM del nodo A conmutan por error al nodo B |
Error en todo el nodo | Error en todo el nodo | No | - | El clúster se queda sin conexión |
Reboot | Sin errores | Sí | Sí | Las VM del nodo A conmutan por error al nodo B |
Reboot | Reboot | No | - | El clúster se queda sin conexión hasta que se complete el reinicio |
Error en el componente principal. Por ejemplo, la placa base, el módulo DIMM y el disco del sistema operativo. | Sin errores | Sí | Sí | Las VM del nodo A conmutan por error al nodo B |
Error en el componente principal. Por ejemplo, la placa base, el módulo DIMM y el disco del sistema operativo. | Error en el componente principal. Por ejemplo, la placa base, el módulo DIMM y el disco del sistema operativo. | No | - | El clúster se queda sin conexión |
Actualización del nodo
Nodo A | Nodo B | El clúster sobrevive | Conmutación por error | Detalles |
---|---|---|---|---|
Actualización del nodo | Sin errores | Sí | Sí | Las VM del nodo A conmutan por error al nodo B |
Actualización del nodo | Error en dos fuentes de alimentación | No | - | El clúster se queda sin conexión |
Actualización del nodo | Error en todo el nodo o se queda sin conexión | No | - | El clúster se queda sin conexión |
Actualización del nodo | Reboot | No | - | El clúster se queda sin conexión |
Actualización del nodo | Error en el componente principal, como la placa base, el módulo DIMM y el disco del sistema operativo. | No | - | El clúster se queda sin conexión |
Pasos siguientes
- Más información sobre los tamaños y tipos de máquina virtual de Azure Stack Edge Pro con GPU.