Descripción de un reinicio del sistema de una máquina virtual de Azure

Artículo
07/30/2024

Se aplica a: ✔️ Máquinas virtuales Linux ✔️ Máquinas virtuales Windows

A veces, las máquinas virtuales de Azure se reinician sin motivo aparente, sin signos de que usted haya iniciado la operación. En este artículo se enumeran las acciones y los eventos que pueden hacer que las máquinas virtuales se reinicien y se proporciona información acerca de cómo evitar los problemas de reinicio inesperado o reducir su efecto.

Configuración de las máquinas virtuales para que tengan alta disponibilidad

La mejor manera de proteger las aplicaciones que se ejecutan en Azure del reinicio de las máquinas virtuales y el tiempo de inactividad es configurar la alta disponibilidad de las máquinas virtuales.

Para proporcionar este nivel de redundancia a la aplicación, se recomienda agrupar dos máquinas virtuales, o más, en un conjunto de disponibilidad. Esta configuración garantiza que durante un evento de mantenimiento planeado o no planeado haya al menos una máquina virtual disponible que cumpla el 99,95 % del Acuerdo de Nivel de Servicio de Azure.

Para más información sobre los conjuntos de disponibilidad, consulte Administrar la disponibilidad de las máquinas virtuales.

Información acerca de Resource Health

Azure Resource Health es un servicio que expone el estado de los recursos individuales de Azure y proporciona instrucciones para solucionar problemas. En un entorno en la nube en el que no es posible acceder directamente a servidores o elementos de infraestructura, el objetivo de Resource Health es reducir el tiempo que dedica a solucionar problemas. En concreto, el objetivo es reducir el tiempo que se tarda en determinar si la raíz del problema se encuentra en la aplicación o en un evento de la plataforma Azure. Para más información, consulte la introducción al uso de Resource Health.

Si Azure tiene más información sobre la causa principal de una falta de disponibilidad iniciada por la plataforma para una máquina virtual, esa información puede publicarse en resource health hasta 72 horas después de la falta de disponibilidad inicial.

Faltan tiempos de inactividad de máquina virtual en el registro de actividad

Las alertas de Resource Health se envían en función de la información del registro de actividad. En algunos casos, es posible que los tiempos de inactividad de la máquina virtual no se muestren en el registro de actividad. Si el tiempo de inactividad no se muestra en el registro de actividad, las alertas de Resource Health no se enviarán durante el tiempo de inactividad. El tiempo de inactividad sigue siendo visible en Resource Health.

Estos son los casos en los que los tiempos de inactividad de la máquina virtual no se muestran en el registro de actividad:

Cuando se crea o migra una máquina virtual a un nuevo host, la plataforma Azure no muestra el estado de la máquina virtual correctamente y el estado cambia a Desconocido. Solo después de establecer todos los procesos de conectividad de red y nodo, el estado de la máquina virtual cambia a Disponible. El período prolongado del estado Desconocido se filtra fuera del registro de actividad.
Cuando el estado de disponibilidad de la máquina virtual cambia de Disponible a No disponible y, a continuación, vuelve a Disponible en un plazo de 35 segundos, el tiempo de inactividad no se muestra en el registro de actividad. Este caso no se producirá si se envía un tiempo de inactividad correlacionado en un plazo de 15 minutos antes de que se produzca la primera transición.
Si el estado de la máquina virtual cambia de un estado a Desconocido y, a continuación, vuelve al estado original, el estado Desconocido intermitente y las transiciones relacionadas se filtran fuera del registro de actividad.

Los tiempos de inactividad de la máquina virtual que no se muestran en el registro de actividad se filtran en la plataforma Azure para evitar que los errores transitorios muestren tiempos de inactividad incorrectos para los clientes. Con las inversiones continuas en la calidad del estado de la máquina virtual, es posible que los filtros ya no sean necesarios y pueden provocar cambios rápidos en el estado de la máquina virtual para permanecer sin informar. Microsoft está trabajando en un plan de fases para ofrecer la mejor experiencia del cliente.

Acciones y eventos que pueden hacer que la máquina virtual se reinicie

Mantenimiento planeado

Microsoft Azure realiza periódicamente actualizaciones en todo el planeta para mejorar la confiabilidad, el rendimiento y la seguridad de la infraestructura de host que subyace debajo de las máquinas virtuales. Muchas de esas actualizaciones, entre las que se incluyen las de conservación de memoria, se realizan sin que afecten a las máquinas virtuales ni a los servicios en la nube.

Sin embargo, algunas de ellas requieren un reinicio. En estos casos, las máquinas virtuales se apagan mientras se revisa la infraestructura y luego se reinician.

Para saber qué es el mantenimiento planeado de Azure y cómo afecta a la disponibilidad de las máquinas virtuales Linux, consulte los artículos que se enumeran aquí. En estos artículos se proporciona información general acerca del proceso del mantenimiento planeado de Azure y de cómo programarlo para reducir aún más sus efectos negativos.

Actualizaciones de conservación de memoria

Con esta clase de actualizaciones de Microsoft Azure, las máquinas virtuales en ejecución de los usuarios no se ven afectadas en absoluto. Muchas de estas actualizaciones son componentes o servicios que se pueden actualizar sin interferir con la instancia en ejecución. Algunas son actualizaciones de la infraestructura de la plataforma en el sistema operativo host que se pueden aplicar sin necesidad de que se reinicien las máquinas virtuales.

Estas actualizaciones que conservan memoria se realizan con tecnología que permite la migración en vivo local. Cuando se está actualizando, el estado de la máquina virtual es En pausa, que conserva la memoria RAM mientras el sistema operativo host subyacente recibe las actualizaciones y revisiones necesarias. La máquina virtual se reanuda normalmente en un plazo de 30 segundos después de pausarse. Tras la reanudación, el reloj de la máquina virtual se sincroniza automáticamente.

Debido al período breve de pausa, la implementación de actualizaciones mediante este mecanismo permite que las máquinas virtuales casi no resulten afectadas. Sin embargo, no todas las actualizaciones pueden implementarse de esta manera.

Las actualizaciones de varias instancias (para las máquinas virtuales de un conjunto de disponibilidad) no se aplican a más de un dominio de actualización a la vez.

Nota

Con este método de actualización, las máquinas Linux que tengan versiones anteriores del kernel se ven afectadas por un fallo de kernel. Para evitar este problema, actualice el kernel a la versión 3.10.0-327.10.1 o a una posterior. Para más información, consulte Una máquina virtual Linux de Azure en un kernel basado en 3.10, envía un pánico después de actualizar el nodo host.

Acciones de reinicio o apagado iniciadas por el usuario

Si realiza un reinicio desde Azure Portal, Azure PowerShell, la interfaz de línea de comandos o la API de REST, el evento se encontrará en el registro de actividad de Azure.

Si realiza la acción desde el sistema operativo de la máquina virtual, el evento se encontrará en los registros del sistema.

Otros escenarios que suelen provocar el reinicio de la máquina virtual incluyen varias acciones de cambio de configuración. Generalmente aparece un mensaje de advertencia que indica que la ejecución de una acción determinada provoca el reinicio de la máquina virtual. Por ejemplo, las operaciones de cambio de tamaño de máquina virtual, el cambio de la contraseña de la cuenta administrativa y la configuración de una dirección IP estática.

Microsoft Defender for Cloud y Windows Update

Microsoft Defender for Cloud supervisa diariamente las máquinas virtuales Windows y Linux para que falten actualizaciones del sistema operativo. Defender for Cloud recupera una lista de actualizaciones críticas y de seguridad disponibles de Windows Update o Windows Server Update Services (WSUS), en función del servicio configurado en una máquina virtual Windows. Defender for Cloud también comprueba las actualizaciones más recientes de los sistemas Linux. Si la máquina virtual no tiene una actualización del sistema, Defender for Cloud recomienda aplicar las actualizaciones del sistema. La aplicación de estas actualizaciones del sistema se controla a través de Defender for Cloud en Azure Portal. Tras la aplicación de algunas actualizaciones, puede ser necesario reiniciar la máquina virtual. Para obtener más información, consulte Aplicar actualizaciones del sistema en Microsoft Defender for Cloud.

Al igual que los servidores locales, Azure no inserta las actualizaciones de Windows Update en las máquinas virtuales de Windows, ya que estas máquinas están diseñadas para que las administren los usuarios. No obstante, se recomienda dejar habilitada la configuración automática de Windows Update. La instalación automática de actualizaciones de Windows Update también puede provocar el reinicio tras su aplicación. Para más información, consulte Windows Update: preguntas frecuentes.

Otras situaciones que afectan a la disponibilidad de la máquina virtual

Hay otros casos en los que Azure puede suspender activamente el uso de una máquina virtual. Antes de que se realice esta acción, se le notificará para que pueda resolver los problemas subyacentes. La vulneración de la seguridad y la expiración de las formas de pago son ejemplos de problemas que afectan a la disponibilidad de las máquinas virtuales.

Errores en el servidor host

La máquina virtual está hospedada en un servidor físico que se ejecuta en un centro de datos de Azure. El servidor físico ejecuta a un agente denominado al agente del host, además de otros componentes de Azure. Cuando estos componentes de software de Azure en el servidor físico dejan de responder, el sistema de supervisión desencadena un reinicio del servidor host para intentar la recuperación. En muchos casos, la máquina virtual estará disponible de nuevo en un plazo de 10 a 15 minutos y seguirá viviendo en el mismo host que antes.

Los errores en el servidor suelen deberse a errores de hardware, como un disco duro o una unidad de estado sólido. Azure supervisa continuamente si algo de esto sucede, identifica los errores subyacentes e implementa las actualizaciones una vez se ha implementado y probado la mitigación.

Puesto que algunos errores en el servidor host pueden ser específicos de ese servidor, para mejorar una situación en la que una máquina virtual se reinicia de manera repetitiva es preciso implementar la máquina virtual manualmente en otro servidor host. Esta operación se desencadena con la opción volver a implementar de la página de detalles de la máquina virtual o al detener y reiniciar la máquina virtual en Azure Portal.

Recuperación automática

Si el servidor host no se pueda reiniciar por algún motivo, la plataforma Azure inicia una acción de recuperación automática para sacar el servidor host defectuoso de la rotación e investigarlo más a fondo.

Todas las máquinas virtuales de dicho host se reubican automáticamente en otro servidor host que funcione correctamente. Aunque este proceso normalmente se completa en 15 minutos, el tiempo necesario para la recuperación puede variar en función de varios factores, incluidos el tamaño de la memoria del host y los métodos de recuperación empleados. Para más información sobre el proceso de recuperación automática, consulte el artículo sobre la recuperación automática de las máquinas virtuales.

Mantenimiento no planeado

En contadas ocasiones, el equipo de operaciones de Azure podría necesitar realizar actividades de mantenimiento para garantizar el buen estado general de la plataforma Azure. Este comportamiento podría afectar a la disponibilidad de las máquinas virtuales y suele generar la misma acción de recuperación automática que se ha descrito.

Los mantenimientos no planeados incluyen lo siguiente:

Desfragmentación urgente de nodos
Actualizaciones urgentes de los conmutadores de la red

Bloqueos en la máquina virtual

Las máquinas virtuales podrían reiniciarse debido a problemas internos. La carga de trabajo o el rol que se ejecuta en la máquina virtual podría desencadenar una comprobación de errores en el sistema operativo invitado. Para determinar el motivo del bloqueo, consulte los registros de la aplicación y del sistema (máquinas virtuales Windows) y los registros de serie (máquinas virtuales Linux).

Las máquinas virtuales de Azure usan discos virtuales para el sistema operativo y el almacenamiento de datos que se hospeda en la infraestructura de Azure Storage. Cada vez que la disponibilidad o la conectividad entre la máquina virtual y los discos virtuales asociados se ven afectadas durante más de 120 segundos, la plataforma Azure realiza un apagado forzado de las máquinas virtuales para evitar que se dañen los datos. Una vez que se ha restaurado la conectividad del almacenamiento, las máquinas virtuales se vuelven a encender automáticamente. Las máquinas puede que solo permanezcan cinco minutos apagadas, pero también puede permanecer así mucho más tiempo.

Otros incidentes

En circunstancias excepcionales, un problema muy generalizado puede afectar a varios servidores de un centro de datos de Azure. En ese caso, el equipo de Azure envía notificaciones por correo electrónico a las suscripciones afectadas. Verá el estado de las interrupciones actuales y de los incidentes anteriores tanto en el panel de estado de los servicios de Azure como en Azure Portal.

Diagnóstico de reinicios de máquina virtual

Puede usar la hoja Diagnosticar y resolver en la hoja de máquina virtual para ejecutar diagnósticos adicionales. Esto puede descubrir razones más específicas para el reinicio reciente de la máquina virtual. Si hay algún problema con el sistema operativo invitado, recopile el volcado de memoria y póngase en contacto con el soporte técnico.

Ponte en contacto con nosotros para obtener ayuda

Si tiene preguntas o necesita ayuda, cree una solicitud de soporte o busque consejo en la comunidad de Azure. También puede enviar comentarios sobre el producto con los comentarios de la comunidad de Azure.

Compartir a través de

Descripción de un reinicio del sistema de una máquina virtual de Azure

Configuración de las máquinas virtuales para que tengan alta disponibilidad

Información acerca de Resource Health

Faltan tiempos de inactividad de máquina virtual en el registro de actividad

Acciones y eventos que pueden hacer que la máquina virtual se reinicie

Mantenimiento planeado

Actualizaciones de conservación de memoria

Acciones de reinicio o apagado iniciadas por el usuario

Microsoft Defender for Cloud y Windows Update

Otras situaciones que afectan a la disponibilidad de la máquina virtual

Errores en el servidor host

Recuperación automática

Mantenimiento no planeado

Bloqueos en la máquina virtual

Otros incidentes

Diagnóstico de reinicios de máquina virtual

Ponte en contacto con nosotros para obtener ayuda

Comentarios

Recursos adicionales

Compartir a través de

Descripción de un reinicio del sistema de una máquina virtual de Azure

Configuración de las máquinas virtuales para que tengan alta disponibilidad

Información acerca de Resource Health

Faltan tiempos de inactividad de máquina virtual en el registro de actividad

Acciones y eventos que pueden hacer que la máquina virtual se reinicie

Mantenimiento planeado

Actualizaciones de conservación de memoria

Acciones de reinicio o apagado iniciadas por el usuario

Microsoft Defender for Cloud y Windows Update

Otras situaciones que afectan a la disponibilidad de la máquina virtual

Errores en el servidor host

Recuperación automática

Mantenimiento no planeado

Bloqueos en la máquina virtual

Apagados forzados relacionados con el almacenamiento

Otros incidentes

Diagnóstico de reinicios de máquina virtual

Ponte en contacto con nosotros para obtener ayuda

Comentarios

Recursos adicionales