Share via


Project Flash: avance en la supervisión de la disponibilidad de una máquina virtual de Azure

Flash, como se conoce al proyecto internamente, deriva su nombre de nuestro firme compromiso con la creación de un mecanismo sólido, confiable y rápido para que los clientes supervisen el estado de las máquinas virtuales (VM). Nuestro objetivo principal es garantizar que los clientes puedan acceder a datos de telemetría accionables y precisos de forma confiable, recibir alertas sobre los cambios rápidamente y supervisar periódicamente los datos a gran escala. También hacemos hincapié en desarrollar una experiencia centralizada y coherente que los clientes puedan usar convenientemente para satisfacer sus requisitos de observabilidad únicos. Es nuestra misión asegurarnos de que usted pueda hacer lo siguiente:

  • Consumir datos precisos y accionables en las interrupciones de disponibilidad de la máquina virtual (por ejemplo, reinicios de máquinas virtuales, inmovilizaciones de aplicaciones debido a actualizaciones de controladores de red y actualizaciones del sistema operativo host de 30 segundos), junto con detalles de error precisos (por ejemplo, plataforma frente a iniciado por el usuario, reinicio frente a inmovilización, planeado frente a no planeado).
  • Analice y alerte sobre las tendencias de disponibilidad de máquinas virtuales para la depuración rápida y los informes mes a mes.
  • Supervise periódicamente los datos a gran escala y cree paneles personalizados para mantenerse actualizado sobre los estados de disponibilidad más recientes de todos los recursos.
  • Reciba análisis automatizados de causa principal (RCA) que detallan las máquinas virtuales afectadas, la causa y la duración del tiempo de inactividad, las correcciones resultantes y detalles similares, todo para permitir investigaciones dirigidas y análisis posteriores al hecho.
  • Reciba notificaciones instantáneas sobre los cambios críticos en la disponibilidad de la máquina virtual para desencadenar rápidamente las acciones de corrección y evitar la repercusión sobre el usuario final.
  • Adapte y automatice dinámicamente las directivas de recuperación de la plataforma en función de las necesidades de conmutación por error y los aspectos delicados de las cargas de trabajo cambiantes.

Soluciones Flash

La iniciativa Flash se dedica a desarrollar soluciones a lo largo de los años que satisfacen las diversas necesidades de supervisión de nuestros clientes. Para ayudarle a determinar las soluciones de supervisión Flash más adecuadas para sus requisitos específicos, consulte la tabla siguiente:

Solución Descripción
Azure Resource Graph (disponibilidad general) Para las investigaciones a gran escala, el repositorio de recursos centralizado y la búsqueda del historial, los clientes grandes querrán consumir periódicamente telemetría de disponibilidad de recursos en todas sus cargas de trabajo, a la vez, mediante Azure Resource Graph (ARG).
Tema del sistema de Event Grid (versión preliminar pública) Para desencadenar mitigaciones críticas y sensibles al tiempo (acciones de reimplementación, reinicio de máquina virtual) para la prevención de la repercusión sobre el usuario final, los clientes (por ejemplo, Pearl Abyss, Krafton) quieren recibir alertas en cuestión de segundos sobre los cambios críticos en la disponibilidad de recursos a través de controladores de eventos en Event Grid.
Azure Monitor (versión preliminar pública) Para realizar un seguimiento de las tendencias, agregar métricas de plataforma (CPU, disco, etc.) y configurar alertas precisas basadas en umbrales, los clientes querrán consumir una métrica de disponibilidad de máquina virtual lista para usar a través de Azure Monitor.
Resource Health (disponibilidad general) Para realizar comprobaciones instantáneas y convenientes del estado de la interfaz de usuario del portal por recurso, los clientes pueden ver rápidamente la hoja RHC en el portal. También pueden acceder a una vista histórica de 30 días de las comprobaciones de estado de ese recurso para una solución de problemas rápida y sencilla.

Supervisión holística de la disponibilidad de las máquinas virtuales

Para un enfoque holístico de la supervisión de la disponibilidad de las máquinas virtuales, incluidos escenarios de mantenimiento rutinario, migración en vivo, recuperación del servicio y degradación de la máquina virtual, se recomienda usar eventos programados (SE) y eventos de estado de Flash.

Los eventos programados están diseñados para ofrecer una advertencia temprana y proporcionan un aviso 15 minutos antes de las actividades de mantenimiento. Este plazo le permite tomar decisiones fundamentadas sobre el próximo tiempo de inactividad, lo que le permite evitarlo o prepararse para él. Tiene la flexibilidad de reconocer estos eventos o retrasar las acciones durante este período de 15 minutos, en función de su preparación para el próximo mantenimiento.

Por otro lado, los eventos de estado de Flash se centran en el seguimiento en tiempo real de las interrupciones de disponibilidad continuas y completadas, incluida la degradación de la máquina virtual. Esta característica le permite supervisar y administrar de forma eficaz el tiempo de inactividad, la compatibilidad con la mitigación automatizada, las investigaciones y el análisis posterior al hecho.

Para empezar a trabajar en el recorrido de observabilidad, puede explorar el conjunto de productos de Azure a los que emitimos datos de disponibilidad de máquinas virtuales de alta calidad. Estos productos incluyen el estado de los recursos, los registros de actividad, el grafo de recursos de Azure, las métricas de Azure Monitor y el tema del sistema de Azure Event Grid.

Pasos siguientes

Para obtener más información sobre las soluciones ofrecidas, continúe con el artículo de la solución correspondiente:

Para obtener información general sobre cómo supervisar Azure Virtual Machines, consulte Supervisión de máquinas virtuales de Azure y la referencia Supervisión de máquinas virtuales de Azure.