Partilhar via


Project Flash - Avançando no monitoramento de disponibilidade da Máquina Virtual do Azure

O Flash, como o projeto é conhecido internamente, deriva seu nome de nosso firme compromisso em criar um mecanismo robusto, confiável e rápido para que os clientes monitorem a integridade da máquina virtual (VM). Nosso principal objetivo é garantir que os clientes possam acessar de forma confiável telemetria acionável e precisa, receber prontamente alertas sobre alterações e monitorar periodicamente os dados em escala. Também colocamos forte ênfase no desenvolvimento de uma experiência centralizada e coerente que os clientes possam usar convenientemente para atender aos seus requisitos exclusivos de observabilidade. É nossa missão garantir que pode:

  • Consuma dados precisos e acionáveis sobre interrupções de disponibilidade de VM (por exemplo, reinicializações e reinicializações de VM, congelamentos de aplicativos devido a atualizações de driver de rede e atualizações do sistema operacional host de 30 segundos), juntamente com detalhes precisos de falha (por exemplo, plataforma versus iniciado pelo usuário, reinicialização versus congelamento, planejado versus não planejado).
  • Analise e alerte sobre tendências na disponibilidade de VM para depuração rápida e relatórios mês a mês.
  • Monitore periodicamente os dados em escala e crie painéis personalizados para se manter atualizado sobre os estados de disponibilidade mais recentes de todos os recursos.
  • Receba análises automatizadas de causa raiz (RCAs) detalhando VMs afetadas, causa e duração do tempo de inatividade, correções consequentes e similares — tudo para permitir investigações direcionadas e análises post-mortem.
  • Receba notificações instantâneas sobre alterações críticas na disponibilidade da VM para acionar rapidamente ações de correção e evitar o impacto no usuário final.
  • Adapte e automatize dinamicamente as políticas de recuperação da plataforma, com base nas sensibilidades da carga de trabalho em constante mudança e nas necessidades de failover.

Soluções Flash

A iniciativa Flash dedica-se ao desenvolvimento de soluções ao longo dos anos que respondam às diversas necessidades de monitorização dos nossos clientes. Para ajudá-lo a determinar a(s) solução(ões) de monitoramento Flash mais adequada para seus requisitos específicos, consulte a tabela a seguir:

Solução Descrição
Azure Resource Graph (Disponibilidade Geral) Para investigações em escala, repositório centralizado de recursos e pesquisa de histórico, os grandes clientes desejam consumir periodicamente a telemetria de disponibilidade de recursos em todas as suas cargas de trabalho, de uma só vez, usando o Azure Resource Graph (ARG).
Tópico do sistema de Grade de Eventos (Visualização Pública) Para acionar mitigações críticas e sensíveis ao tempo (reimplantar, reiniciar ações de VM) para prevenção do impacto no usuário final, os clientes (por exemplo, Pearl Abyss, Krafton) desejam receber alertas em segundos de alterações críticas na disponibilidade de recursos por meio de manipuladores de eventos na grade de eventos.
Azure Monitor (Pré-visualização Pública) Para acompanhar tendências, agregar métricas de plataforma (CPU, disco, etc.) e configurar alertas precisos baseados em limites, os clientes querem consumir uma métrica de Disponibilidade de VM pronta para uso por meio do Azure Monitor.
Estado de funcionamento dos recursos (disponibilidade geral) Para executar verificações instantâneas e convenientes da integridade da interface do usuário do Portal por recurso, os clientes podem visualizar rapidamente a folha RHC no portal. Eles também podem acessar uma visualização histórica de 30 dias das verificações de integridade desse recurso para uma solução de problemas rápida e fácil.

Monitoramento holístico da disponibilidade de VM

Para obter uma abordagem holística para monitorar a disponibilidade da VM, incluindo cenários de manutenção de rotina, migração ao vivo, recuperação de serviços e degradação da VM, recomendamos que você utilize eventos agendados (SE) e eventos de integridade do Flash.

Os eventos programados são projetados para oferecer um aviso antecipado, com até 15 minutos de antecedência antes das atividades de manutenção. Esse tempo de espera permite que você tome decisões informadas sobre o tempo de inatividade futuro, permitindo que você evite ou se prepare para ele. Você tem a flexibilidade de reconhecer esses eventos ou atrasar ações durante esse período de 15 minutos, dependendo da sua prontidão para a próxima manutenção.

Por outro lado, os eventos do Flash Health são focados no rastreamento em tempo real de interrupções de disponibilidade contínuas e concluídas, incluindo degradação de VM. Esse recurso permite que você monitore e gerencie o tempo de inatividade de forma eficaz, oferecendo suporte à mitigação automatizada, investigações e análises post-mortem.

Para começar sua jornada de observabilidade, você pode explorar o conjunto de produtos do Azure para o qual emitimos dados de disponibilidade de VM de alta qualidade. Esses produtos incluem integridade de recursos, logs de atividades, gráfico de recursos do Azure, métricas de monitoramento do Azure e tópico do sistema da Grade de Eventos do Azure.

Próximos passos

Para saber mais sobre as soluções oferecidas, prossiga para o artigo da solução correspondente:

Para obter uma visão geral de como monitorar máquinas virtuais do Azure, consulte Monitorar máquinas virtuais do Azure e a referência Monitorando máquinas virtuais do Azure.