Compartilhar via


Project Flash: avanço do monitoramento de disponibilidade da Máquina Virtual do Azure

O Flash, como o projeto é conhecido internamente, deriva seu nome do nosso firme compromisso com a criação de um mecanismo robusto, confiável e rápido para que os clientes monitorem a integridade da VM (máquina virtual). Nosso objetivo principal é garantir que os clientes possam acessar de forma confiável a telemetria acionável e precisa, receber alertas de alterações e monitorar periodicamente os dados em escala. Também colocamos ênfase no desenvolvimento de uma experiência centralizada e coerente que os clientes podem usar de forma prática para atender aos requisitos exclusivos de observabilidade. É nossa missão garantir que você possa:

  • Consumir dados precisos e acionáveis em interrupções de disponibilidade de VM (por exemplo, reinicializações e reinícios de VM, congelamento de aplicativos devido a atualizações de driver de rede e atualizações do sistema operacional do host de 30 segundos), juntamente com detalhes precisos de falha (por exemplo, plataforma versus iniciado pelo usuário, reinicialização versus congelamento, planejado versus não planejado).
  • Analisar e alertar sobre tendências na disponibilidade de VM para depuração rápida e relatórios mês a mês.
  • Monitorar periodicamente os dados em escala e criar painéis personalizados para se manter atualizado sobre os estados de disponibilidade mais recentes de todos os recursos.
  • Receber RCAs (análises de causa raiz automatizadas) detalhando as VMs afetadas, a causa e a duração do tempo de inatividade, as correções resultantes e semelhantes — tudo para possibilitar investigações direcionadas e análises post mortem.
  • Receber notificações instantâneas sobre alterações críticas na disponibilidade da VM para disparar rapidamente ações de correção e evitar o impacto no usuário final.
  • Personalizar e automatizar dinamicamente as políticas de recuperação de plataforma, com base nas necessidades de failover e sensibilidades de carga de trabalho em constante alteração.

Soluções Flash

A iniciativa Flash é dedicada ao desenvolvimento de soluções ao longo dos anos que atendem às diversas necessidades de monitoramento de nossos clientes. Para ajudá-lo a determinar as soluções de monitoramento Flash mais adequadas para seus requisitos específicos, consulte a seguinte tabela:

Solução Descrição
Azure Resource Graph (Disponibilidade Geral) Para investigações em escala, repositório de recursos centralizado e pesquisa de histórico, os clientes grandes desejam consumir periodicamente a telemetria de disponibilidade de recursos em todas as suas cargas de trabalho, de uma só vez, usando o ARG (Azure Resource Graph).
Tópico do sistema da Grade de Eventos (Visualização Pública) Para disparar mitigações críticas e sensíveis ao tempo (reimplantação, reiniciar ações de VM) para prevenção do impacto no usuário final, os clientes (por exemplo, Pearl Abyss, Krafton) desejam receber alertas em segundos de alterações críticas na disponibilidade de recursos por meio dos Manipuladores de Eventos na Grade de Eventos.
Azure Monitor (Visualização Pública) Para acompanhar tendências, agregar métricas de plataforma (CPU, disco etc.) e configurar alertas precisos baseados em limite, os clientes desejam consumir uma métrica de disponibilidade de VM pronta para uso por meio do Azure Monitor.
Resource Health (Disponibilidade Geral) Para executar verificações instantâneas e práticas de integridade da interface do usuário do Portal por recurso, os clientes podem exibir rapidamente a folha RHC no portal. Eles também podem acessar uma exibição histórica de 30 dias de verificações de integridade desse recurso para solução de problemas rápida e fácil.

Monitoramento de disponibilidade de VM holístico

Para uma abordagem holística para monitorar a disponibilidade de VM, incluindo cenários de manutenção de rotina, migração ao vivo, recuperação de serviço e degradação de VM, recomendamos que você utilize eventos agendados (SE) e eventos de integridade Flash.

Os eventos agendados são projetados para oferecer um aviso antecipado, dando um aviso prévio de até 15 minutos antes das atividades de manutenção. Esse tempo de espera permite que você tome decisões informadas sobre o tempo de inatividade futura, permitindo que você evite ou se prepare para isso. Você tem a flexibilidade de reconhecer esses eventos ou atrasar ações durante esse período de 15 minutos, dependendo da sua preparação para a manutenção futura.

Por outro lado, os eventos de Integridade do Flash se concentram no acompanhamento em tempo real de interrupções de disponibilidade contínuas e completas, incluindo degradação da VM. Este recurso permite que você monitore e gerencie efetivamente o tempo de inatividade, dando suporte à mitigação automatizada, às investigações e à análise post mortem.

Para começar sua jornada de observabilidade, você pode explorar o conjunto de produtos do Azure para os quais emitimos dados de disponibilidade de VM de alta qualidade. Esses produtos incluem integridade do recurso, logs de atividades, Azure Resource Graph, métricas do Azure Monitor e tópico do sistema da Grade de Eventos do Azure.

Próximas etapas

Para saber mais sobre as soluções oferecidas, consulte o artigo de solução correspondente:

Para obter uma visão geral de como monitorar Máquinas Virtuais do Azure, veja Monitorar máquinas virtuais do Azure e Referência de monitoramento de máquinas virtuais do Azure.