Recomendações para conceber uma estratégia fiável de monitorização e alertas

Aplica-se a esta recomendação da lista de verificação de fiabilidade do Azure Well-Architected Framework:

RE:10 Meça e publique os indicadores de estado de funcionamento da solução. Capture continuamente o tempo de atividade e outros dados de fiabilidade de toda a carga de trabalho e também de componentes individuais e fluxos de chaves.

Este guia descreve as recomendações para conceber uma estratégia fiável de monitorização e alertas. Implemente esta estratégia para manter as suas equipas de operações informadas sobre o estado de funcionamento do seu ambiente e garantir que cumpre os objetivos de fiabilidade estabelecidos para a sua carga de trabalho.

Definições

Termo Definição
Métricas Valores numéricos que são recolhidos em intervalos regulares. As métricas descrevem alguns aspetos de um sistema num determinado momento.
Registos do recurso Dados gerados por um sistema. Fornece informações sobre o estado do sistema.
Rastreios Dados que fornecem informações sobre o caminho que um pedido percorre através de serviços e componentes.

Principais estratégias de conceção

Antes de criar uma estratégia de monitorização e alertas, execute as seguintes tarefas para a carga de trabalho como parte do planeamento de fiabilidade:

Crie uma estratégia de monitorização e alerta para garantir que a carga de trabalho funciona de forma fiável. Uma estratégia de monitorização e alerta fornece sensibilização às suas equipas de operações para que sejam notificadas sobre alterações na condição da carga de trabalho e possam resolver rapidamente problemas. Crie uma estratégia de monitorização robusta e fiável ao criar um modelo de estado de funcionamento para os seus fluxos críticos e os componentes que estes fluxos críticos compreendem. O modelo de estado de funcionamento define estados de bom estado de funcionamento, degradados e em mau estado de funcionamento. Desenhe a sua postura operacional para detetar imediatamente as alterações nestes estados. Quando os estados de funcionamento mudam de bom estado de funcionamento para degradados ou em mau estado de funcionamento, os mecanismos de alerta acionam as medidas corretivas automáticas e notificam as equipas adequadas.

Implemente as seguintes recomendações para conceber uma estratégia de monitorização e alertas que cumpra os requisitos da sua empresa.

Documentação de orientação geral

  • Compreenda a diferença entre métricas, registos e rastreios.

  • Ative o registo para todos os recursos da cloud. Utilize a automatização e a governação nas suas implementações para ativar o registo de diagnósticos em todo o ambiente.

  • Reencaminhe todos os registos de diagnóstico para uma plataforma de análise e sink de dados centralizada, como uma área de trabalho do Log Analytics. Se tiver requisitos regionais de soberania de dados, tem de utilizar sinks de dados locais nas regiões que estão sujeitas a esses requisitos.

Desvantagem: existem implicações de custos para armazenar e consultar registos. Repare como a análise de registos e a retenção afetam o orçamento e determine o melhor equilíbrio de utilização para satisfazer os seus requisitos. Para obter mais informações, veja Melhores práticas para otimização de custos.

  • Se as cargas de trabalho estiverem sujeitas a uma ou mais arquiteturas de conformidade, alguns dos registos de componentes que processam informações confidenciais também estão sujeitos a essas arquiteturas. Envie os registos de componentes relevantes para um sistema de gestão de informações e eventos de segurança (SIEM), como o Microsoft Sentinel.

  • Crie uma política de retenção de registos que incorpore requisitos de retenção de longo prazo que as arquiteturas de conformidade impõem à sua carga de trabalho.

  • Utilize o registo estruturado para todas as mensagens de registo para otimizar a consulta dos dados de registo.

  • Configure alertas para acionar quando os valores passam limiares críticos que se correlacionam com uma alteração do estado de funcionamento do modelo, como verde para amarelo ou vermelho.

    A configuração do limiar é uma prática de melhoria contínua. À medida que a carga de trabalho evolui, os limiares definidos podem mudar. Em alguns casos, os limiares dinâmicos são uma boa opção para a sua estratégia de monitorização.

  • Considere utilizar alertas quando os estados melhorarem, como vermelho para amarelo ou vermelho para verde, para que as equipas de operações possam controlar estes eventos para referência futura.

  • Visualize o estado de funcionamento em tempo real do seu ambiente.

  • Utilize os dados recolhidos durante os incidentes para melhorar continuamente os seus modelos de estado de funcionamento e a sua estratégia de monitorização e alertas.

  • Incorpore serviços de monitorização e alerta da plataforma cloud, incluindo:

  • Incorpore análises e monitorização avançadas criadas de propósito que o seu fornecedor de cloud oferece, como ferramentas de informações do Azure Monitor.

  • Implemente a monitorização de cópias de segurança e recuperação para capturar:

    • O estado de replicação de dados para garantir que a carga de trabalho alcança a recuperação dentro do objetivo de ponto de recuperação de destino (RPO).

    • Cópias de segurança e recuperações com êxito e falhadas.

    • A duração da recuperação para informar o planeamento da recuperação após desastre.

Monitorizar aplicações

  • Crie sondas de estado de funcionamento ou verifique funções e execute-as regularmente a partir de fora da aplicação. Certifique-se de que testa a partir de várias localizações geograficamente próximas dos seus clientes.

  • Registar dados enquanto a aplicação é executada no ambiente de produção. Precisa de informações suficientes para diagnosticar a causa dos problemas no estado de produção.

  • Registar eventos nos limites dos serviços. Incluir um ID de correlação, que flui através dos limites dos serviços. Se uma transação fluir através de vários serviços e um deles falhar, o ID de correlação ajuda-o a controlar os pedidos na sua aplicação e a identificar o motivo da falha da transação.

  • Utilizar o registo assíncrono. Por vezes, as operações de registo síncrona bloqueiam o código da aplicação, o que faz com que os pedidos criem cópias de segurança à medida que os registos são escritos. Utilize o registo assíncrono para preservar a disponibilidade durante o registo de aplicações.

  • Separe o registo de aplicações da auditoria. Os registos de auditoria são geralmente mantidos para requisitos de conformidade ou regulamentares e têm de ser concluídos. Para evitar transações perdidas, mantenha os registos de auditoria separados dos registos de diagnóstico.

  • Utilize a correlação de telemetria para garantir que pode mapear transações através da aplicação ponto a ponto e dos fluxos críticos do sistema. Este processo é vital para realizar a análise da causa raiz (RCA) para falhas. Recolha métricas e registos ao nível da plataforma, tais como a percentagem da CPU, a entrada da rede, a saída da rede e as operações de disco por segundo, da aplicação para informar um modelo de estado de funcionamento e para detetar e prever problemas. Esta abordagem pode ajudar a distinguir entre falhas transitórias e nãotransientes.

  • Utilize a monitorização de caixas brancas para instrumentar a aplicação com registos semânticos e métricas. Recolha métricas e registos ao nível da aplicação, como o consumo de memória ou latência de pedidos, da aplicação para informar um modelo de estado de funcionamento e para detetar e prever problemas.

  • Utilize a monitorização de caixas pretas para medir os serviços da plataforma e a experiência do cliente resultante. A monitorização de caixas pretas testa o comportamento da aplicação visível externamente sem ter conhecimento dos internos do sistema. Esta abordagem é comum para medir indicadores de nível de serviço (SLIs) centrados no cliente, objetivos de nível de serviço (SLOs) e contratos de nível de serviço (SLAs).

Nota

Para obter mais informações sobre a monitorização de aplicações, veja Padrão de Monitorização do Ponto Final de Estado de Funcionamento.

Monitorizar dados e armazenamento

  • Monitorize as métricas de disponibilidade dos contentores de armazenamento. Quando esta métrica cai abaixo dos 100%, indica falhas de escrita. As quedas transitórias na disponibilidade podem ocorrer quando o seu fornecedor de cloud gere a carga. Controle as tendências de disponibilidade para determinar se existe algum problema com a carga de trabalho.

    Em alguns casos, uma queda nas métricas de disponibilidade de um contentor de armazenamento indica um estrangulamento na camada de computação associada ao contentor de armazenamento.

  • Existem muitas métricas a monitorizar para bases de dados. No contexto de fiabilidade, as métricas importantes a monitorizar incluem:

    • Duração da consulta

    • Tempos limite

    • Tempos de espera

    • Pressão da memória

    • Bloqueios

Facilitação do Azure

  • O Azure Monitor é uma solução de monitorização abrangente que é utilizada para recolher, analisar e responder a dados de monitorização dos seus ambientes na cloud e no local.

  • O Log Analytics é uma ferramenta na portal do Azure utilizada para editar e executar consultas de registo em dados na área de trabalho do Log Analytics.

  • O Application Insights é uma extensão do Azure Monitor. Fornece funcionalidades de monitorização do desempenho da aplicação (APM).

  • As informações do Azure Monitor são ferramentas de análise avançadas que ajudam a monitorizar os serviços do Azure, como máquinas virtuais, serviços de aplicações e contentores. As informações são criadas sobre o Azure Monitor e o Log Analytics.

  • O Azure Monitor para soluções SAP é um produto de monitorização nativo do Azure para paisagens SAP que são executadas no Azure.

  • Azure Policy ajuda a impor normas organizacionais e a avaliar a conformidade em escala.

  • Centro de Continuidade de Negócios do Azure dá-lhe informações sobre o seu património de continuidade de negócio. À medida que aplica as abordagens fornecidas para a continuidade de negócio e recuperação após desastre (BCDR), utilize Centro de Continuidade de Negócios do Azure para centralizar a gestão da proteção da continuidade de negócio em cargas de trabalho híbridas e do Azure. Centro de Continuidade de Negócios do Azure identifica recursos que não têm proteção adequada (através de cópia de segurança ou recuperação após desastre) e efetua ações corretivas. A ferramenta facilita a monitorização unificada e permite-lhe estabelecer a conformidade de governação e auditoria através de Azure Policy, tudo convenientemente acessível numa localização.

  • Para obter as melhores práticas de várias áreas de trabalho, veja Estruturar uma arquitetura de área de trabalho do Log Analytics.

Exemplo

Para obter exemplos de soluções de monitorização do mundo real, veja Monitorização de aplicações Web na arquitetura do Azure e da Linha de Base para um cluster de Azure Kubernetes Service.

  • O Azure Monitor Baseline Alerts (AMBA) é um repositório central de definições de alerta que os clientes e parceiros podem utilizar para melhorar a experiência de observabilidade através da adoção do Azure Monitor.

Lista de verificação de fiabilidade

Veja o conjunto completo de recomendações.