Recomendações para criar uma estratégia confiável de monitoramento e alertas

Aplica-se a esta recomendação de lista de verificação de confiabilidade do Azure Well-Architected Framework:

RE:10 Meça e publique os indicadores de integridade da solução. Capture continuamente o tempo de atividade e outros dados de confiabilidade de toda a carga de trabalho e também de componentes individuais e fluxos de chave.

Este guia descreve as recomendações para criar uma estratégia confiável de monitoramento e alertas. Implemente essa estratégia para manter as equipes de operações informadas sobre a integridade do seu ambiente status e garantir que você atenda às metas de confiabilidade estabelecidas para sua carga de trabalho.

Definições

Termo Definição
Métricas Valores numéricos coletados em intervalos regulares. As métricas descrevem alguns aspectos de um sistema em um determinado momento.
Logs de recursos Dados gerados por um sistema. Ele fornece informações sobre o estado do sistema.
Rastreamentos Dados que fornecem informações sobre o caminho que uma solicitação percorre por serviços e componentes.

Principais estratégias de design

Antes de criar uma estratégia de monitoramento e alerta, execute as seguintes tarefas para sua carga de trabalho como parte do planejamento de confiabilidade:

Crie uma estratégia de monitoramento e alerta para garantir que sua carga de trabalho opere de forma confiável. Uma estratégia de monitoramento e alertas fornece reconhecimento às suas equipes de operações para que elas sejam notificadas sobre alterações na condição da carga de trabalho e possam resolver problemas rapidamente. Crie uma estratégia de monitoramento robusta e confiável criando um modelo de integridade para seus fluxos críticos e os componentes que esses fluxos críticos compõem. O modelo de integridade define estados íntegros, degradados e não íntegros. Projete sua postura operacional para capturar imediatamente as alterações nesses estados. Quando os estados de integridade mudam de íntegros para degradados ou não íntegros, os mecanismos de alerta disparam as medidas corretivas automáticas e notificam as equipes apropriadas.

Implemente as recomendações a seguir para criar uma estratégia de monitoramento e alerta que atenda aos requisitos da sua empresa.

Orientação geral

  • Entenda a diferença entre métricas, logs e rastreamentos.

  • Habilite o registro em log para todos os recursos de nuvem. Use a automação e a governança em suas implantações para habilitar o log de diagnóstico em todo o ambiente.

  • Encaminhe todos os logs de diagnóstico para um coletor de dados centralizado e uma plataforma de análise, como um workspace do Log Analytics. Se você tiver requisitos regionais de soberania de dados, deverá usar coletores de dados locais nas regiões sujeitas a esses requisitos.

Compensação: há implicações de custo para armazenar e consultar logs. Observe como a análise e a retenção de log afetam seu orçamento e determinam o melhor equilíbrio de utilização para atender às suas necessidades. Para obter mais informações, consulte Práticas recomendadas para otimização de custos.

  • Se suas cargas de trabalho estiverem sujeitas a uma ou mais estruturas de conformidade, alguns dos logs de componentes que lidam com informações confidenciais também estarão sujeitos a essas estruturas. Envie os logs de componente relevantes para um sistema SIEM (gerenciamento de eventos e informações de segurança), como o Microsoft Sentinel.

  • Crie uma política de retenção de log que incorpore requisitos de retenção de longo prazo que as estruturas de conformidade impõem à sua carga de trabalho.

  • Use o log estruturado para todas as mensagens de log para otimizar a consulta dos dados de log.

  • Configure alertas para disparar quando os valores passarem limites críticos que se correlacionam a uma alteração de estado do modelo de integridade, como verde para amarelo ou vermelho.

    A configuração de limite é uma prática de melhoria contínua. À medida que sua carga de trabalho evolui, os limites definidos podem ser alterados. Em alguns casos, os limites dinâmicos são uma boa opção para sua estratégia de monitoramento.

  • Considere usar alertas quando os estados melhorarem, como vermelho para amarelo ou vermelho para verde, para que as equipes de operações possam acompanhar esses eventos para referência futura.

  • Visualize a integridade em tempo real do seu ambiente.

  • Use os dados coletados durante incidentes para melhorar continuamente seus modelos de integridade e sua estratégia de monitoramento e alertas.

  • Incorpore serviços de monitoramento e alertas da plataforma de nuvem, incluindo:

  • Incorpore monitoramento e análise avançados criados com finalidade que seu provedor de nuvem oferece, como ferramentas de insights do Azure Monitor.

  • Implemente o monitoramento de backup e recuperação para capturar:

    • A replicação de dados status para garantir que sua carga de trabalho alcance a recuperação dentro do RPO (objetivo de ponto de recuperação de destino).

    • Backups e recuperações bem-sucedidos e com falha.

    • A duração da recuperação para informar seu planejamento de recuperação de desastre.

Monitorar aplicativos

  • Crie investigações de integridade ou marcar funções e execute-as regularmente de fora do aplicativo. Verifique se você testa de vários locais geograficamente próximos aos seus clientes.

  • Registrar dados enquanto o aplicativo é executado no ambiente de produção. Você precisa de informações suficientes para diagnosticar a causa de problemas no estado de produção.

  • Registre em log os eventos nos limites dos serviços. Inclua uma ID de correlação que flua nos limites dos serviços. Se uma transação fluir por vários serviços e um deles falhar, a ID de correlação ajudará você a acompanhar solicitações em seu aplicativo e identificar por que a transação falhou.

  • Use logs assíncronos. Às vezes, operações de log síncronas bloqueiam o código do aplicativo, o que faz com que as solicitações façam backup à medida que os logs são gravados. Use o log assíncrono para preservar a disponibilidade durante o registro em log do aplicativo.

  • Separe o registro em log do aplicativo da auditoria. Os registros de auditoria geralmente são mantidos para conformidade ou requisitos regulatórios e devem ser concluídos. Para evitar transações descartadas, mantenha os logs de auditoria separados dos logs de diagnóstico.

  • Use a correlação de telemetria para garantir que você possa mapear transações por meio do aplicativo de ponta a ponta e fluxos críticos do sistema. Esse processo é vital para executar a RCA (análise de causa raiz) para falhas. Colete métricas e logs no nível da plataforma, como porcentagem de CPU, entrada de rede, saída de rede e operações de disco por segundo, do aplicativo para informar um modelo de integridade e detectar e prever problemas. Essa abordagem pode ajudar a distinguir entre falhas transitórias e não transitórias.

  • Use o monitoramento de caixa branca para instrumentar o aplicativo com logs semânticos e métricas. Colete logs e métricas no nível do aplicativo, como consumo de memória ou latência de solicitação, do aplicativo para informar um modelo de integridade e detectar e prever problemas.

  • Use o monitoramento de caixa preta para medir os serviços de plataforma e a experiência do cliente resultante. O monitoramento de caixa preta testa o comportamento do aplicativo visível externamente sem conhecimento dos mecanismos internos do sistema. Essa abordagem é comum para medir SLIs (indicadores de nível de serviço) centrados no cliente, SLOs (objetivos de nível de serviço) e SLAs (contratos de nível de serviço).

Observação

Para obter mais informações sobre o monitoramento de aplicativos, consulte Padrão de monitoramento de ponto de extremidade de integridade.

Monitorar dados e armazenamento

  • Monitore as métricas de disponibilidade dos contêineres de armazenamento. Quando essa métrica cai abaixo de 100%, ela indica gravações com falha. Quedas transitórias na disponibilidade podem ocorrer quando o provedor de nuvem gerencia a carga. Acompanhe as tendências de disponibilidade para determinar se há um problema com sua carga de trabalho.

    Em alguns casos, uma queda nas métricas de disponibilidade de um contêiner de armazenamento indica um gargalo na camada de computação associada ao contêiner de armazenamento.

  • Há muitas métricas a serem monitoradas para bancos de dados. No contexto de confiabilidade, as métricas importantes a serem monitoradas incluem:

    • Duração da consulta

    • Tempos limite

    • Tempos de espera

    • Demanda de memória

    • Locks

Facilitação do Azure

  • O Azure Monitor é uma solução de monitoramento abrangente usada para coletar, analisar e responder a dados de monitoramento de seus ambientes locais e de nuvem.

  • O Log Analytics é uma ferramenta no portal do Azure usada para editar e executar consultas de log em relação aos dados no workspace do Log Analytics.

  • O Application Insights é uma extensão do Azure Monitor. Ele fornece recursos de APM (monitoramento de desempenho de aplicativos).

  • Os insights do Azure Monitor são ferramentas de análise avançada que ajudam a monitorar serviços do Azure, como máquinas virtuais, serviços de aplicativos e contêineres. Os insights são criados com base no Azure Monitor e no Log Analytics.

  • Azure Monitor para Soluções SAP é um produto de monitoramento nativo do Azure para cenários SAP executados no Azure.

  • O Azure Policy ajuda a impor padrões organizacionais e a avaliar a conformidade em escala.

  • Centro de Continuidade de Negócios do Azure fornece insights sobre seu patrimônio de continuidade de negócios. À medida que você aplica as abordagens fornecidas para BCDR (continuidade dos negócios e recuperação de desastres), use Centro de Continuidade de Negócios do Azure para centralizar o gerenciamento da proteção de continuidade dos negócios entre o Azure e cargas de trabalho híbridas. Centro de Continuidade de Negócios do Azure identifica recursos que não têm proteção adequada (por meio de backup ou recuperação de desastre) e executa ações corretivas. A ferramenta facilita o monitoramento unificado e permite estabelecer a conformidade de governança e auditoria por meio de Azure Policy, tudo convenientemente acessível em um único local.

  • Para obter várias práticas recomendadas de workspace, consulte Criar uma arquitetura de workspace do Log Analytics.

Exemplo

Para obter exemplos de soluções de monitoramento do mundo real, consulte Monitoramento de aplicativos Web no Azure e Arquitetura de linha de base para um cluster Serviço de Kubernetes do Azure.

Lista de verificação de confiabilidade

Consulte o conjunto completo de recomendações.