Compartilhar via


Monitoramento de nuvem e resposta

Este artigo faz parte de uma série do guia de monitoramento de nuvem.

A resposta é o resultado da definição de uma ou mais ações com base em decisões controladas por dados do monitoramento que permitem aos consumidores de serviço:

  • Torne-o acionável: use configurações de monitoramento bem ajustadas para criar sinais acionáveis.
  • Monitorar continuamente: aplique monitoramento em todas as atividades de incidentes e solução de problemas para ajudar ainda mais a diagnosticar problemas.
  • Automatizar: configure a investigação, o diagnóstico, a resolução, a recuperação e a correção automáticos com base nos sinais identificados.

Aplica-se aqui o princípio da significância . Isso ajuda com o fluxo de processo ou a política de ação para ajustar e otimizar alertas, notificações e resumos de relatórios. O monitoramento de nuvem é muito mais do que notificar os humanos de que algo está errado. Trata-se também de fornecer sinais aos sistemas e serviços para reagir.

O monitoramento desempenha um papel crítico em uma ampla gama de cenários:

  • Habilitando o comportamento dinâmico do serviço: Controle dinamicamente os sistemas e serviços para reagir com base nos dados de monitoramento e eliminar incidentes automaticamente.
  • Avalie continuamente os sinais: Informe e forneça telemetria constantemente para processos dinâmicos, conformidade, dimensionamento automático e visualizações.
  • Ações organizacionais: Ajude a organização de TI a agir e gerenciar mudanças.

Alertas

A automação substitui processos de gerenciamento de serviços mais caros no cenário moderno de nuvem, eliminando mais incidentes. Os alertas desempenham um papel crucial na conscientização, mas devem ser acionáveis para evitar fadiga de alerta ou ruído.

A definição de alertas ajuda a garantir proativamente que os serviços e sistemas permaneçam íntegros, responsivos, confiáveis e seguros. Garantir o desempenho, manter os Objetivos de Nível de Serviço (SLO), a disponibilidade e a privacidade precisa de uma estratégia de alerta adequada. A escalada de alertas não é crucial para a observabilidade, e hoje não deve ser considerada a primeira linha de defesa. Em vez disso, a automação deve desempenhar um papel crítico aqui.

Tradicionalmente, monitorar significava levantar um alerta sobre o qual alguém poderia agir, implicando em um processo totalmente reativo. Essa abordagem deve ser revisada seguindo práticas modernas de gerenciamento de serviços ou operações em nuvem. Essa abordagem segue de perto o caminho tradicional de Gerenciamento de Incidentes ITIL, que não corresponde aos objetivos de eficiência da nuvem por meio de agilidade, custo mínimo e otimização.

Uma abordagem moderna pode ter uma frequência de condições detectadas que são muito mais informativas e automatizadas, por exemplo:

Condição detectada Ação primitiva Ação moderna
  • Métrica de desempenho – alta utilização de memória.
  • Ameaça de segurança – atividade de rede suspeita detectada.
  • Falha de disponibilidade – as solicitações de armazenamento de blob do Azure estão falhando.
  • Alertar e notificar, webhook, notificação por push, guia estratégico, dimensionar automaticamente Consulte os logs para identificar o componente ofensivo e disparar a automação para corrigir o problema com o componente ofensivo.

    Aqui está uma lista de recursos relevantes para recursos de alerta e automação no Azure:

    Monitoramento moderno em nuvem

    Em comparação com plataformas de monitoramento e ferramentas relacionadas que estavam disponíveis no passado, a computação em nuvem oferece:

    • Muito mais flexibilidade para elaborar opções de resposta.
    • Maneiras mais fáceis de desenvolver e habilitar respostas automatizadas.
    • Protocolos de nuvem ou métodos de API são mais facilmente integrados aos sistemas de gerenciamento de trabalho, incluindo DevOps.

    Considere os seguintes modos para o intervalo de ação automatizada, seja para investigação, enriquecimento, roteamento, atribuição, correção, recuperação ou resolução:

    Método de orquestração Descrição
    Totalmente automatizado As ações são executadas automaticamente. A automação completa deve ser comprovadamente confiável, eficiente e durável para onde sua utilidade não seja de curta duração e seja segura. A automação completa libera seus recursos para que eles possam se concentrar mais em suas iniciativas estratégicas.
    Semi-automatizado A aprovação é necessária para qualquer ação de correção.
    Manual Um operador seleciona um exemplo de automação ou guia estratégico de uma biblioteca organizada.

    O alerta depende dos dados instrumentados com base em eventos de segurança, métricas de desempenho, informações de disponibilidade e logs. As ações orientadas por dados resultam da análise de perspectivas holísticas de ponta a ponta de cada recurso monitorado, agregando e processando diferentes tipos de dados coletados para determinar o impacto e qual ação responsiva tomar.

    Expanda sua leitura com estes recursos para saber mais sobre automação com base em alertas de métricas e eventos de segurança:

    Redução de custos

    Assim como acontece com as outras disciplinas de observabilidade, a equipe precisa entender e perceber as implicações de custo e como os tipos de respostas definidos em apoio ao gerenciamento de incidentes moderno ajudam a controlar os custos. Embora o objetivo geral seja reduzir o Tempo Médio de Recuperação (MTTR) respondendo e resolvendo rapidamente um problema, você deve avaliar constantemente o custo potencial e o impacto no fluxo de receita de TI ou de negócios.

    Cada incidente relatado tem um custo. Suponha que a organização invista em orquestração para automatizar uma resposta. Nesse caso, você deve avaliar o custo-benefício e o impacto do custo aumentando o consumo do serviço de nuvem para utilizar os serviços ou recursos que permitem a automação.

    Automação

    A automação de nuvem oferece vantagens significativas para monitoramento de segurança e de saúde. Velocidade, flexibilidade e precisão são três arquétipos que a automação de nuvem traz para operações responsivas. Muitas vezes isso é chamado de orquestração, e a nuvem da Microsoft oferece vários serviços.

    Por exemplo:

    1. Uma ameaça controlada por identidade é detectada de um ou mais logs, gerando um alerta.
    2. A automação é acionada imediatamente para coletar mais informações e correlacionar mais logs para enriquecer o alerta.
    3. Um operador executa uma ação selecionando a automação correta de uma biblioteca, como desabilitar uma conta de usuário.

    O exemplo ou caso de uso pode ser totalmente automatizado.

    Assim, a função de automação fornece um tipo de guia estratégico que reduz os custos e economiza tempo:

    • Nenhum incidente de segurança foi necessário para passar por uma longa investigação, diagnóstico, resolução e recuperação.
    • O ciclo de detecção a correção pode ser em segundos ou minutos versus horas.

    Em seguida, sua equipe precisa criar uma lista ou biblioteca de exemplos de automação que possam ser usados de forma flexível - seja a partir de matéria-prima em sites públicos ou internamente curados e armazenados em um repositório de controle de código-fonte.

    Aqui está uma lista de leituras sugeridas para obter mais automação com base em eventos de identidade ou segurança:

    Estratégia de alertas bem-sucedida

    Se você não souber que há um problema, também não saberá como corrigi-lo.

    É essencial ter alertas sobre o que é importante. Para isso, é preciso coletar e medir as métricas e os logs corretos. Você também precisa de uma ferramenta de monitoramento capaz de armazenar, agregar, visualizar, analisar e iniciar uma resposta automatizada quando as condições são atendidas. Você só pode melhorar a observabilidade de seus serviços e aplicativos se entender completamente sua composição. Você deve mapear essa composição em uma configuração de monitoramento detalhada a ser aplicada pela plataforma de monitoramento. Essa configuração inclui os estados de falha previsíveis (os sintomas, não a causa da falha) que são adequados para a geração de um alerta relevante.

    Alertas informativos

    Em determinadas circunstâncias, alguns alertas podem ser informativos. Podemos usar isso para aprender sobre como nossos sistemas se comportam. Por exemplo, talvez você queira obter estes alertas informativos:

    • Uma VM foi desligada: uma VM foi desligada automaticamente para minimizar o desperdício e controlar os custos com base em um cronograma ou baixa utilização detectada.

      Neste exemplo, a orquestração foi usada com base em um recurso de agendamento nativo e pela plataforma de monitoramento que detecta a condição de utilização. Em vez de o alerta notificar ou escalonar como a única ação, ele informa sobre a ação executada e o motivo.

    • Recursos ociosos: os recursos de IaaS ou PaaS ficam ociosos por um período prolongado ou não são provisionados com base nas recomendações do Azure Advisor.

      Neste exemplo, a orquestração pode ser usada para gerenciar essas atividades relacionadas à infraestrutura com base na lógica de negócios ou no fluxo de trabalho do processo ITSM. Respostas e ações muito mais rápidas são necessárias hoje. Com a nuvem, o alerta é menor para os humanos do que para uma resposta automatizada ou uma orquestração contínua como parte de um fluxo de valor automatizado.

    Considerações sobre a estratégia de alerta

    Lembre-se de que o aprendizado é fundamental e, quando projetado corretamente, os alertas informativos podem fornecer muitos insights sobre seu ecossistema de nuvem e saúde.

    Considere os seguintes princípios para determinar se um sintoma é um candidato apropriado para a geração de alertas:

    • Acionável: O problema importa? Isso reflete um problema real na saúde do seu aplicativo? Por exemplo, talvez você queira enviar um alerta quando a utilização da CPU for muito alta durante um período sustentado para um recurso ou uma consulta SQL estiver consistentemente causando problemas de desempenho, mas talvez você não queira enviar um alerta quando a CPU picar em um curto período. Torne as coisas acionáveis para reduzir falsos positivos e evitar a fadiga de alerta.

    • Urgência: O assunto precisa de atenção urgente? Se sim, a equipe responsável deve ser notificada imediatamente.

    • Impacto no cliente: os usuários do serviço ou aplicativo são afetados pelo problema?

    • Impacto em sistemas dependentes: Existem alertas de dependências inter-relacionadas que podem ser correlacionadas para evitar notificar diferentes equipes que trabalham no mesmo problema?

    Com essas considerações iniciais, você pode começar a desenvolver sua configuração de monitoramento. Você pode testar e validar as suposições em todos os ambientes. Por exemplo, avalie continuamente essas considerações e perguntas em ambientes de não produção e produção. A melhoria contínua é a chave para uma resposta bem-sucedida aos sinais de monitoramento.

    Ao avaliar continuamente o que está funcionando, considere fazer a si mesmo estas perguntas para ajudar a aumentar a conscientização sobre a eficácia da resposta de monitoramento:

    • Volume de alertas: você recebe um volume de alerta alto? Há muitos alertas não acionáveis que poderiam ter sido evitados?
    • Problemas não percebidos: você recebe relatórios ou tickets de usuários com problemas que não foram detectados pela configuração de monitoramento?
    • Falsos positivos: Você recebe alertas ou sinais que foram sinalizados incorretamente?
    • Alerta ou evento: Você realmente precisa enviar um alerta, ou alguns dos alertas gerados podem ser apenas eventos sinalizados no sistema? Se os sinais aparecerem quando você consultá-lo, em vez de enviar um alerta, isso seria suficiente para evitar fadiga de alertas e notificações não acionáveis?

    Consulte a visão geral das plataformas de monitoramento nesta série de artigos para obter uma compreensão mais profunda dos recursos das soluções de monitoramento da Microsoft.

    Próximas etapas