Compartilhar via


Recomendações para projetar e criar um sistema de monitoramento

Aplica-se a esta recomendação da lista de verificação do Azure Well-Architected Framework Operational Excellence:

OE:07 Crie e implemente um sistema de monitoramento para validar as escolhas de design e informar futuras decisões de design e negócios. Esse sistema captura e expõe a telemetria operacional, as métricas e os logs emitidos da infraestrutura e do código da carga de trabalho.

Guia relacionado: Recomendações para instrumentar um aplicativo

Este guia descreve as recomendações para projetar e criar um sistema de monitoramento. Para monitorar efetivamente sua carga de trabalho quanto à segurança, desempenho e confiabilidade, você precisa de um sistema abrangente com sua própria pilha que forneça a base para todas as funções de monitoramento, detecção e alerta.

Definições

Termo Definição
Logs Eventos do sistema registrados. Os logs podem conter diferentes tipos de dados em um formato de texto estruturado ou de formato livre. Eles contêm um carimbo de data/hora.
Métricas Valores numéricos coletados em intervalos regulares. As métricas descrevem alguns aspectos de um sistema em um determinado momento.

Principais estratégias de design

Para implementar um design de sistema de monitoramento abrangente para sua carga de trabalho, siga estes princípios básicos:

  • Sempre que possível, aproveite as ferramentas de monitoramento fornecidas pela plataforma, que normalmente exigem muito pouca configuração e podem fornecer insights profundos sobre sua carga de trabalho que, de outra forma, seriam difíceis de realizar.

  • Colete logs e métricas de toda a pilha de carga de trabalho. Todos os recursos de infraestrutura e funções de aplicativo devem ser configurados para produzir dados padronizados e significativos, e esses dados precisam ser coletados.

  • Armazene os dados coletados em uma solução de armazenamento padronizada, confiável e segura.

  • Processe os dados armazenados para que possam ser tratados por soluções de análise e visualização.

  • Analise os dados processados para determinar com precisão o estado da carga de trabalho.

  • Visualize o estado da carga de trabalho em painéis ou relatórios significativos para equipes de carga de trabalho e outras partes interessadas.

  • Configure alertas acionáveis e outras respostas automáticas para limites definidos de forma inteligente para notificar as equipes de carga de trabalho quando surgirem problemas.

  • Inclua sistemas de monitoramento e alerta em suas práticas gerais de teste de carga de trabalho.

  • Garantir que os sistemas de monitoramento e alerta estejam no escopo para melhoria contínua. O comportamento do aplicativo e da infraestrutura em produção oferece oportunidades de aprendizado contínuo. Incorpore essas lições em projetos de monitoramento e alerta.

  • Vincule os dados de monitoramento que você coleta e analisa de volta ao sistema e aos fluxos do usuário para correlacionar a integridade dos fluxos com os dados, além da integridade geral da carga de trabalho. Analisar esses dados em termos de fluxos ajudará a alinhar sua estratégia de observabilidade com seu modelo de integridade.

Você deve automatizar todas as funções do sistema de monitoramento o máximo possível, e todas elas devem ser executadas continuamente, o dia todo, todos os dias.

Este pipeline de fluxo de trabalho ilustra o sistema de monitoramento:

Diagrama que mostra as etapas de um sistema de monitoramento abrangente como um pipeline.

Coletar dados de instrumentação

Observação

Você precisa instrumentar seu aplicativo para habilitar o registro em log. Para obter mais informações, consulte o guia de instrumentação.

Você deve configurar todos os componentes de carga de trabalho, sejam recursos de infraestrutura ou funções de aplicativo, para capturar telemetria e/ou eventos, como logs e métricas.

Os logs são úteis principalmente para detectar e investigar anomalias. Normalmente, os logs são produzidos pelo componente de carga de trabalho e, em seguida, enviados para a plataforma de monitoramento ou extraídos pela plataforma de monitoramento por meio da automação.

As métricas são úteis principalmente para criar um modelo de integridade e identificar tendências no desempenho e na confiabilidade da carga de trabalho. As métricas também são úteis para identificar tendências no comportamento de uso de seus clientes. Essas tendências podem ajudar a orientar as decisões sobre melhorias do ponto de vista do cliente. Normalmente, as métricas são definidas na plataforma de monitoramento, e a plataforma de monitoramento e outras ferramentas pesquisam a carga de trabalho para capturar métricas.

Dados do aplicativo

Para aplicativos, o serviço de coleta pode ser uma ferramenta de gerenciamento de desempenho de aplicativos (APM) que pode ser executada de forma autônoma do aplicativo que gera os dados de instrumentação. Depois que o APM é ativado, você tem visibilidade clara de métricas importantes, em tempo real e historicamente. Use um nível apropriado de registro. O registro em log muito detalhado poderá gerar custos significativos. Defina os níveis de log de acordo com o ambiente. Ambientes inferiores não precisam do mesmo nível de detalhamento que a produção, por exemplo.

Os logs do aplicativo dão suporte ao ciclo de vida do aplicativo de ponta a ponta. O registro em log é essencial para entender como o aplicativo opera em vários ambientes, quais eventos ocorrem e as condições em que ocorrem.

Recomendamos que você colete logs e eventos de aplicativos em todos os principais ambientes. Separe os dados entre os ambientes o máximo possível usando armazenamentos de dados diferentes para cada ambiente, se isso for prático. Use filtros para garantir que ambientes não críticos não compliquem a interpretação dos logs de produção. Por fim, as entradas de log correspondentes no aplicativo devem capturar uma ID de correlação para suas respectivas transações.

Você deve capturar eventos de aplicativo em tipos de dados estruturados, usando pontos de dados legíveis pelo computador em vez de tipos não estruturados de cadeia de caracteres. Um formato estruturado, baseado em um esquema conhecido, pode facilitar a análise e a interpretação de logs. Além disso, os dados estruturados podem ser facilmente indexados e pesquisados e os relatórios podem ser bastante simplificados.

Os dados devem estar em um formato agnóstico independente do computador, do sistema operacional ou do protocolo de rede. Por exemplo, emita informações em um formato autodescritivo como JSON, MessagePack ou Protobuf em vez de ETL/ETW. Um formato padrão permite que o sistema construa pipelines de processamento. Os componentes que leem, transformam e enviam dados no formato padrão podem ser facilmente integrados.

Dados de infraestrutura

Para recursos de infraestrutura em sua carga de trabalho, certifique-se de coletar logs e métricas. Para sistemas de infraestrutura como serviço (IaaS), capture o sistema operacional, a camada de aplicativo e os logs de diagnóstico, além de métricas relacionadas à integridade da carga de trabalho. Para recursos de PaaS (plataforma como serviço), você pode estar limitado em sua capacidade de capturar logs relacionados à infraestrutura subjacente, mas certifique-se de que você pode capturar logs de diagnóstico, além de métricas relacionadas à integridade da carga de trabalho.

Sempre que possível, colete logs da sua plataforma de nuvem. Você pode coletar logs de atividades para sua assinatura e logs de diagnóstico para o plano de gerenciamento.

Estratégias de coleta

Evite recuperar dados de telemetria manualmente de cada componente. Mova os dados para um local central e consolide-os lá. Para uma solução multirregional, recomendamos que você primeiro colete, consolide e armazene dados região por região e, em seguida, agregue os dados regionais em um único sistema central.

Compensação: esteja ciente de que há implicações de custo em ter armazenamentos de dados regionais e centralizados.

Para otimizar o uso da largura de banda, priorize com base na importância dos dados. Você pode transferir dados menos urgentes em lotes. No entanto, esses dados não devem ser atrasados indefinidamente, especialmente se contiverem informações urgentes.

Há dois modelos principais que o serviço de coleta pode usar para coletar dados de instrumentação:

  • Modelo de pull: recupera ativamente dados dos vários logs e outras fontes para cada instância do aplicativo.

  • Modelo de push: aguarda passivamente que os dados sejam enviados dos componentes que constituem cada instância do aplicativo.

Agentes de monitoramento

Você pode usar agentes de monitoramento no modelo pull. Os agentes são executados localmente em um processo separado com cada instância do aplicativo, extraindo dados periodicamente e gravando as informações diretamente no armazenamento comum compartilhado por todas as instâncias do aplicativo.

Diagrama que mostra o uso de um agente de monitoramento para extrair informações e gravá-las no armazenamento compartilhado.

Observação

O uso de um agente de monitoramento é ideal para capturar dados de instrumentação obtidos naturalmente de uma fonte de dados. É apropriado para um aplicativo de pequena escala que é executado em um número limitado de nós em um único local. Os exemplos incluem informações de exibições de gerenciamento dinâmico do SQL Server ou o comprimento de uma fila do Barramento de Serviço do Azure.

Considerações sobre desempenho

Um aplicativo complexo e altamente escalável pode gerar grandes volumes de dados. A quantidade de dados pode facilmente sobrecarregar a largura de banda de E/S disponível para um único local central. A solução de telemetria não deve agir como gargalo e deve ser escalonável à medida que o sistema se expande. Idealmente, a solução deve incorporar um grau de redundância para reduzir os riscos de perda de informações importantes de monitoramento (como dados de auditoria ou faturamento) se parte do sistema falhar.

Uma maneira de armazenar dados de instrumentação em buffer é usar o enfileiramento:

Diagrama que mostra como você pode usar uma fila para armazenar dados de instrumentação em buffer.

Nessa arquitetura, o serviço de coleta de dados posta dados em uma fila. Uma fila de mensagens é adequada porque fornece semântica "pelo menos uma vez" que ajuda a garantir que os dados enfileirados não sejam perdidos depois de postados. Você pode implementar o serviço de gravação de armazenamento usando uma função de trabalho separada. Você pode usar o padrão Fila de Prioridade para implementar essa arquitetura.

Para escalabilidade, você pode executar várias instâncias do serviço de gravação de armazenamento. Se um alto volume de eventos ou um grande número de pontos de dados estiver sendo monitorado, você poderá usar os Hubs de Eventos do Azure para expedir os dados para uma instância de computação diferente para processamento e armazenamento.

Estratégias de consolidação

Os dados coletados de uma única instância de um aplicativo fornecem uma exibição localizada da integridade e do desempenho dessa instância. Para avaliar a integridade geral do sistema, você precisa consolidar alguns aspectos dos dados das exibições locais. Você pode fazer isso depois que os dados são armazenados, mas, em alguns casos, você pode fazer isso à medida que os dados são coletados.

Diagrama que mostra um exemplo de uso de um serviço para consolidar dados de instrumentação.

Os dados de instrumentação podem passar por um serviço de consolidação de dados separado que combine os dados e atue como um processo de filtro e limpeza. Por exemplo, você pode amalgamar dados de instrumentação que incluem as mesmas informações de correlação, como uma ID de atividade. (Um usuário pode iniciar uma operação de negócios em um nó e, em seguida, ser transferido para outro nó se o primeiro nó falhar ou devido à forma como o balanceamento de carga está configurado.) Esse processo também pode detectar e remover quaisquer dados duplicados. (A duplicação poderá ocorrer se o serviço de telemetria usar filas de mensagens para enviar dados de instrumentação para o armazenamento.)

Armazenar dados para consulta e análise

Ao escolher uma solução de armazenamento, considere o tipo de dados, como eles são usados e com que urgência são necessários.

Observação

Use soluções de armazenamento separadas para ambientes de não produção e produção para garantir que os dados de cada ambiente sejam fáceis de identificar e gerenciar.

Tecnologias de armazenamento

Considere uma abordagem de persistência poliglota, em que diferentes tipos de informações são armazenados em tecnologias mais apropriadas para a maneira como cada tipo provavelmente será usado.

Por exemplo, o Armazenamento de Blobs do Azure e o Armazenamento de Tabelas do Azure são acessados de maneiras semelhantes. Mas as operações que você pode executar neles diferem, assim como a granularidade dos dados que eles contêm. Se você precisar executar operações mais analíticas ou precisar de recursos de pesquisa de texto completo dos dados, pode ser mais adequado usar o armazenamento de dados que fornece recursos otimizados para tipos específicos de consultas e acesso de dados. Por exemplo:

  • Os dados do contador de desempenho podem ser armazenados em um banco de dados SQL para habilitar uma análise ad hoc.

  • Talvez seja melhor armazenar logs de rastreamento nos Logs do Azure Monitor ou no Azure Data Explorer.

  • Você pode armazenar informações de segurança em uma solução HDFS.

Os mesmos dados de instrumentação podem ser necessários para mais de um propósito. Por exemplo, você pode usar contadores de desempenho para fornecer uma visão histórica do desempenho do sistema ao longo do tempo. Essas informações podem ser combinadas com outros dados de uso para gerar informações de cobrança do cliente. Nessas situações, os mesmos dados podem ser enviados para mais de um destino, como para um banco de dados de documentos que pode ser um armazenamento de longo prazo para armazenar informações de cobrança e para um repositório multidimensional para lidar com análises de desempenho complexas.

Certifique-se de habilitar a funcionalidade para proteger os dados contra exclusão acidental, como bloqueios de recursos e exclusão reversível.

Além disso, certifique-se de proteger o acesso ao armazenamento usando o controle de acesso baseado em função para ajudar a garantir que apenas os indivíduos que precisam acessar os dados possam fazê-lo.

Serviço de consolidação

Você pode implementar outro serviço que recupera periodicamente os dados do armazenamento compartilhado, particiona-os e filtra-os de acordo com sua finalidade e, em seguida, grava-os em um conjunto apropriado de armazenamentos de dados.

Diagrama que mostra um serviço de particionamento de dados que move dados para um armazenamento de dados apropriado com base em seu tipo.

Uma abordagem alternativa é incluir essa funcionalidade no processo de consolidação e a limpeza e gravar os dados diretamente nesses armazenamentos conforme eles são recuperados, em vez de salvá-los em uma área de armazenamento compartilhado intermediária.

Cada abordagem tem suas vantagens e desvantagens. A implementação de um serviço de particionamento separado reduz a carga no serviço de consolidação e limpeza e permite que pelo menos alguns dos dados particionados sejam regenerados, se necessário (dependendo da quantidade de dados retidos no armazenamento compartilhado). No entanto, essa abordagem consome recursos adicionais. Além disso, pode haver um atraso entre o recebimento de dados de instrumentação de cada instância do aplicativo e a conversão de dados em informações acionáveis.

Considerações de consulta

Considere a urgência com que os dados serão requisitados. Dados que geram alertas têm que ser acessados rapidamente e, por isso, devem ser mantidos em um armazenamento de dados rápido e devem ser indexados ou estruturados de modo a otimizar as consultas que sistema de alertas executa. Em alguns casos, pode ser necessário que o serviço de coleta formate e salve dados localmente para que uma instância local do sistema de alerta envie notificações rapidamente. Os mesmos dados podem ser enviados para o serviço de gravação em armazenamento mostrado nos diagramas anteriores e armazenados centralmente se também forem necessários para outras finalidades.

Considerações sobre retenção de dados

Em alguns casos, depois que os dados são processados e transferidos, você pode remover os dados de origem brutos originais que foram armazenados localmente. Em outros casos, pode ser necessário ou útil salvar as informações brutas. Por exemplo, talvez você queira manter os dados gerados para depuração disponíveis em sua forma bruta, mas descartá-los rapidamente depois que os bugs forem resolvidos.

Os dados de desempenho geralmente têm uma vida útil mais longa para que você possa usá-los para detectar tendências de desempenho e para planejamento de capacidade. A exibição consolidada dos dados geralmente é mantida online por um período limitado para habilitar o acesso rápido. Depois disso, ela pode ser arquivada ou descartada.

É útil armazenar dados históricos para que você possa identificar tendências de longo prazo. Em vez de salvar dados antigos em sua totalidade, você pode reduzir a amostragem dos dados para reduzir sua resolução e economizar custos de armazenamento. Por exemplo, em vez de salvar indicadores de desempenho minuto a minuto, você pode consolidar dados com mais de um mês para formar uma exibição de hora em hora.

Dados coletados para medição e de cobrança clientes talvez precisem ser salvos indefinidamente. Além disso, os requisitos regulatórios podem ditar que as informações coletadas para auditoria e segurança precisam ser arquivadas e salvas. Esses dados também são confidenciais e talvez precisem ser criptografados ou protegidos para evitar violações. Você nunca deve registrar senhas de usuário ou outras informações que possam ser usadas para cometer fraude de identidade. Você deve limpar esses detalhes dos dados antes de armazená-los.

Para garantir que você cumpra as leis e regulamentos, minimize o armazenamento de qualquer informação identificável. Se você precisar armazenar informações identificáveis, certifique-se, ao projetar sua solução, de levar em consideração os requisitos que permitem que os indivíduos solicitem que suas informações sejam excluídas.

Analisar dados para entender a integridade de uma carga de trabalho

Depois de coletar dados de várias fontes de dados, analise-os para avaliar o bem-estar geral do sistema. Para esta análise, tenha uma compreensão clara de:

  • Como estruturar dados com base em KPIs e métricas de desempenho que você definiu.

  • Como correlacionar os dados capturados em diferentes métricas e arquivos de log. Essa correlação é importante quando você está rastreando uma sequência de eventos e pode ajudá-lo a diagnosticar problemas.

Na maioria dos casos, os dados de cada componente da arquitetura são capturados localmente e, em seguida, combinados com precisão com os dados gerados por outros componentes.

Por exemplo, um aplicativo de três camadas pode ter:

  • Uma camada de apresentação que permite que um usuário se conecte a um site.

  • Uma camada intermediária que hospeda um conjunto de microsserviços que processa a lógica de negócios.

  • Uma camada de banco de dados que armazena dados associados à operação.

Os dados de uso de uma única operação de negócios podem abranger todas as três camadas. Essas informações precisam ser correlacionadas para fornecer uma visão geral do uso de recursos e do processamento da operação. A correlação pode envolver pré-processamento e filtragem de dados na camada de banco de dados. Na camada intermediária, a agregação e a formatação são tarefas comuns.

Recomendações

  • Correlacione logs no nível do aplicativo e no nível do recurso. Avalie os dados em ambos os níveis para otimizar a detecção de problemas e a solução de problemas desses problemas. Você pode agregar os dados em um único coletor de dados ou aproveitar os métodos que consultam eventos em ambos os níveis. Recomendamos uma solução unificada, como o Azure Log Analytics, para agregar e consultar logs no nível do aplicativo e no nível do recurso.

  • Defina tempos de retenção claros no armazenamento para análise a frio. Recomendamos essa prática para permitir a análise histórica em um período específico. Também pode ajudá-lo a controlar os custos de armazenamento. Implemente processos que garantam que os dados sejam arquivados em armazenamento mais barato e agreguem dados para análise de tendências de longo prazo.

  • Analise tendências de longo prazo para prever problemas operacionais. Avalie dados de longo prazo para formar estratégias operacionais e também para prever quais problemas operacionais provavelmente ocorrerão e quando. Por exemplo, você pode observar que os tempos médios de resposta estão aumentando lentamente ao longo do tempo e se aproximando da meta máxima.

Para obter diretrizes detalhadas sobre essas recomendações, consulte Analisar dados de monitoramento para aplicativos de nuvem.

Visualizar relatórios de integridade da carga de trabalho

Dashboards

A maneira mais comum de visualizar dados é usar painéis que podem exibir informações como uma série de tabelas ou gráficos ou em alguma outra forma visual. Esses itens podem ser parametrizados e um analista pode selecionar os parâmetros importantes, como o período de tempo, para qualquer situação específica.

Alinhe seus painéis com seu modelo de integridade para que eles indiquem quando a carga de trabalho ou os componentes da carga de trabalho estão íntegros, degradados ou não íntegros.

Para que um sistema de painel funcione de forma eficaz, ele deve ser significativo para a equipe de carga de trabalho. Visualize informações relacionadas à integridade da carga de trabalho e que também sejam acionáveis. Quando a carga de trabalho ou um componente está degradado ou não íntegro, os membros da equipe de carga de trabalho devem ser capazes de identificar facilmente onde o problema se origina na carga de trabalho e iniciar suas ações corretivas ou investigações. Por outro lado, incluir informações que não são acionáveis ou que não estão relacionadas à integridade da carga de trabalho pode tornar o painel desnecessariamente complexo e frustrante para os membros da equipe que estão tentando discernir o ruído de fundo dos dados acionáveis.

Você pode ter painéis para partes interessadas ou desenvolvedores que são personalizados para mostrar apenas dados sobre a carga de trabalho que eles consideram relevantes. Certifique-se de que a equipe de carga de trabalho entenda os tipos de pontos de dados que outras equipes estão interessadas em ver e visualize os painéis antes de compartilhá-los para verificar a clareza. Fornecer painéis sobre sua carga de trabalho para as partes interessadas é uma boa maneira de mantê-las informadas sobre a integridade da carga de trabalho, mas corre o risco de ser contraproducente se as partes interessadas não entenderem claramente os dados que veem.

Um bom painel não exibe apenas informações. Também permite que um analista faça perguntas improvisadas sobre essas informações. Alguns sistemas oferecem ferramentas de gerenciamento que o operador pode usar para concluir essas tarefas e explorar os dados subjacentes. Em vez disso, dependendo do repositório usado para armazenar as informações, pode ser possível consultar os dados diretamente ou importá-los para ferramentas como o Excel para análise e relatórios adicionais.

Observação

Restrinja o acesso ao painel ao pessoal autorizado. As informações nos painéis podem ser comercialmente sensíveis. Você também deve proteger os dados subjacentes para impedir que os usuários os alterem.

Reporting

A emissão de relatórios é usada para gerar uma visão geral do sistema. Pode incorporar dados históricos e informações atuais. Os requisitos para a geração de relatórios se enquadram em duas categorias amplas: relatórios operacionais e relatórios de segurança.

Os relatórios operacionais geralmente incluem o seguinte:

  • Agregar estatísticas que você pode usar para compreender a utilização de recursos do sistema geral ou de subsistemas especificados durante um período especificado.

  • Identificar tendências na utilização de recursos do sistema geral ou de subsistemas específicos durante um período especificado.

  • Monitorar as exceções que ocorreram em todo o sistema ou em subsistemas especificados durante um período especificado.

  • Determinar a eficiência do aplicativo para os recursos implantados e entender se o volume de recursos e seus custos associados podem ser reduzidos sem afetar o desempenho desnecessariamente.

Os relatórios de segurança rastreiam o uso do sistema pelo cliente. Eles podem incluir:

  • Auditoria de operações do usuário. Essa tarefa requer o registro das solicitações individuais que cada usuário conclui, juntamente com datas e horas. Os dados devem ser estruturados para permitir que um administrador reconstrua rapidamente a sequência de operações que um usuário conclui durante um período especificado.

  • Controle do uso do recurso pelo usuário. Essa tarefa requer o registro de como cada solicitação de um usuário acessa os vários recursos que compõem o sistema e por quanto tempo. Um administrador pode usar esses dados para gerar um relatório de utilização, por usuário, por um período especificado, possivelmente para faturamento.

Em muitos casos, os processos em lotes podem gerar relatórios de acordo com um agendamento definido. A latência normalmente não é um problema. Você também deve ter processos em lote que possam gerar relatórios espontaneamente, conforme necessário. Por exemplo, se você armazenar dados em um banco de dados relacional como o Banco de Dados SQL do Azure, poderá usar uma ferramenta como o SQL Server Reporting Services para extrair e formatar dados e apresentá-los como um conjunto de relatórios.

Definir alertas para eventos-chave

Para ajudar a garantir que o sistema permaneça íntegro, responsivo e seguro, defina alertas para que os operadores possam responder a eles em tempo hábil. Um alerta pode conter informações contextuais suficientes para ajudá-los a iniciar rapidamente as atividades de diagnóstico. Os alertas podem ser usados para invocar funções de correção, como dimensionamento automático ou outros mecanismos de autocorreção. Os alertas também podem permitir a conscientização sobre custos, fornecendo visibilidade de orçamentos e limites.

Recomendações

  • Defina um processo para resposta de alerta que identifique as ações e os proprietários responsáveis.

  • Configure alertas para um escopo bem definido (tipos de recursos e grupos de recursos) e ajuste o detalhamento para minimizar o ruído.

  • Use uma solução de alerta automatizada, como o Splunk ou o Azure Monitor, em vez de exigir que as pessoas procurem ativamente por problemas.

  • Use alertas para operacionalizar os processos de correção. Por exemplo, crie automaticamente tíquetes para acompanhar problemas e resoluções.

  • Acompanhe a integridade dos serviços da plataforma de nuvem em regiões, a comunicação sobre interrupções, as atividades de manutenção planejada e outros avisos de integridade.

Limites

Os alertas são gerados quando os limites são ultrapassados, conforme detectado pelo seu sistema de monitoramento. Certifique-se de que os limites definidos geralmente forneçam tempo suficiente para implementar as alterações necessárias em sua carga de trabalho para evitar degradação ou interrupções. Por exemplo, defina seu limite de escalabilidade automática para iniciar a escalabilidade antes que qualquer um dos sistemas em execução fique sobrecarregado a ponto de uma experiência de usuário degradada. Baseie os valores de limite atribuídos em sua experiência anterior no gerenciamento de infraestrutura e valide-os por meio dos testes que você executa como parte de suas práticas de teste.

Para obter diretrizes detalhadas sobre casos de uso de alertas e outras considerações, consulte Projetando uma estratégia confiável de monitoramento e alertas.

Facilitação do Azure

  • O Azure Monitor é uma solução de monitoramento abrangente que coleta, analisa e responde aos dados de monitoramento de seus ambientes locais e na nuvem.

  • O Log Analytics é uma ferramenta no portal do Azure que você pode usar para editar e executar consultas de log em dados no workspace do Log Analytics.

    Se você estiver usando vários workspaces, consulte o guia de arquitetura de workspace do Log Analytics para obter as práticas recomendadas.

  • O Application Insights é uma extensão do Azure Monitor. Ele fornece recursos de APM.

  • Os Insights do Azure Monitor são ferramentas de análise avançada para tecnologias específicas do Azure (como VMs, serviços de aplicativos e contêineres). Essas ferramentas fazem parte do Azure Monitor e do Log Analytics.

  • O Azure Monitor para soluções SAP é uma ferramenta de monitoramento do Azure para cenários SAP executados no Azure.

  • O Azure Policy pode ajudar você a impor padrões organizacionais e a avaliar a conformidade em escala.

Lista de verificação de Excelência Operacional

Consulte o conjunto completo de recomendações.