Compartilhar via


Observabilidade no monitoramento de nuvens

Este artigo faz parte de uma série do guia de monitoramento de nuvem.

As seções abaixo visam impulsionar a maturidade operacional, sendo observador e constantemente iterando para melhorar a forma como você monitora seus serviços. Saiba como as organizações implementam uma estratégia de monitoramento consistente mais rapidamente, estabelecendo observabilidade para cada solução de monitoramento.

Definindo observabilidade

Embora observabilidade e monitoramento se complementem, há uma distinção notável:

  • Monitoramento: coleta informações e informa que detectou um problema com base em sua configuração para monitorar essas condições. Você está monitorando falhas conhecidas ou previsíveis.
  • Observabilidade: A capacidade de entender o que está acontecendo dentro de um sistema observando os dados de saída. Uma solução de observabilidade ajuda você a analisar esses dados para avaliar a integridade do sistema e encontrar maneiras de corrigir problemas em sua infraestrutura de TI.

A observabilidade primeiro leva o consumidor de monitoramento a entender o que é considerado o funcionamento normal de um serviço. Ou seja, você busca visibilidade total o quanto antes.

Depois de atingir a observabilidade inicial, você aproveita esse nível inicial de visibilidade para desenvolver alertas acionáveis, criar painéis úteis e avaliar soluções AIOps. Esses insights permitem que você se sinta confortável com os dados subjacentes de monitoramento de métricas e logs.

Observação

Isso é o oposto da abordagem usada no passado, quando as equipes trabalhavam para definir todos os requisitos de monitoramento primeiro no papel antes de criar, testar e implantar.

Se o seu plano de monitoramento tem como alvo um aplicativo, a infraestrutura de nuvem ou a Plataforma Azure, a primeira etapa é estabelecer a observabilidade.

Essa abordagem também simplifica seus planos. Em todos os casos, visibilidade total significa alcançar e manter visibilidade suficiente em três dimensões ou aspectos:

  1. Monitore em profundidade: colete sinais significativos e relevantes.
  2. Monitore de ponta a ponta ou amplitude: da camada mais baixa da pilha até o aplicativo.
  3. Monitorar em todo o modelo de integridade: concentre-se nos aspectos de integridade, como disponibilidade, desempenho, segurança e continuidade.

Three-sided cube example

A observabilidade é mais do que apenas um foco para suas equipes de TI. Uma meta essencial é garantir que os usuários finais possam usar os sistemas e que seus SLOs (Objetivos de Nível de Serviço) sejam atendidos .

Soluções de monitoramento e observabilidade

O monitoramento de infraestrutura e aplicativos pode ser complicado. A transformação dos negócios aplica a tecnologia para alcançar e ajudar a moldar suas estratégias. A nuvem tem influenciado ainda mais a natureza complicada do monitoramento.

Isso é demonstrado nas seguintes formas:

  • Mudança na transformação digital: os esforços de transformação digital das empresas mudam para a hiperexploração da tecnologia em nuvem.
  • Monitoramento interno: o monitoramento é incorporado aos recursos e grupos de recursos do Azure em vez de ferramentas separadas que você gerencia localmente.
  • Monitoramento expansivo As arquiteturas nativas da nuvem, como o Azure Monitor, são semelhantes às ferramentas de gerenciamento de eventos e incidentes de segurança (SIEM). O Azure Monitor é expansivo, orientado por logs e ordens de magnitude mais flexível do que as ferramentas locais tradicionais.

Os arquitetos devem, assim como os operadores, entender quais informações de diagnóstico um componente ou aplicativo de infraestrutura emite.

A combinação de fluxos de log multivariados, dinâmicos, de séries temporais, eventuais, com estado e telemétricos em inteligência valiosa depende do seguinte:

  • Conhecimento da equipe: O conhecimento e a experiência do desenvolvedor ou engenheiro de sistemas que entende profundamente o alvo de monitoramento.
  • Experiência de solução de problemas: Experiência de suporte e solução de problemas no uso de dados para localizar ou localizar as causas do problema.
  • Aprendendo com a história: revise incidentes passados para encontrar motivos não tecnológicos que possam ser corrigidos automaticamente mais tarde.
  • Documentação: orientação em documentação, software, treinamento ou consultoria pelo fornecedor de software ou hardware.

A Microsoft e seus parceiros fornecem pacotes de gerenciamento para o System Center Operations Manager. Os pacotes de gerenciamento são específicos da tecnologia; por exemplo, se você importar um pacote de gerenciamento do SQL, o Operations Manager descobrirá e direcionará automaticamente os servidores que hospedam o SQL Server e começará a monitorá-los. Aqui, a observabilidade é mais ou menos predefinida. O Operations Manager é projetado principalmente para infraestrutura local, que tende a ser fixada em componentes e padrões de design de arquitetura relativos a serviços de nuvem.

Na nuvem, você tem uma enorme flexibilidade nos tipos de serviços para escolher. O monitoramento inclui como os serviços mudam ao longo do tempo e pode ser dinâmico, global e resiliente. Com o Azure Monitor, você pode aproveitar as pastas de trabalho existentes incluídas no Azure Monitor Insights, fornecendo funcionalidade semelhante a um pacote de gerenciamento no Operations Manager.

A arte de ser observador

A observabilidade depende do que e como algo está sendo monitorado.

No Azure, há várias fontes de dados de monitoramento, cada uma fornecendo uma perspectiva diferente de como algo se comporta. O Azure inclui várias ferramentas para ajudar a analisar os vários aspectos desses dados.

Observe a plataforma

No Azure, a Microsoft fornece a perspectiva do provedor de serviços por meio de diferentes logs de plataforma.

Os serviços no Azure podem mudar de maneiras diferentes e imprevisíveis ao longo do tempo. Referimo-nos a esse comportamento como dinâmico. Os gestores de serviços em nuvem que observam o serviço ao longo do tempo também precisam levar em conta o seguinte:

  • Realocação de recursos: os recursos podem migrar ou se mover entre locais ou geografias.
  • Alterações de recursos: os recursos são adicionados, excluídos ou modificados.
  • Consumo: O consumo varia para diferentes serviços e implementações. Esteja atento para monitorar o custo, o consumo e os gastos projetados.

Aqui estão alguns exemplos de ferramentas que permitem a observabilidade da sua plataforma:

Fonte de log Descrição
Integridade do serviço Incidentes de serviço e manutenção planejada relatados pela Microsoft.
Azure Resource Health Relatórios sobre a saúde atual e passada de seus recursos.
Log de atividades do Azure Monitor Relata eventos no nível da assinatura em todos os recursos implantados na assinatura.
Análise de Alterações do Monitor do Azure Relata as alterações em seus aplicativos do Azure e reduz o tempo médio de reparo (MTTR).
Logs de recursos do Azure Anteriormente conhecidos como logs de diagnóstico, os logs de recursos relatam as operações executadas em um recurso do Azure, no plano de dados.
Logs de relatórios do Microsoft Entra (AzureAD) Relata o histórico da atividade de entrada e a trilha de auditoria das alterações na ID do Microsoft Entra para um determinado locatário.
Assistente do Azure Use o Azure Advisor para receber soluções recomendadas com base nas práticas recomendadas para otimizar suas implantações do Azure.
Logs de transparência do Microsoft Cloud for Sovereignty Relatórios sobre quando os recursos são acessados e qual engenheiro da Microsoft acessa o recurso. Os logs de transparência fornecem detalhes do acesso aos recursos do cliente. Os logs também notificam quando não houve acesso, o que é comum.

A observabilidade evolui gradualmente, começando com um plano de monitoramento minimamente viável e o esforço para integrar ferramentas e processos está em andamento. À medida que você se familiariza com os dados (métricas, logs e transações), pode entender o comportamento e os sinais de sintomas ou problemas desses recursos ou aplicativos. Ao se familiarizar com os dados, você cria confiança ao trabalhar com o Azure Monitor e os dados.

Ganhando confiança a partir da observabilidade

Com a observabilidade adequada, você ganha confiança e é capaz de perceber a causa e encontrar respostas que podem ajudar. Quanto mais você aprende sobre seus dados, mais evoluídos seus processos se tornam e suas equipes ganham insights.

Para definir o cenário, aqui estão algumas maneiras de ganhar confiança com a observabilidade:

  • Aumente a previsibilidade: o monitoramento aprimorado de recursos e serviços ajuda a identificar problemas de forma proativa, tornando-os previsíveis e gerenciáveis no futuro.

  • Detecção precoce de anomalias: A observabilidade permite a detecção oportuna de anormalidades ou desvios do comportamento esperado, reduzindo o impacto de possíveis problemas.

  • Identificação da causa raiz: dados detalhados de observabilidade ajudam a identificar as causas raiz dos problemas, permitindo uma resolução mais rápida e evitando a recorrência.

  • Melhore a eficiência da solução de problemas: com a observabilidade, as equipes podem diagnosticar e solucionar problemas complexos rapidamente analisando dados relevantes e correlacionando eventos.

  • Melhorar a confiabilidade do sistema: ao identificar gargalos, problemas de desempenho e possíveis pontos de falha, a observabilidade ajuda a otimizar o desempenho do sistema e melhorar a confiabilidade geral.

  • Melhore a experiência do cliente: a observabilidade permite uma melhor compreensão de como o desempenho do sistema afeta os usuários finais, permitindo medidas proativas para aumentar a satisfação do cliente.

  • Facilite a colaboração: as plataformas de observabilidade fornecem visibilidade compartilhada e acesso a dados, promovendo a cooperação entre diferentes equipes, como desenvolvedores, operações e suporte.

  • Conformidade normativa: a observabilidade ajuda a atender aos requisitos normativos, fornecendo rastreabilidade, logs de auditoria e garantindo a aderência aos padrões de segurança e privacidade.

  • Tempo de resolução mais rápido: ao fornecer dados e insights avançados, a observabilidade acelera o tempo para diagnosticar e resolver problemas, minimizando o tempo de inatividade e as interrupções de serviço.

  • Gerenciamento proativo de capacidade: os dados de observabilidade ajudam a prever demandas de recursos, identificar lacunas de capacidade e ajustar proativamente os recursos para manter o desempenho ideal.

  • Mitigação de riscos: com a observabilidade, você pode identificar riscos potenciais precocemente, permitindo medidas proativas de mitigação e reduzindo a probabilidade de impactos severos.

  • Monitoramento e aprendizado contínuos: a observabilidade permite o monitoramento e o aprendizado contínuos, ajudando as equipes a se adaptarem às mudanças nos ambientes, requisitos e comportamento do usuário.

  • Otimização de desempenho: ao analisar dados de observabilidade, as equipes podem identificar e otimizar gargalos de desempenho, aumentando a eficiência do sistema.

  • Priorização de esforços: os insights de observabilidade permitem que as equipes priorizem tarefas e aloquem recursos com base na criticidade e no impacto dos problemas identificados.

  • Confiança no gerenciamento de mudanças: a observabilidade fornece visibilidade sobre o impacto das alterações, garantindo que novas implantações ou atualizações não introduzam problemas imprevistos.

  • Melhor resposta a incidentes: com a observabilidade, as equipes de resposta a incidentes podem reunir rapidamente informações relevantes, entender o contexto e iniciar ações apropriadas.

Plano de monitoramento

Você cria um plano de monitoramento para descrever as metas e objetivos, requisitos e outros detalhes essenciais. Em seguida, trabalhe para solicitar um contrato entre todos os stakeholders relevantes na organização.

Um plano de monitoramento deve explicar como desenvolver e operar uma ou mais soluções de monitoramento. Comece a criar seus planos de monitoramento cedo durante as fases de estratégia e planejamento do projeto.

Ao criar o plano, é essencial lembrar das cinco disciplinas do monitoramento moderno, conforme descrito na documentação da estratégia de monitoramento em nuvem: monitorar, medir, responder, aprender e melhorar.

A seguir fornece uma estrutura de tópicos inicial recomendada para um plano de monitoramento e são consideradas as principais considerações para um plano individual de serviços ou ao padronizar recursos de serviço de nuvem, como tipos de recursos do Azure ou serviços do Microsoft 365.

A essência do plano é definir a linha de visibilidade entre os prestadores de serviços (que colocarão as soluções em campo) e os consumidores (que operarão ou obterão valor).

Perspectiva de negócios

Um plano de monitoramento abrangente deve considerar o que a empresa precisa com e a partir do monitoramento, incluindo um foco centrado no usuário. Ao definir o plano, é essencial documentar e compartilhar os requisitos de negócios, e o seguinte sugere o escopo dessa parte do plano.

  • Stakeholders e consumidores
  • Fluxos e processos de valor de negócios
  • Perspectiva e utilitário de usuário final
  • Requisitos de medição e relatório
  • Riscos identificados e estruturas de controle de conformidade
  • Requisitos de controle e acesso
  • Risco para os negócios

Perspectiva de serviço

Um plano de monitoramento abrangente deve considerar o que os proprietários de serviços precisam com e a partir do monitoramento. Ao definir o plano, é essencial documentar e compartilhar seus requisitos, e o seguinte sugere o escopo dessa parte do plano.

  • Stakeholders e consumidores
  • Papéis e responsabilidade
  • Definição do serviço
  • Requisitos de controle e acesso
  • Considerações de arquitetura?
  • Contratos de apoio de fornecedores e parceiros
  • Contratos de serviço (SLAs, OLAs)
  • Identificar a cobertura da garantia do serviço
  • Requisitos de medição e relatório
  • Riscos

Perspectiva da tecnologia

Esta seção do plano representa a solução de monitoramento usando informações da perspectiva de negócios e serviços. O seguinte sugere o escopo desta parte do plano.

  • Histórias e cenários do usuário
  • Destinos técnicos (por exemplo, rede)
  • Mapeamento de dependência do componente
  • Tipos (por exemplo, nativo da nuvem, híbrido, local)
  • Observacional
  • Responsivo
  • Medição
  • Ajuste e otimização

Considerações

Resumir o plano para garantir que ele comunique e informe todos os consumidores, stakeholders e níveis de gerenciamento relevantes. Para um plano de monitoramento bem-sucedido, considere estes pontos:

Considerações-chave

  • Etapas de produção: A solução de monitoramento deve estar pronta quando o serviço entrar em operação. O planejamento pode incluir configuração de teste ou pré-produção em outra assinatura dedicada a ajudar a experimentar e testar suas suposições.

  • Estratégia: Os planos também podem mapear de volta para o monitoramento e estratégia de TI para traçar os objetivos de monitoramento para a missão ou negócio.

  • Destinos: no plano, descreva e analise os ativos ou serviços de destino em consideração. Se necessário, mapeie todos os componentes a serem monitorados, incluindo dependências de serviço. Identifique as lacunas de cobertura e determine quem possui cada parte do serviço.

  • Solução: para a solução de monitoramento, identifique os consumidores, stakeholders, fornecedores, parceiros, acesso e instrumentação. Além disso, aspectos de monitoramento, escopo, resposta, relatórios e painéis (disponibilidade, segurança, experiência do usuário e muito mais).

Considerações gerais

Além das principais considerações, procure entender melhor como esses pontos podem influenciar seu plano de monitoramento para sua organização.

  • Produto mínimo viável (MVP): Deixe o plano definir como será o sucesso do produto mínimo viável. Em outras palavras, o que é inicialmente necessário para entrar em operação, e podemos medir o sucesso nisso? Depois de estar ativo, você continua a evoluir a solução de monitoramento para maximizar o valor.

  • Proteja seus dados de monitoramento: a segurança é um aspecto crucial para todas as organizações e equipes atualmente. Certifique-se de que você é educado e conhece os guardrails, ou deixe que especialistas o orientem para que você não adicione risco às suas soluções de monitoramento, por exemplo, expondo dados confidenciais de monitoramento em logs.

  • Considere o Microsoft 365: qualquer bom plano considera seu locatário do Azure com o Microsoft 365 como um componente significativo. O Microsoft 365 depende da ID do Microsoft Entra e o Azure Monitor fornece integração do Microsoft 365 com o gerenciamento de ponto de extremidade.

  • A observabilidade vence: concentre-se na visibilidade total antes de se concentrar no alerta, pois alertar ambos é um custo e pode levar rapidamente à fadiga do alerta.

  • Monitoramento de atividades: auditoria, entrada e logs de atividades agora são fáceis para proprietários de serviços e segurança para fatiar e dados. Certifique-se de que seu plano de monitoramento considere o monitoramento de atividades, incluindo os insights e painéis que você precisa criar para quaisquer partes interessadas relevantes.

Próximas etapas