Observabilidade no monitoramento de nuvens
Este artigo faz parte de uma série do guia de monitoramento de nuvem.
As seções abaixo visam impulsionar a maturidade operacional, sendo observador e constantemente iterando para melhorar a forma como você monitora seus serviços. Saiba como as organizações implementam uma estratégia de monitoramento consistente mais rapidamente, estabelecendo observabilidade para cada solução de monitoramento.
Definindo observabilidade
Embora observabilidade e monitoramento se complementem, há uma distinção notável:
- Monitoramento: coleta informações e informa que detectou um problema com base em sua configuração para monitorar essas condições. Você está monitorando falhas conhecidas ou previsíveis.
- Observabilidade: A capacidade de entender o que está acontecendo dentro de um sistema observando os dados de saída. Uma solução de observabilidade ajuda você a analisar esses dados para avaliar a integridade do sistema e encontrar maneiras de corrigir problemas em sua infraestrutura de TI.
A observabilidade primeiro leva o consumidor de monitoramento a entender o que é considerado o funcionamento normal de um serviço. Ou seja, você busca visibilidade total o quanto antes.
Depois de atingir a observabilidade inicial, você aproveita esse nível inicial de visibilidade para desenvolver alertas acionáveis, criar painéis úteis e avaliar soluções AIOps. Esses insights permitem que você se sinta confortável com os dados subjacentes de monitoramento de métricas e logs.
Observação
Isso é o oposto da abordagem usada no passado, quando as equipes trabalhavam para definir todos os requisitos de monitoramento primeiro no papel antes de criar, testar e implantar.
Se o seu plano de monitoramento tem como alvo um aplicativo, a infraestrutura de nuvem ou a Plataforma Azure, a primeira etapa é estabelecer a observabilidade.
Essa abordagem também simplifica seus planos. Em todos os casos, visibilidade total significa alcançar e manter visibilidade suficiente em três dimensões ou aspectos:
- Monitore em profundidade: colete sinais significativos e relevantes.
- Monitore de ponta a ponta ou amplitude: da camada mais baixa da pilha até o aplicativo.
- Monitorar em todo o modelo de integridade: concentre-se nos aspectos de integridade, como disponibilidade, desempenho, segurança e continuidade.
A observabilidade é mais do que apenas um foco para suas equipes de TI. Uma meta essencial é garantir que os usuários finais possam usar os sistemas e que seus SLOs (Objetivos de Nível de Serviço) sejam atendidos .
Soluções de monitoramento e observabilidade
O monitoramento de infraestrutura e aplicativos pode ser complicado. A transformação dos negócios aplica a tecnologia para alcançar e ajudar a moldar suas estratégias. A nuvem tem influenciado ainda mais a natureza complicada do monitoramento.
Isso é demonstrado nas seguintes formas:
- Mudança na transformação digital: os esforços de transformação digital das empresas mudam para a hiperexploração da tecnologia em nuvem.
- Monitoramento interno: o monitoramento é incorporado aos recursos e grupos de recursos do Azure em vez de ferramentas separadas que você gerencia localmente.
- Monitoramento expansivo As arquiteturas nativas da nuvem, como o Azure Monitor, são semelhantes às ferramentas de gerenciamento de eventos e incidentes de segurança (SIEM). O Azure Monitor é expansivo, orientado por logs e ordens de magnitude mais flexível do que as ferramentas locais tradicionais.
Os arquitetos devem, assim como os operadores, entender quais informações de diagnóstico um componente ou aplicativo de infraestrutura emite.
A combinação de fluxos de log multivariados, dinâmicos, de séries temporais, eventuais, com estado e telemétricos em inteligência valiosa depende do seguinte:
- Conhecimento da equipe: O conhecimento e a experiência do desenvolvedor ou engenheiro de sistemas que entende profundamente o alvo de monitoramento.
- Experiência de solução de problemas: Experiência de suporte e solução de problemas no uso de dados para localizar ou localizar as causas do problema.
- Aprendendo com a história: revise incidentes passados para encontrar motivos não tecnológicos que possam ser corrigidos automaticamente mais tarde.
- Documentação: orientação em documentação, software, treinamento ou consultoria pelo fornecedor de software ou hardware.
A Microsoft e seus parceiros fornecem pacotes de gerenciamento para o System Center Operations Manager. Os pacotes de gerenciamento são específicos da tecnologia; por exemplo, se você importar um pacote de gerenciamento do SQL, o Operations Manager descobrirá e direcionará automaticamente os servidores que hospedam o SQL Server e começará a monitorá-los. Aqui, a observabilidade é mais ou menos predefinida. O Operations Manager é projetado principalmente para infraestrutura local, que tende a ser fixada em componentes e padrões de design de arquitetura relativos a serviços de nuvem.
Na nuvem, você tem uma enorme flexibilidade nos tipos de serviços para escolher. O monitoramento inclui como os serviços mudam ao longo do tempo e pode ser dinâmico, global e resiliente. Com o Azure Monitor, você pode aproveitar as pastas de trabalho existentes incluídas no Azure Monitor Insights, fornecendo funcionalidade semelhante a um pacote de gerenciamento no Operations Manager.
A arte de ser observador
A observabilidade depende do que e como algo está sendo monitorado.
No Azure, há várias fontes de dados de monitoramento, cada uma fornecendo uma perspectiva diferente de como algo se comporta. O Azure inclui várias ferramentas para ajudar a analisar os vários aspectos desses dados.
Observe a plataforma
No Azure, a Microsoft fornece a perspectiva do provedor de serviços por meio de diferentes logs de plataforma.
Os serviços no Azure podem mudar de maneiras diferentes e imprevisíveis ao longo do tempo. Referimo-nos a esse comportamento como dinâmico. Os gestores de serviços em nuvem que observam o serviço ao longo do tempo também precisam levar em conta o seguinte:
- Realocação de recursos: os recursos podem migrar ou se mover entre locais ou geografias.
- Alterações de recursos: os recursos são adicionados, excluídos ou modificados.
- Consumo: O consumo varia para diferentes serviços e implementações. Esteja atento para monitorar o custo, o consumo e os gastos projetados.
Aqui estão alguns exemplos de ferramentas que permitem a observabilidade da sua plataforma:
Fonte de log | Descrição |
---|---|
Integridade do serviço | Incidentes de serviço e manutenção planejada relatados pela Microsoft. |
Azure Resource Health | Relatórios sobre a saúde atual e passada de seus recursos. |
Log de atividades do Azure Monitor | Relata eventos no nível da assinatura em todos os recursos implantados na assinatura. |
Análise de Alterações do Monitor do Azure | Relata as alterações em seus aplicativos do Azure e reduz o tempo médio de reparo (MTTR). |
Logs de recursos do Azure | Anteriormente conhecidos como logs de diagnóstico, os logs de recursos relatam as operações executadas em um recurso do Azure, no plano de dados. |
Logs de relatórios do Microsoft Entra (AzureAD) | Relata o histórico da atividade de entrada e a trilha de auditoria das alterações na ID do Microsoft Entra para um determinado locatário. |
Assistente do Azure | Use o Azure Advisor para receber soluções recomendadas com base nas práticas recomendadas para otimizar suas implantações do Azure. |
Logs de transparência do Microsoft Cloud for Sovereignty | Relatórios sobre quando os recursos são acessados e qual engenheiro da Microsoft acessa o recurso. Os logs de transparência fornecem detalhes do acesso aos recursos do cliente. Os logs também notificam quando não houve acesso, o que é comum. |
A observabilidade evolui gradualmente, começando com um plano de monitoramento minimamente viável e o esforço para integrar ferramentas e processos está em andamento. À medida que você se familiariza com os dados (métricas, logs e transações), pode entender o comportamento e os sinais de sintomas ou problemas desses recursos ou aplicativos. Ao se familiarizar com os dados, você cria confiança ao trabalhar com o Azure Monitor e os dados.
Ganhando confiança a partir da observabilidade
Com a observabilidade adequada, você ganha confiança e é capaz de perceber a causa e encontrar respostas que podem ajudar. Quanto mais você aprende sobre seus dados, mais evoluídos seus processos se tornam e suas equipes ganham insights.
Para definir o cenário, aqui estão algumas maneiras de ganhar confiança com a observabilidade:
Aumente a previsibilidade: o monitoramento aprimorado de recursos e serviços ajuda a identificar problemas de forma proativa, tornando-os previsíveis e gerenciáveis no futuro.
Detecção precoce de anomalias: A observabilidade permite a detecção oportuna de anormalidades ou desvios do comportamento esperado, reduzindo o impacto de possíveis problemas.
Identificação da causa raiz: dados detalhados de observabilidade ajudam a identificar as causas raiz dos problemas, permitindo uma resolução mais rápida e evitando a recorrência.
Melhore a eficiência da solução de problemas: com a observabilidade, as equipes podem diagnosticar e solucionar problemas complexos rapidamente analisando dados relevantes e correlacionando eventos.
Melhorar a confiabilidade do sistema: ao identificar gargalos, problemas de desempenho e possíveis pontos de falha, a observabilidade ajuda a otimizar o desempenho do sistema e melhorar a confiabilidade geral.
Melhore a experiência do cliente: a observabilidade permite uma melhor compreensão de como o desempenho do sistema afeta os usuários finais, permitindo medidas proativas para aumentar a satisfação do cliente.
Facilite a colaboração: as plataformas de observabilidade fornecem visibilidade compartilhada e acesso a dados, promovendo a cooperação entre diferentes equipes, como desenvolvedores, operações e suporte.
Conformidade normativa: a observabilidade ajuda a atender aos requisitos normativos, fornecendo rastreabilidade, logs de auditoria e garantindo a aderência aos padrões de segurança e privacidade.
Tempo de resolução mais rápido: ao fornecer dados e insights avançados, a observabilidade acelera o tempo para diagnosticar e resolver problemas, minimizando o tempo de inatividade e as interrupções de serviço.
Gerenciamento proativo de capacidade: os dados de observabilidade ajudam a prever demandas de recursos, identificar lacunas de capacidade e ajustar proativamente os recursos para manter o desempenho ideal.
Mitigação de riscos: com a observabilidade, você pode identificar riscos potenciais precocemente, permitindo medidas proativas de mitigação e reduzindo a probabilidade de impactos severos.
Monitoramento e aprendizado contínuos: a observabilidade permite o monitoramento e o aprendizado contínuos, ajudando as equipes a se adaptarem às mudanças nos ambientes, requisitos e comportamento do usuário.
Otimização de desempenho: ao analisar dados de observabilidade, as equipes podem identificar e otimizar gargalos de desempenho, aumentando a eficiência do sistema.
Priorização de esforços: os insights de observabilidade permitem que as equipes priorizem tarefas e aloquem recursos com base na criticidade e no impacto dos problemas identificados.
Confiança no gerenciamento de mudanças: a observabilidade fornece visibilidade sobre o impacto das alterações, garantindo que novas implantações ou atualizações não introduzam problemas imprevistos.
Melhor resposta a incidentes: com a observabilidade, as equipes de resposta a incidentes podem reunir rapidamente informações relevantes, entender o contexto e iniciar ações apropriadas.
Plano de monitoramento
Você cria um plano de monitoramento para descrever as metas e objetivos, requisitos e outros detalhes essenciais. Em seguida, trabalhe para solicitar um contrato entre todos os stakeholders relevantes na organização.
Um plano de monitoramento deve explicar como desenvolver e operar uma ou mais soluções de monitoramento. Comece a criar seus planos de monitoramento cedo durante as fases de estratégia e planejamento do projeto.
Ao criar o plano, é essencial lembrar das cinco disciplinas do monitoramento moderno, conforme descrito na documentação da estratégia de monitoramento em nuvem: monitorar, medir, responder, aprender e melhorar.
A seguir fornece uma estrutura de tópicos inicial recomendada para um plano de monitoramento e são consideradas as principais considerações para um plano individual de serviços ou ao padronizar recursos de serviço de nuvem, como tipos de recursos do Azure ou serviços do Microsoft 365.
A essência do plano é definir a linha de visibilidade entre os prestadores de serviços (que colocarão as soluções em campo) e os consumidores (que operarão ou obterão valor).
Perspectiva de negócios
Um plano de monitoramento abrangente deve considerar o que a empresa precisa com e a partir do monitoramento, incluindo um foco centrado no usuário. Ao definir o plano, é essencial documentar e compartilhar os requisitos de negócios, e o seguinte sugere o escopo dessa parte do plano.
- Stakeholders e consumidores
- Fluxos e processos de valor de negócios
- Perspectiva e utilitário de usuário final
- Requisitos de medição e relatório
- Riscos identificados e estruturas de controle de conformidade
- Requisitos de controle e acesso
- Risco para os negócios
Perspectiva de serviço
Um plano de monitoramento abrangente deve considerar o que os proprietários de serviços precisam com e a partir do monitoramento. Ao definir o plano, é essencial documentar e compartilhar seus requisitos, e o seguinte sugere o escopo dessa parte do plano.
- Stakeholders e consumidores
- Papéis e responsabilidade
- Definição do serviço
- Requisitos de controle e acesso
- Considerações de arquitetura?
- Contratos de apoio de fornecedores e parceiros
- Contratos de serviço (SLAs, OLAs)
- Identificar a cobertura da garantia do serviço
- Requisitos de medição e relatório
- Riscos
Perspectiva da tecnologia
Esta seção do plano representa a solução de monitoramento usando informações da perspectiva de negócios e serviços. O seguinte sugere o escopo desta parte do plano.
- Histórias e cenários do usuário
- Destinos técnicos (por exemplo, rede)
- Mapeamento de dependência do componente
- Tipos (por exemplo, nativo da nuvem, híbrido, local)
- Observacional
- Responsivo
- Medição
- Ajuste e otimização
Considerações
Resumir o plano para garantir que ele comunique e informe todos os consumidores, stakeholders e níveis de gerenciamento relevantes. Para um plano de monitoramento bem-sucedido, considere estes pontos:
Considerações-chave
Etapas de produção: A solução de monitoramento deve estar pronta quando o serviço entrar em operação. O planejamento pode incluir configuração de teste ou pré-produção em outra assinatura dedicada a ajudar a experimentar e testar suas suposições.
Estratégia: Os planos também podem mapear de volta para o monitoramento e estratégia de TI para traçar os objetivos de monitoramento para a missão ou negócio.
Destinos: no plano, descreva e analise os ativos ou serviços de destino em consideração. Se necessário, mapeie todos os componentes a serem monitorados, incluindo dependências de serviço. Identifique as lacunas de cobertura e determine quem possui cada parte do serviço.
Solução: para a solução de monitoramento, identifique os consumidores, stakeholders, fornecedores, parceiros, acesso e instrumentação. Além disso, aspectos de monitoramento, escopo, resposta, relatórios e painéis (disponibilidade, segurança, experiência do usuário e muito mais).
Considerações gerais
Além das principais considerações, procure entender melhor como esses pontos podem influenciar seu plano de monitoramento para sua organização.
Produto mínimo viável (MVP): Deixe o plano definir como será o sucesso do produto mínimo viável. Em outras palavras, o que é inicialmente necessário para entrar em operação, e podemos medir o sucesso nisso? Depois de estar ativo, você continua a evoluir a solução de monitoramento para maximizar o valor.
Proteja seus dados de monitoramento: a segurança é um aspecto crucial para todas as organizações e equipes atualmente. Certifique-se de que você é educado e conhece os guardrails, ou deixe que especialistas o orientem para que você não adicione risco às suas soluções de monitoramento, por exemplo, expondo dados confidenciais de monitoramento em logs.
Considere o Microsoft 365: qualquer bom plano considera seu locatário do Azure com o Microsoft 365 como um componente significativo. O Microsoft 365 depende da ID do Microsoft Entra e o Azure Monitor fornece integração do Microsoft 365 com o gerenciamento de ponto de extremidade.
A observabilidade vence: concentre-se na visibilidade total antes de se concentrar no alerta, pois alertar ambos é um custo e pode levar rapidamente à fadiga do alerta.
Monitoramento de atividades: auditoria, entrada e logs de atividades agora são fáceis para proprietários de serviços e segurança para fatiar e dados. Certifique-se de que seu plano de monitoramento considere o monitoramento de atividades, incluindo os insights e painéis que você precisa criar para quaisquer partes interessadas relevantes.