Diagnosticar um incidente usando o Metrics Advisor

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Consultor de Métricas. O serviço de Consultor de Métricas será desativado no dia 1º de outubro de 2026.

O que é um incidente?

Quando há anomalias detetadas em várias séries temporais dentro de uma métrica em um carimbo de data/hora específico, o Consultor de Métricas agrupa automaticamente anomalias que compartilham a mesma causa raiz em um incidente. Um incidente geralmente indica um problema real, o Metrics Advisor realiza análises em cima dele e fornece insights automáticos de análise de causa raiz.

Isso removerá significativamente o esforço do cliente para visualizar cada anomalia individual e rapidamente encontrará o fator contribuinte mais importante para um problema.

Um alerta gerado pelo Metrics Advisor pode conter vários incidentes e cada incidente pode conter várias anomalias capturadas em diferentes séries temporais ao mesmo tempo.

Caminhos para diagnosticar um incidente

  • Diagnosticar a partir de uma notificação de alerta

    Se você configurou um gancho do tipo e-mail/Teams e aplicou pelo menos uma configuração de alerta. Em seguida, você receberá notificações contínuas de alerta escalando incidentes que são analisados pelo Metrics Advisor. Dentro da notificação, há uma lista de incidentes e uma breve descrição. Para cada incidente, há um botão "Diagnosticar", selecionando-o direcionará você para a página de detalhes do incidente para visualizar informações de diagnóstico.

    Diagnose from an alert notification

  • Diagnosticar a partir de um incidente no "Hub de incidentes"

    Há um lugar central no Metrics Advisor que reúne todos os incidentes que foram capturados e facilita o rastreamento de quaisquer problemas contínuos. Selecionar a guia Hub de Incidentes na barra de navegação esquerda listará todos os incidentes dentro das métricas selecionadas. Na lista de incidentes, selecione um deles para visualizar informações detalhadas de diagnóstico.

    Diagnose from an incident in Incident hub

  • Diagnosticar a partir de um incidente listado na página de métricas

    Na página de detalhes das métricas, há uma guia chamada Incidentes que lista os incidentes mais recentes capturados para essa métrica. A lista pode ser filtrada pela gravidade dos incidentes ou pelo valor da dimensão das métricas.

    Selecionar um incidente na lista direcionará você para a página de detalhes do incidente para exibir informações de diagnóstico.

    Diagnose from an incident listed in metrics page

Fluxo de diagnóstico típico

Depois de ser direcionado para a página de detalhes do incidente, você pode aproveitar os insights que são analisados automaticamente pelo Metrics Advisor para localizar rapidamente a causa raiz de um problema ou usar a ferramenta de análise para avaliar melhor o impacto do problema. Há três seções na página de detalhes do incidente que correspondem a três etapas principais para diagnosticar um incidente.

Etapa 1: Verificar o resumo do incidente atual

A primeira seção lista um resumo do incidente atual, incluindo informações básicas, ações e rastreamentos e uma causa raiz analisada.

  • As informações básicas incluem a "série mais impactada" com um diagrama, "início do impacto e hora de término", "gravidade do incidente" e "anomalias totais incluídas". Ao ler isso, você pode obter uma compreensão básica de um problema em curso e o impacto dele.

  • Ações e rastreamentos, isso é usado para facilitar a colaboração da equipe em um incidente em andamento. Às vezes, um incidente pode precisar envolver o esforço de membros de várias equipes para analisá-lo e resolvê-lo. Todas as pessoas que têm permissão para ver o incidente podem adicionar uma ação ou um evento de rastreamento.

    Por exemplo, depois de diagnosticar o incidente e a causa raiz ser identificada, um engenheiro pode adicionar um item de rastreamento com o tipo de "personalizado" e inserir a causa raiz na seção de comentários. Deixe o status como "Ativo". Em seguida, outros colegas de equipe podem compartilhar as mesmas informações e saber que há alguém trabalhando na correção. Você também pode adicionar um item "Azure DevOps" para acompanhar o incidente com uma tarefa ou bug específico.

  • A causa raiz analisada é um resultado analisado automaticamente. O Metrics Advisor analisa todas as anomalias capturadas em séries temporais dentro de uma métrica com diferentes valores de dimensão no mesmo carimbo de data/hora. Em seguida, executa a correlação, agrupando para agrupar anomalias relacionadas e gera conselhos de causa raiz.

Incident summary

Para métricas com várias dimensões, é comum que várias anomalias sejam detetadas ao mesmo tempo. No entanto, essas anomalias podem ter a mesma causa raiz. Em vez de analisar todas as anomalias uma a uma, aproveitar a causa raiz analisada deve ser a maneira mais eficiente de diagnosticar o incidente atual.

Etapa 2: Exibir informações de diagnóstico entre dimensões

Depois de obter informações básicas e insights de análise automática, você pode obter informações mais detalhadas sobre o status anormal em outras dimensões dentro da mesma métrica de forma holística usando a "Árvore de diagnóstico".

Para métricas com várias dimensões, o Consultor de Métricas categoriza a série temporal em uma hierarquia, que é chamada de árvore de diagnóstico. Por exemplo, uma métrica de "receita" é monitorada por duas dimensões: "região" e "categoria". Apesar dos valores de dimensão concreta, é necessário ter um valor de dimensão agregado, como "SOMA". Em seguida, as séries temporais de "região" = "SOMA" e "categoria" = "SOMA" serão categorizadas como o nó raiz dentro da árvore. Sempre que houver uma anomalia capturada na dimensão "SUM", ela poderá ser detalhada e analisada para localizar qual valor de dimensão específica contribuiu mais para a anomalia do nó pai. Selecione cada nó para expandir e veja informações detalhadas.

Cross dimension diagnostic using diagnostic tree

  • Para habilitar um valor de dimensão "agregado" em suas métricas

    O Metrics Advisor suporta a execução de "Roll-up" em dimensões para calcular um valor de dimensão "agregado". A árvore de diagnóstico suporta o diagnóstico em agregações "SUM", "AVG", "MAX","MIN","COUNT". Para habilitar um valor de dimensão "agregado", você pode habilitar a função "Roll-up" durante a integração de dados. Certifique-se de que suas métricas sejam matematicamente computáveis e que a dimensão agregada tenha valor comercial real.

    Roll-up settings

  • Se não houver um valor de dimensão "agregado" em suas métricas

    Se não houver nenhum valor de dimensão "agregado" em suas métricas e a função "Roll-up" não estiver ativada durante a integração de dados. Não haverá nenhum valor métrico calculado para a dimensão "agregada", ela aparecerá como um nó cinza na árvore e poderá ser expandida para visualizar seus nós filhos.

Legenda da árvore de diagnóstico

Existem três tipos de nós na árvore de diagnóstico:

  • azul, que corresponde a uma série temporal com valor métrico real.
  • cinza, que corresponde a uma série temporal virtual sem valor métrico, é um nó lógico.
  • vermelho, que corresponde à série temporal mais impactada do incidente atual.

Para cada nó, o status anormal é descrito pela cor da borda do nó

  • Borda vermelha significa que há uma anomalia capturada na série temporal correspondente ao carimbo de data/hora do incidente.
  • Borda não vermelha significa que não há nenhuma anomalia capturada na série temporal correspondente ao carimbo de data/hora do incidente.

Modo de apresentação

Há dois modos de exibição para uma árvore de diagnóstico: mostrar apenas séries de anomalias ou mostrar proporções maiores.

  • Apenas o modo de série de anomalias de exibição permite que o cliente se concentre nas anomalias atuais capturadas em diferentes séries e diagnostique a causa raiz das principais séries afetadas.
  • Mostrar grandes proporções permite que o cliente verifique o status anormal das principais proporções das principais séries impactadas. Neste modo, a árvore mostraria tanto séries com anomalia detetada quanto séries sem anomalia. Mas mais foco em séries importantes.

Analisar opções

  • Mostrar relação delta

    "Razão delta" é a porcentagem do delta do nó atual em comparação com o delta do nó pai. Aqui está a fórmula:

    (valor real do nó atual - valor esperado do nó atual) / (valor real do nó pai - valor esperado do nó pai) * 100%

    Isso é usado para analisar a principal contribuição do delta do nó pai.

  • Mostrar proporção do valor

    "Proporção de valor" é a porcentagem do valor do nó atual em comparação com o valor do nó pai. Aqui está a fórmula:

    (valor real do nó atual / valor real do nó pai) * 100%

    Isso é usado para avaliar a proporção do nó atual dentro do todo.

Usando "Árvore de diagnóstico", os clientes podem localizar a causa raiz do incidente atual em uma dimensão específica. Isso elimina significativamente o esforço do cliente para visualizar cada anomalia individual ou pivotar através de diferentes dimensões para encontrar a principal contribuição de anomalia.

Etapa 3: Visualize insights de diagnóstico de métricas cruzadas usando "Gráfico de métricas"

Às vezes, é difícil analisar um problema verificando o status anormal de uma única métrica, mas precisa correlacionar várias métricas juntas. Os clientes podem configurar um gráfico de métricas, que indica a relação entre as métricas. Consulte Como criar um gráfico de métricas para começar.

Verificar o status da anomalia na dimensão da causa raiz em "Gráfico de métricas"

Usando o resultado de diagnóstico de dimensão cruzada acima, a causa raiz é limitada a um valor de dimensão específico. Em seguida, use o "Gráfico de métricas" e filtre pela dimensão de causa raiz analisada para verificar o status da anomalia em outras métricas.

Por exemplo, se houver um incidente capturado nas métricas de "receita". A série mais impactada está na região global com "region" = "SUM". Usando o diagnóstico de dimensão cruzada, a causa raiz foi localizada em "região" = "Karachi". Há um gráfico de métricas pré-configurado, incluindo métricas de "receita", "custo", "DAU", "PLT (tempo de carregamento da página)" e "CHR (taxa de acerto do cache)".

O Consultor de Métricas filtrará automaticamente o gráfico de métricas pela dimensão de causa raiz de "região" = "Karachi" e exibirá o status de anomalia de cada métrica. Ao analisar a relação entre métricas e status de anomalia, os clientes podem obter mais informações sobre qual é a causa raiz final.

Cross metrics analysis

Ao aplicar o filtro de dimensão de causa raiz no gráfico de métricas, as anomalias em cada métrica no carimbo de data/hora do incidente atual serão autorelacionadas. Essas anomalias devem estar relacionadas com a causa principal identificada do incidente atual.

Auto related anomalies

Próximos passos