Diagnostika incidentu pomocí nástroje Metrics Advisor

Důležité

Od 20. září 2023 nebudete moct vytvářet nové prostředky Advisoru pro metriky. Služba Metrics Advisor se 1. října 2026 vyřadí z provozu.

Co je incident?

Když se v určitém časovém razítku zjistí anomálie ve více časových řadách v rámci jedné metriky, nástroj Metrics Advisor automaticky seskupí anomálie, které sdílejí stejnou původní příčinu , do jednoho incidentu. Incident obvykle značí skutečný problém, nástroj Metrics Advisor provádí analýzu nad ním a poskytuje přehledy analýzy původních příčin automaticky.

Tím se výrazně odebere úsilí zákazníka o zobrazení jednotlivých anomálií a rychle zjistí nejdůležitější faktor přispívání k problému.

Výstraha vygenerovaná službou Metrics Advisor může obsahovat více incidentů a každý incident může obsahovat několik anomálií zachycených v různých časových řadách ve stejném časovém razítku.

Cesty k diagnostice incidentu

  • Diagnostika z upozornění

    Pokud jste nakonfigurovali háček typu e-mailu nebo Teams a použili alespoň jednu konfiguraci upozorňování. Poté obdržíte nepřetržitá upozornění eskalující incidenty, které analyzuje Poradce pro metriky. V oznámení je seznam incidentů a stručný popis. U každého incidentu je tlačítko Diagnostika , které vás nasměruje na stránku podrobností incidentu a zobrazí diagnostické přehledy.

    Diagnose from an alert notification

  • Diagnostika incidentu v centru incidentů

    V Advisoru pro metriky je centrální místo, které shromažďuje všechny zachycené incidenty a usnadňuje sledování všech probíhajících problémů. Výběrem karty Centrum incidentů v levém navigačním panelu se zobrazí seznam všech incidentů ve vybraných metrikách. V seznamu incidentů vyberte jeden z nich, abyste zobrazili podrobné diagnostické přehledy.

    Diagnose from an incident in Incident hub

  • Diagnostika incidentu uvedeného na stránce metrik

    Na stránce s podrobnostmi metrik je karta s názvem Incidenty, která uvádí nejnovější incidenty zachycené pro tuto metriku. Seznam je možné filtrovat podle závažnosti incidentů nebo hodnoty dimenze metrik.

    Výběrem jednoho incidentu v seznamu přejdete na stránku podrobností incidentu a zobrazí se diagnostické přehledy.

    Diagnose from an incident listed in metrics page

Typický diagnostický tok

Po nasměrování na stránku podrobností incidentu můžete využít přehledy, které služba Metrics Advisor automaticky analyzuje, a rychle vyhledat původní příčinu problému, nebo pomocí analytického nástroje dále vyhodnotit dopad problému. Na stránce podrobností incidentu jsou tři části, které odpovídají třem hlavním krokům diagnostiky incidentu.

Krok 1: Kontrola souhrnu aktuálního incidentu

První část obsahuje souhrn aktuálního incidentu, včetně základních informací, akcí a trasování a analyzované původní příčiny.

  • Základní informace zahrnují "hlavní ovlivněnou řadu" s diagramem, "čas zahájení a ukončení dopadu", "závažnost incidentu" a "zahrnuté celkové anomálie". Když si to přečtete, získáte základní znalosti o probíhajícím problému a jeho dopadu.

  • Akce a trasování se používají k usnadnění týmové spolupráce na probíhajícím incidentu. Někdy může být potřeba provést jeden incident, aby se členové týmu snažili analyzovat a vyřešit ho. Každý, kdo má oprávnění k zobrazení incidentu, může přidat akci nebo událost trasování.

    Například po diagnostice incidentu a původní příčiny může technik přidat položku trasování s typem "přizpůsobeného" a zadat původní příčinu v části komentáře. Ponechte stav Aktivní. Ostatní členové týmu pak můžou sdílet stejné informace a vědět, že na opravě pracuje někdo. Můžete také přidat položku Azure DevOps pro sledování incidentu s konkrétní úlohou nebo chybou.

  • Analyzovaná původní příčina je automaticky analyzovaný výsledek. Metrics Advisor analyzuje všechny anomálie zachycené v časových řadách v rámci jedné metriky s různými hodnotami dimenzí ve stejném časovém razítku. Potom provede korelaci, clustering seskupí související anomálie dohromady a vygeneruje rady k původní příčině.

Incident summary

U metrik s více dimenzemi se jedná o běžný případ, kdy se současně detekuje více anomálií. Tyto anomálie ale můžou sdílet stejnou původní příčinu. Místo analýzy všech anomálií po jednom by mělo být využití analyzované původní příčiny nejúčinnějším způsobem diagnostiky aktuálního incidentu.

Krok 2: Zobrazení diagnostických přehledů napříč dimenzemi

Po získání základních informací a přehledů automatické analýzy můžete získat podrobnější informace o neobvyklém stavu v jiných dimenzích v rámci stejné metriky holistickým způsobem pomocí diagnostického stromu.

Pro metriky s více dimenzemi nástroj Metrics Advisor kategorizuje časovou řadu do hierarchie, která se jmenuje Diagnostický strom. Metrika "revenue" je například monitorována dvěma dimenzemi: "region" a "category". I přes konkrétní hodnoty dimenzí musí mít agregovanou hodnotu dimenze, například SUMA. Pak bude časová řada "region" = "SUM" a "category" = "SUM" kategorizována jako kořenový uzel ve stromu. Kdykoli je v dimenzi SUMA zachycená anomálie, můžete ji procházet k podrobnostem a analyzovat, abyste našli, která konkrétní hodnota dimenze přispěla nejvíce k anomálii nadřazeného uzlu. Výběrem jednotlivých uzlů rozbalíte a zobrazíte podrobné informace.

Cross dimension diagnostic using diagnostic tree

  • Povolení hodnoty agregované dimenze v metrikách

    Nástroj Metrics Advisor podporuje provádění "uvedení" dimenzí k výpočtu "agregované" hodnoty dimenze. Diagnostický strom podporuje diagnostiku agregací SUMA, AVG, MAX, MIN, COUNT . Pokud chcete povolit "agregovanou" hodnotu dimenze, můžete funkci "Roll-up" povolit během onboardingu dat. Ujistěte se, že metriky jsou matematicky compuovatelné a že agregovaná dimenze má skutečnou obchodní hodnotu.

    Roll-up settings

  • Pokud v metrikách neexistuje žádná agregovaná hodnota dimenze

    Pokud metriky neobsahují žádnou agregovanou hodnotu dimenze a funkce "Roll-up" není povolená během onboardingu dat. Pro agregovanou dimenzi se nevypočítá žádná hodnota metriky, zobrazí se ve stromu jako šedý uzel a může se rozšířit, aby se zobrazily podřízené uzly.

Legenda diagnostického stromu

V diagnostickém stromu jsou tři druhy uzlů:

  • Modrý uzel, který odpovídá časové řadě s skutečnou hodnotou metriky.
  • Šedý uzel, který odpovídá virtuální časové řadě bez hodnoty metriky, je to logický uzel.
  • Červený uzel, který odpovídá nejvyšší ovlivněné časové řadě aktuálního incidentu.

Pro každý uzel je neobvyklý stav popsán barvou ohraničení uzlu.

  • Červené ohraničení znamená, že se v časové řadě zaznamenává anomálie odpovídající časovému razítku incidentu.
  • Nečervené ohraničení znamená, že časové razítko incidentu neobsahuje žádné anomálie, které by odpovídaly časovému razítku incidentu.

Režim zobrazení

Pro diagnostický strom existují dva režimy zobrazení: zobrazují pouze řadu anomálií nebo zobrazují hlavní podíly.

  • Zobrazit pouze režim řady anomálií umožňuje zákazníkovi zaměřit se na aktuální anomálie zachycené v různých řadách a diagnostikovat původní příčinu hlavní ovlivněné řady.
  • Zobrazit hlavní podíly umožňuje zákazníkovi zkontrolovat neobvyklý stav hlavních podílů hlavních ovlivněných řad. V tomto režimu by strom zobrazoval obě řady se zjištěnými anomáliemi a řady bez anomálií. Ale více se zaměřit na důležitou řadu.

Možnosti analýzy

  • Zobrazit rozdílový poměr

    Rozdílový poměr je procento rozdílu aktuálního uzlu v porovnání s rozdílem nadřazeného uzlu. Tady je vzorec:

    (skutečná hodnota aktuálního uzlu – očekávaná hodnota aktuálního uzlu) / (reálná hodnota nadřazeného uzlu – očekávaná hodnota nadřazeného uzlu) * 100 %

    Používá se k analýze hlavního příspěvku rozdílu nadřazeného uzlu.

  • Zobrazit poměr hodnot

    "Poměr hodnoty" je procento aktuální hodnoty uzlu ve srovnání s hodnotou nadřazeného uzlu. Tady je vzorec:

    (reálná hodnota aktuálního uzlu / reálná hodnota nadřazeného uzlu) * 100 %

    Používá se k vyhodnocení poměru aktuálního uzlu v rámci celého uzlu.

Pomocí "diagnostického stromu" můžou zákazníci vyhledat původní příčinu aktuálního incidentu do konkrétní dimenze. Tím se výrazně odebere úsilí zákazníka o zobrazení jednotlivých anomálií nebo procházení různých dimenzí za účelem nalezení hlavního příspěvku anomálií.

Krok 3: Zobrazení diagnostických přehledů křížových metrik pomocí grafu metrik

Někdy je obtížné analyzovat problém kontrolou neobvyklého stavu jedné metriky, ale potřebujete vzájemně korelovat více metrik. Zákazníci můžou nakonfigurovat graf metrik, který označuje vztah mezi metrikami. Pokud chcete začít, přečtěte si, jak vytvořit graf metrik.

Kontrola stavu anomálií v dimenzi původní příčiny v grafu metrik

Použitím výše uvedeného výsledku diagnostiky křížové dimenze je původní příčina omezena na konkrétní hodnotu dimenze. Pak pomocí grafu metrik a filtrováním podle analyzované dimenze původní příčiny zkontrolujte stav anomálií na jiných metrikách.

Pokud je například incident zachycený na metrikách "revenue" (Výnosy). Hlavní ovlivněná řada je v globální oblasti s "region" = "SUM". Při použití diagnostiky křížové dimenze byla původní příčina umístěna na "region" = "Karachi". Existuje předem nakonfigurovaný graf metrik, včetně metrik "revenue", "cost", "DAU", "PLT(page load time)" a "CHR(cache hit rate)".

Metrics Advisor automaticky vyfiltruje graf metrik podle dimenze původní příčiny "region" = "Karachi" a zobrazí stav anomálií každé metriky. Díky analýze vztahu mezi metrikami a stavem anomálií můžou zákazníci získat další přehled o tom, co je poslední hlavní příčinou.

Cross metrics analysis

Použitím filtru dimenze původní příčiny v grafu metrik budou anomálie u každé metriky v časovém razítku aktuálního incidentu automaticky souviset. Tyto anomálie by měly souviset s identifikovanou hlavní příčinou aktuálního incidentu.

Auto related anomalies

Další kroky