Diagnozowanie zdarzenia przy użyciu usługi Metrics Advisor

Artykuł
01/19/2024

Ważne

Od 20 września 2023 r. nie będzie można tworzyć nowych zasobów usługi Metrics Advisor. Usługa Metrics Advisor jest wycofywana 1 października 2026 r.

Co to jest zdarzenie?

W przypadku wykrycia anomalii w wielu szeregach czasowych w ramach jednej metryki w określonym znaczniku czasu doradca metryk automatycznie grupuje anomalie, które współużytkują tę samą główną przyczynę jednego zdarzenia. Zdarzenie zwykle wskazuje rzeczywisty problem, doradca metryk przeprowadza analizę na jego podstawie i zapewnia automatyczne analizy głównej przyczyny analizy.

Spowoduje to znaczne usunięcie wysiłku klienta w celu wyświetlenia poszczególnych anomalii i szybkiego znalezienia najważniejszego czynnika przyczyniającego się do problemu.

Alert wygenerowany przez usługę Metrics Advisor może zawierać wiele zdarzeń, a każde zdarzenie może zawierać wiele anomalii przechwyconych w różnych szeregach czasowych w tym samym znaczniku czasu.

Ścieżki do diagnozowania zdarzenia

Diagnozowanie na podstawie powiadomienia o alercie

Jeśli skonfigurowano hak typu poczty e-mail/aplikacji Teams i zastosowano co najmniej jedną konfigurację alertów. Następnie otrzymasz ciągłe powiadomienia o alertach eskalujące zdarzenia, które są analizowane przez doradcę metryk. W powiadomieniu znajduje się lista zdarzeń i krótki opis. Dla każdego zdarzenia jest dostępny przycisk "Diagnozuj" , który spowoduje przekierowanie do strony szczegółów zdarzenia w celu wyświetlenia szczegółowych informacji diagnostycznych.
Diagnozowanie zdarzeń w centrum zdarzeń

Istnieje centralne miejsce w usłudze Metrics Advisor, które zbiera wszystkie przechwycone zdarzenia i ułatwia śledzenie bieżących problemów. Wybranie karty Centrum zdarzeń na lewym pasku nawigacyjnym spowoduje wyświetlenie listy wszystkich zdarzeń w ramach wybranych metryk. Na liście zdarzeń wybierz jedną z nich, aby wyświetlić szczegółowe szczegółowe informacje diagnostyczne.
Diagnozowanie z incydentu wymienionego na stronie metryk

Na stronie szczegółów metryk znajduje się karta o nazwie Incidents (Zdarzenia), która zawiera listę najnowszych zdarzeń przechwyconych dla tej metryki. Listę można filtrować według ważności zdarzeń lub wartości wymiaru metryk.

Wybranie jednego zdarzenia na liście spowoduje przekierowanie do strony szczegółów zdarzenia w celu wyświetlenia szczegółowych informacji diagnostycznych.

Typowy przepływ diagnostyczny

Po przekierowaniu do strony szczegółów zdarzenia możesz skorzystać ze szczegółowych informacji, które są automatycznie analizowane przez doradcę metryk, aby szybko zlokalizować główną przyczynę problemu lub użyć narzędzia do analizy, aby dokładniej ocenić wpływ problemu. Na stronie szczegółów incydentu znajdują się trzy sekcje, które odpowiadają trzem głównym krokom diagnozowania zdarzenia.

Krok 1. Sprawdzanie podsumowania bieżącego zdarzenia

Pierwsza sekcja zawiera podsumowanie bieżącego zdarzenia, w tym podstawowe informacje, akcje i śledzenie oraz przeanalizowaną główną przyczynę.

Podstawowe informacje obejmują "serię o najwyższym wpływie" z diagramem" "czas rozpoczęcia i zakończenia wpływu", "ważność zdarzenia" i "łączna liczba uwzględnionych anomalii". Czytając to, możesz uzyskać podstawową wiedzę na temat bieżącego problemu i jego wpływu.
Akcje i śledzenie służą do ułatwiania współpracy zespołowej w sprawie trwającego zdarzenia. Czasami może być konieczne zaangażowanie wielu członków zespołu w celu przeanalizowania i rozwiązania tego problemu. Każdy, kto ma uprawnienia do wyświetlania zdarzenia, może dodać akcję lub zdarzenie śledzenia.

Na przykład po zidentyfikowaniu zdarzenia i głównej przyczyny inżynier może dodać element śledzenia o typie "dostosowane" i wprowadzić główną przyczynę w sekcji komentarza. Pozostaw stan "Aktywny". Następnie inni koledzy z drużyny mogą udostępniać te same informacje i wiedzieć, że ktoś pracuje nad poprawką. Możesz również dodać element "Azure DevOps", aby śledzić zdarzenie za pomocą określonego zadania lub usterki.
Analizowana główna przyczyna jest automatycznie analizowanym wynikiem. Usługa Metrics Advisor analizuje wszystkie anomalie przechwycone w szeregach czasowych w ramach jednej metryki z różnymi wartościami wymiarów w tym samym czasie. Następnie wykonuje korelację, grupowanie w celu grupowania powiązanych anomalii i generuje porady głównej przyczyny.

Incident summary

W przypadku metryk z wieloma wymiarami często wykrywa się wiele anomalii jednocześnie. Jednak te anomalie mogą mieć taką samą główną przyczynę. Zamiast analizować wszystkie anomalie jeden po drugim, wykorzystanie analizy głównej przyczyny powinno być najbardziej efektywnym sposobem diagnozowania bieżącego incydentu.

Krok 2. Wyświetlanie szczegółowych informacji diagnostycznych między wymiarami

Po uzyskaniu podstawowych informacji i automatycznych szczegółowych informacji o analizie można uzyskać bardziej szczegółowe informacje na temat nietypowego stanu innych wymiarów w ramach tej samej metryki w całości przy użyciu "Drzewa diagnostycznego".

W przypadku metryk z wieloma wymiarami doradca metryk kategoryzuje szeregi czasowe w hierarchii, która nosi nazwę drzewa diagnostycznego. Na przykład metryka "revenue" jest monitorowana przez dwa wymiary: "region" i "category". Pomimo konkretnych wartości wymiarów musi istnieć zagregowana wartość wymiaru, na przykład "SUM". Następnie szeregi czasowe "region" = "SUM" i "category" = "SUM" zostaną sklasyfikowane jako węzeł główny w drzewie. Za każdym razem, gdy wystąpi anomalia przechwycona w wymiarze "SUM" , można ją przejść do szczegółów i przeanalizować, aby zlokalizować, która konkretna wartość wymiaru przyczyniła się najbardziej do anomalii węzła nadrzędnego. Wybierz każdy węzeł, aby rozwinąć i wyświetlić szczegółowe informacje.

Cross dimension diagnostic using diagnostic tree

Aby włączyć "zagregowaną" wartość wymiaru w metrykach

Funkcja Metrics Advisor obsługuje wykonywanie "rzutowania" na wymiarach w celu obliczenia wartości wymiaru "zagregowanego". Drzewo diagnostyczne obsługuje diagnozowanie agregacji "SUM", "AVG", "MAX","MIN","COUNT". Aby włączyć "zagregowaną" wartość wymiaru, możesz włączyć funkcję "Roll-up" podczas dołączania danych. Upewnij się, że metryki są matematycznie skomponowane i że zagregowany wymiar ma rzeczywistą wartość biznesową.
Jeśli w metrykach nie ma wartości wymiaru "zagregowanego"

Jeśli w metrykach nie ma wartości wymiarów "zagregowanych", a funkcja "Roll-up" nie jest włączona podczas dołączania danych. Nie będzie obliczana wartość metryki dla wymiaru "zagregowanego", będzie ona wyświetlana jako szary węzeł w drzewie i może zostać rozwinięta w celu wyświetlenia węzłów podrzędnych.

Legenda drzewa diagnostycznego

W drzewie diagnostycznym znajdują się trzy rodzaje węzłów:

Niebieski węzeł, który odpowiada szeregowi czasowemu z rzeczywistą wartością metryki.
Szary węzeł, który odpowiada wirtualnej serii czasowej bez wartości metryki, jest węzłem logicznym.
Czerwony węzeł, który odpowiada głównej serii czasowej bieżącego incydentu.

Dla każdego węzła nieprawidłowy stan jest opisany kolorem obramowania węzła

Czerwone obramowanie oznacza, że istnieje anomalia przechwycona w szeregach czasowych odpowiadających znacznikowi czasu zdarzenia.
Obramowanie inne niż czerwone oznacza, że nie ma anomalii przechwyconych w szeregach czasowych odpowiadających znacznikowi czasu zdarzenia.

Tryb wyświetlania

Istnieją dwa tryby wyświetlania drzewa diagnostycznego: pokaż tylko serie anomalii lub pokaż główne proporcje.

Pokaż tylko tryb serii anomalii umożliwia klientowi skupienie się na bieżących anomaliach przechwyconych na różnych seriach i diagnozowanie głównej przyczyny serii, której dotyczy problem.
Pokaż główne proporcje umożliwiają klientowi sprawdzenie nietypowego stanu głównych proporcji serii, których dotyczy ten wpływ. W tym trybie drzewo będzie pokazywać zarówno serię z wykrytą anomalią, jak i serią bez anomalii. Ale bardziej skupić się na ważnej serii.

Opcje analizowania

Pokaż współczynnik różnicowy

"Współczynnik różnicowy" to procent bieżącej różnicy węzła w porównaniu z różnicą węzła nadrzędnego. Oto formuła:

(rzeczywista wartość bieżącego węzła — oczekiwana wartość bieżącego węzła) / (rzeczywista wartość węzła nadrzędnego - oczekiwana wartość węzła nadrzędnego) * 100%

Służy to do analizowania głównego udziału różnicowego węzła nadrzędnego.
Pokaż proporcję wartości

"Proporcja wartości" to procent bieżącej wartości węzła w porównaniu z wartością węzła nadrzędnego. Oto formuła:

(rzeczywista wartość bieżącego węzła / rzeczywista wartość węzła nadrzędnego) * 100%

Służy do oceny proporcji bieżącego węzła w całości.

Korzystając z "drzewa diagnostycznego", klienci mogą zlokalizować główną przyczynę bieżącego zdarzenia w określonym wymiarze. Znacznie eliminuje to nakład pracy klienta w celu wyświetlenia poszczególnych anomalii lub przestawienia przez różne wymiary w celu znalezienia głównej anomalii.

Krok 3. Wyświetlanie szczegółowych informacji diagnostycznych między metrykami przy użyciu wykresu metryk

Czasami trudno jest przeanalizować problem, sprawdzając nietypowy stan jednej metryki, ale trzeba powiązać ze sobą wiele metryk. Klienci mogą skonfigurować graf Metryk, który wskazuje relację między metrykami. Zapoznaj się z artykułem Jak utworzyć graf metryk, aby rozpocząć pracę.

Sprawdzanie stanu anomalii w wymiarze głównej przyczyny w obszarze "Graf metryk"

Korzystając z powyższego wyniku diagnostycznego wymiaru krzyżowego, główna przyczyna jest ograniczona do określonej wartości wymiaru. Następnie użyj wykresu metryk i przefiltruj według analizowanego wymiaru przyczyny głównej, aby sprawdzić stan anomalii w innych metrykach.

Na przykład w przypadku przechwycenia zdarzenia w metrykach "revenue" (przychód). Najwięcej dotkniętych serii znajduje się w regionie globalnym z "region" = "SUM". Korzystając z diagnostyki między wymiarami, główna przyczyna znajduje się w lokalizacji "region" = "Karachi". Istnieje wstępnie skonfigurowany graf metryk, w tym metryki "revenue", "cost", "DAU", "PLT(page load time)" i "CHR(cache hit rate)".

Funkcja Metrics Advisor automatycznie filtruje wykres metryk według głównego wymiaru przyczyny "region" = "Karaczi" i wyświetli stan anomalii każdej metryki. Analizując relację między metrykami i stanem anomalii, klienci mogą uzyskać dalsze szczegółowe informacje o tym, co jest ostateczną główną przyczyną.

Cross metrics analysis

Stosując filtr wymiarów głównej przyczyny na grafie metryk, anomalie dla każdej metryki w sygnaturze czasowej bieżącego zdarzenia zostaną autorelowane. Te anomalie powinny być powiązane z zidentyfikowaną główną przyczyną bieżącego zdarzenia.

Auto related anomalies

Udostępnij za pośrednictwem

Diagnozowanie zdarzenia przy użyciu usługi Metrics Advisor

Co to jest zdarzenie?

Ścieżki do diagnozowania zdarzenia

Typowy przepływ diagnostyczny

Krok 1. Sprawdzanie podsumowania bieżącego zdarzenia

Krok 2. Wyświetlanie szczegółowych informacji diagnostycznych między wymiarami

Legenda drzewa diagnostycznego

Tryb wyświetlania

Opcje analizowania

Krok 3. Wyświetlanie szczegółowych informacji diagnostycznych między metrykami przy użyciu wykresu metryk

Sprawdzanie stanu anomalii w wymiarze głównej przyczyny w obszarze "Graf metryk"

Następne kroki

Dodatkowe zasoby

Udostępnij za pośrednictwem

Diagnozowanie zdarzenia przy użyciu usługi Metrics Advisor

Co to jest zdarzenie?

Ścieżki do diagnozowania zdarzenia

Typowy przepływ diagnostyczny

Krok 1. Sprawdzanie podsumowania bieżącego zdarzenia

Krok 2. Wyświetlanie szczegółowych informacji diagnostycznych między wymiarami

Legenda drzewa diagnostycznego

Tryb wyświetlania

Opcje analizowania

Krok 3. Wyświetlanie szczegółowych informacji diagnostycznych między metrykami przy użyciu wykresu metryk

Sprawdzanie stanu anomalii w wymiarze głównej przyczyny w obszarze "Graf metryk"

Anomalie związane z automatycznym

Następne kroki

Dodatkowe zasoby