Tworzenie alertu dotyczącego metryki z progami dynamicznymi

Progi dynamiczne stosują zaawansowane uczenie maszynowe i używają zestawu algorytmów i metod do:

  • Informacje na temat historycznego zachowania metryk
  • Analizowanie metryk w czasie i identyfikowanie wzorców, takich jak wzorce godzinowe, dzienne lub tygodniowe
  • Rozpoznawanie anomalii wskazujących możliwe problemy z usługą
  • Obliczanie najbardziej odpowiedniego progu dla metryki

Jeśli używasz progów dynamicznych, nie musisz znać progu "prawego" dla każdej metryki, ponieważ progi dynamiczne obliczają najbardziej odpowiednie progi.

Zalecamy skonfigurowanie reguł alertów z progami dynamicznymi dla następujących metryk:

  • Procent użycia procesora CPU maszyny wirtualnej
  • Czas wykonywania żądania HTTP Szczegółowe informacje aplikacji

Progi dynamiczne ułatwiają:

  • Utwórz skalowalne alerty dla setek serii metryk z jedną regułą alertu. Jeśli masz mniej reguł alertów, poświęcasz mniej czasu na tworzenie reguł alertów i zarządzanie nimi. Skalowalne alerty są szczególnie przydatne w przypadku wielu wymiarów lub wielu zasobów, takich jak wszystkie zasoby w subskrypcji.
  • Tworzenie reguł bez konieczności znajomości progu do skonfigurowania. Przy użyciu progów dynamicznych można skonfigurować alerty dotyczące metryk przy użyciu pojęć wysokiego poziomu bez obszernej wiedzy o domenie dotyczącej metryki
  • Konfigurowanie alertów dotyczących metryk przy użyciu pojęć wysokiego poziomu bez obszernej wiedzy o domenie dotyczącej metryki
  • Zapobiegaj hałaśliwym (niskiej precyzji) lub szerokim (niskim odwołaniu) progom, które nie mają oczekiwanego wzorca
  • Obsługa hałaśliwych metryk (takich jak procesor CPU maszyny lub pamięć) i metryk o niskim rozproszeniu (takich jak dostępność i szybkość błędów)

Możesz użyć progów dynamicznych w:

  • większość platformy i metryk niestandardowych usługi Azure Monitor
  • typowe metryki aplikacji i infrastruktury
  • Hałaśliwe metryki, takie jak procesor komputera lub pamięć
  • metryki o niskim rozproszeniu, takie jak dostępność i szybkość błędów Zobacz metryki nieobsługiwane przez progi dynamiczne dla listy metryk, które nie są obsługiwane przez progi dynamiczne.

Progi dynamiczne można skonfigurować przy użyciu:

Obliczanie progu alertu i podgląd

Po utworzeniu reguły alertu progi dynamiczne używają 10 dni danych historycznych do obliczania wzorców sezonowych lub godzinowych. Wykres widoczny w podglądzie alertu odzwierciedla te dane. Po utworzeniu reguły alertu progi dynamiczne stale używają wszystkich dostępnych danych historycznych do nauki i dostosowują progi, aby były dokładniejsze. Po trzech tygodniach progi dynamiczne mają wystarczającą ilość danych, aby zidentyfikować również wzorce tygodniowe, a model jest dostosowywany w celu uwzględnienia cotygodniowej sezonowości. Reguły alertów używające progów dynamicznych nie wyzwalają alertu przed zebraniem trzech dni i co najmniej 30 przykładów danych metryk.

System automatycznie rozpoznaje długotrwałe awarie i usuwa je z algorytmu uczenia progowego. Jeśli występuje długotrwała awaria, progi dynamiczne rozumieją dane i wykrywają problemy z systemem z tym samym poziomem poufności co przed wystąpieniem awarii.

Zagadnienia dotyczące używania progów dynamicznych

  • Aby zapewnić dokładne obliczenie progu, alerty korzystające z progów dynamicznych nie wyzwalają alertu przed zebraniem trzech dni i co najmniej 30 próbek danych metryk. W związku z tym nowe zasoby lub brakujące dane metryk nie wyzwalają alertu do momentu udostępnienia wystarczającej ilości danych.
  • Progi dynamiczne wymagają co najmniej trzech tygodni danych historycznych w celu wykrycia tygodniowej sezonowości. Niektóre szczegółowe wzorce, takie jak wzorce dwugodzinne lub półtygodniowe, mogą nie być wykrywane.
  • Jeśli zachowanie metryki uległo ostatnio zmianie, zmiany nie zostaną natychmiast odzwierciedlone w progu dynamicznym górnej i dolnej granicy. Obramowania są obliczane na podstawie danych metryk z ostatnich 10 dni. Po wyświetleniu obramowania progów dynamicznych dla danej metryki przyjrzyj się trendowi metryki w ciągu ostatniego tygodnia, a nie tylko w ostatnich godzinach lub dniach.
  • Progi dynamiczne są dobre do wykrywania znaczących odchyleń, w przeciwieństwie do powoli zmieniających się problemów. Powolne zmiany zachowania prawdopodobnie nie spowodują wyzwolenia alertu.

Znane problemy z poufnością progów dynamicznych

  • Jeśli reguła alertu korzystająca z progów dynamicznych jest zbyt hałaśliwa lub jest zbyt duża, może być konieczne zmniejszenie poufności reguły alertu progów dynamicznych. Skorzystaj z jednej z następujących opcji:

    • Czułość progowa: ustaw czułość na Niska , aby być bardziej odporna na odchylenia.
    • Liczba naruszeń (w obszarze Ustawienia zaawansowane): skonfiguruj regułę alertu, aby wyzwalać tylko wtedy, gdy w określonym okresie wystąpi kilka odchyleń. To ustawienie sprawia, że reguła jest mniej podatna na odchylenia przejściowe.
  • Może wystąpić reguła alertu, która używa progów dynamicznych, nie jest uruchamiana lub nie jest wystarczająco wrażliwa, mimo że jest skonfigurowana z wysoką poufnością. Może się tak zdarzyć, gdy rozkład metryki jest bardzo nieregularny. Rozważ jedno z następujących rozwiązań, aby rozwiązać ten problem:

    • Przejdź do monitorowania uzupełniającej metryki, która jest odpowiednia dla danego scenariusza, jeśli ma to zastosowanie. Na przykład sprawdź zmiany współczynnika powodzenia, a nie współczynnik niepowodzeń.
    • Spróbuj wybrać inną wartość dla stopnia szczegółowości agregacji (okres).
    • Sprawdź, czy w ciągu ostatnich 10 dni nastąpiła drastyczna zmiana zachowania metryki, taka jak awaria. Nagłe zmiany mogą mieć wpływ na górne i niższe progi obliczone dla metryki i uczynić je szerszymi. Poczekaj kilka dni, aż awaria nie zostanie już uwzględniona w obliczeniu progów. Możesz również edytować regułę alertu, aby użyć opcji Ignoruj dane przed w ustawieniach zaawansowanych.
    • Jeśli dane mają cotygodniową sezonowość, ale za mało historii jest dostępna dla metryki, obliczone progi mogą spowodować posiadanie szerokich granic górnej i dolnej. Na przykład obliczenie może traktować dni robocze i weekendy w taki sam sposób i tworzyć szerokie granice, które nie zawsze pasują do danych. Ten problem powinien zostać rozwiązany po udostępnieniu wystarczającej liczby historii metryk. Następnie wykryto poprawną sezonowość i odpowiednio zaktualizuje obliczone progi.
  • Gdy wartość metryki wykazuje duże wahania, progi dynamiczne mogą utworzyć szeroki model wokół wartości metryk, co może spowodować obniżenie lub wyższe granice niż oczekiwano. Ten scenariusz może wystąpić, gdy:

    • Czułość jest ustawiona na niską.
    • Metryka wykazuje nieregularne zachowanie z wysoką wariancją, która pojawia się jako skoki lub spadki danych.

    Rozważ zmniejszenie poufności modelu przez wybranie większej poufności lub wybranie większego okresu wyszukiwania. Możesz również użyć opcji Ignoruj dane przed , aby wykluczyć ostatnie nieregularności z danych historycznych używanych do kompilowania modelu.

Konfigurowanie progów dynamicznych

Postępuj zgodnie z procedurą, aby utworzyć lub edytować regułę alertu przy użyciu tych ustawień

  1. Na karcie Warunki
    1. W polu Progi wybierz pozycję Dynamiczny.
    2. W typie agregacji zalecamy, aby nie wybierać pozycji Maksimum.
    3. W polu Operator wybierz pozycję Większe niż, chyba że zachowanie reprezentuje użycie aplikacji.
    4. W obszarze Ważność progu wybierz pozycję Średni lub Niski , aby zmniejszyć szum alertu.
    5. W polu Sprawdź każde rozważ obniżenie częstotliwości na podstawie wpływu alertu na firmę.
    6. W okresie lookback ustaw okno odnośnika na co najmniej 15 minut. Jeśli na przykład sprawdzanie każdego pola jest ustawione na 5 minut, okres wyszukiwania powinien wynosić co najmniej 3 minuty.
  2. Kontynuuj pracę z resztą procesu, aby utworzyć regułę alertu.

Uwaga

Reguły alertów dotyczących metryk utworzone za pośrednictwem portalu są tworzone w tej samej grupie zasobów co zasób docelowy.

Omówienie wykresów progów dynamicznych

Na poniższym wykresie przedstawiono metrykę, limity progów dynamicznych oraz niektóre alerty wyzwalane, gdy wartość przekroczyła dozwolone progi.

Screenshot that shows a metric, its dynamic thresholds limits, and some alerts that fired.

Aby interpretować wykres, skorzystaj z poniższych informacji:

  • Niebieska linia: rzeczywista mierzona metryka w czasie.
  • Niebieski zacieniony obszar: pokazuje dozwolony zakres dla metryki. Jeśli wartości metryk pozostaną w tym zakresie, żaden alert nie zostanie wyzwolony.
  • Niebieskie kropki: po lewej stronie zaznaczenia na części wykresu, a następnie zatrzymaj wskaźnik myszy na niebieskiej linii, niebieska kropka pojawi się pod kursorem, który pokazuje pojedynczą zagregowaną wartość metryki.
  • Wyskakujące okienko z niebieską kropką: pokazuje zmierzoną wartość metryki (niebieską kropkę) oraz górne i dolne wartości dozwolonego zakresu.
  • Czerwona kropka z czarnym okręgiem: pokazuje pierwszą wartość metryki z dozwolonego zakresu. Ta wartość wyzwala alert metryki i umieszcza ją w stanie aktywnym.
  • Czerwone kropki: wskaż inne zmierzone wartości poza dozwolonym zakresem. Nie wyzwalają one większej liczby alertów metryk, ale alert pozostaje w stanie aktywnym.
  • Czerwony obszar: pokazuje czas, kiedy wartość metryki znajdowała się poza dozwolonym zakresem. Alert pozostaje w stanie aktywnym, o ile kolejne zmierzone wartości są poza dozwolonym zakresem, ale nie są wyzwalane żadne nowe alerty.
  • Koniec czerwonego obszaru: gdy niebieska linia jest z powrotem wewnątrz dozwolonych wartości, czerwony obszar zatrzymuje się, a linia zmierzonej wartości zmieni kolor na niebieski. Stan alertu dotyczącego metryki wyzwolony w momencie czerwonej kropki z czarnym konturem jest ustawiony na rozpoznany.

Metryki nieobsługiwane przez progi dynamiczne

Progi dynamiczne są obsługiwane w przypadku większości metryk, ale niektóre metryki nie mogą używać progów dynamicznych.

W poniższej tabeli wymieniono metryki, które nie są obsługiwane przez progi dynamiczne.

Typ zasobu Nazwa metryki
Microsoft.ClassicStorage/storageAccounts UsedCapacity
Microsoft.ClassicStorage/storageAccounts/blobServices Liczba obiektów blobCapacity
Microsoft.ClassicStorage/storageAccounts/blobServices BlobCount
Microsoft.ClassicStorage/storageAccounts/blobServices IndeksCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.ClassicStorage/storageAccounts/fileServices Udział plikówQuota
Microsoft.Compute/disks Bajty odczytu dysku złożonego na sekundę
Microsoft.Compute/disks Operacje odczytu dysku złożonego na sekundę
Microsoft.Compute/disks Bajty zapisu dysku złożonego na sekundę
Microsoft.Compute/disks Operacje zapisu na dysku złożonym/s
Microsoft.ContainerService/managedClusters Liczba węzłów
Microsoft.ContainerService/managedClusters PodCount
Microsoft.ContainerService/managedClusters CompletedJobsCount
Microsoft.ContainerService/managedClusters RestartingContainerCount
Microsoft.ContainerService/managedClusters OomKilledContainerCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs Połączenie edDeviceCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs Połączenie edDeviceCount
Microsoft.DocumentDB/databaseAccounts Cassandra Połączenie ionClosures
Microsoft.EventHub/clusters Rozmiar
Microsoft.EventHub/namespaces Rozmiar
Microsoft.IoTCentral/IoTApps connectedDeviceCount
Microsoft.IoTCentral/IoTApps provisionedDeviceCount
Microsoft.Kubernetes/connectedClusters Liczba węzłów
Microsoft.Kubernetes/connectedClusters PodCount
Microsoft.Kubernetes/connectedClusters CompletedJobsCount
Microsoft.Kubernetes/connectedClusters RestartingContainerCount
Microsoft.Kubernetes/connectedClusters OomKilledContainerCount
Microsoft.Machine Edukacja Services/workspaces/onlineEndpoints RequestsPerMinute
Microsoft.Machine Edukacja Services/workspaces/onlineEndpoints/deployments DeploymentCapacity
Microsoft. Mapy/konta CreatorUsage
Microsoft.Media/mediaservices/streamingEndpoints EgressBandwidth
Microsoft.Network/applicationGateways Produktywność
Microsoft.Network/azureFirewalls Produktywność
Microsoft.Network/expressRouteGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/expressRouteGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/expressRouteGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayBitsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.ServiceBus/przestrzenie nazw Rozmiar
Microsoft.ServiceBus/przestrzenie nazw Wiadomości
Microsoft.ServiceBus/przestrzenie nazw ActiveMessages
Microsoft.ServiceBus/przestrzenie nazw DeadletteredMessages
Microsoft.ServiceBus/przestrzenie nazw ScheduledMessages
Microsoft.ServiceFabricMesh/applications Przydzielony procesor
Microsoft.ServiceFabricMesh/applications PrzydzieloneMemory
Microsoft.ServiceFabricMesh/applications ActualCpu
Microsoft.ServiceFabricMesh/applications ActualMemory
Microsoft.ServiceFabricMesh/applications ApplicationStatus
Microsoft.ServiceFabricMesh/applications ServiceStatus
Microsoft.ServiceFabricMesh/applications ServiceReplicaStatus
Microsoft.ServiceFabricMesh/applications ContainerStatus
Microsoft.ServiceFabricMesh/applications RestartCount
Microsoft.Storage/storageAccounts UsedCapacity
Microsoft.Storage/storageAccounts/blobServices Liczba obiektów blobCapacity
Microsoft.Storage/storageAccounts/blobServices BlobCount
Microsoft.Storage/storageAccounts/blobServices BlobProvisionedSize
Microsoft.Storage/storageAccounts/blobServices IndeksCapacity
Microsoft.Storage/storageAccounts/fileServices FileCapacity
Microsoft.Storage/storageAccounts/fileServices FileCount
Microsoft.Storage/storageAccounts/fileServices FileShareCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.Storage/storageAccounts/fileServices FileShareCapacityQuota
Microsoft.Storage/storageAccounts/fileServices FileShareProvisionedIOPS

Następne kroki