Udostępnij za pośrednictwem


Tworzenie alertu dotyczącego metryki z progami dynamicznymi

Progi dynamiczne stosują zaawansowane uczenie maszynowe i używają zestawu algorytmów i metod do:

  • Poznaj historyczne zachowanie metryk.
  • Analizowanie metryk w czasie i identyfikowanie wzorców, takich jak wzorce godzinowe, dzienne lub tygodniowe.
  • Rozpoznaj anomalie wskazujące możliwe problemy z usługą.
  • Oblicz najbardziej odpowiednie progi dla metryk.

Jeśli używasz progów dynamicznych, nie musisz znać odpowiedniego progu dla każdej metryki. Progi dynamiczne obliczają najbardziej odpowiednie progi.

Zalecamy skonfigurowanie reguł alertów z progami dynamicznymi dla następujących metryk:

  • Procent użycia procesora CPU maszyny wirtualnej
  • Czas wykonywania żądania HTTP usługi Application Insights

Progi dynamiczne ułatwiają:

  • Utwórz skalowalne alerty dla setek serii metryk z jedną regułą alertu. Jeśli masz mniej reguł alertów, poświęcasz mniej czasu na tworzenie i zarządzanie nimi. Skalowalne alerty są szczególnie przydatne w przypadku wielu wymiarów lub wielu zasobów, takich jak wszystkie zasoby w subskrypcji.
  • Tworzenie reguł bez konieczności znajomości progu do skonfigurowania.
  • Konfigurowanie alertów dotyczących metryk przy użyciu pojęć wysokiego poziomu bez konieczności posiadania obszernej wiedzy o domenie dotyczącej metryki.
  • Zapobiegaj hałaśliwym (niskiej precyzji) lub szerokim (niskim odwołaniu) progom, które nie mają oczekiwanego wzorca.

Możesz użyć progów dynamicznych w:

  • Większość platformy Azure Monitor i metryk niestandardowych.
  • Typowe metryki aplikacji i infrastruktury.
  • Hałaśliwe metryki, takie jak procesor komputera lub pamięć.
  • Metryki o niskim rozproszeniu, takie jak dostępność i szybkość błędów.

Progi dynamiczne można skonfigurować przy użyciu:

Obliczanie progu alertu i podgląd

Po utworzeniu reguły alertu progi dynamiczne używają 10 dni danych historycznych do obliczania wzorców sezonowych lub godzinowych. Wykres widoczny w podglądzie alertu odzwierciedla te dane.

Progi dynamiczne stale używają wszystkich dostępnych danych historycznych do nauki i umożliwiają dokładniejsze dostosowanie. Po trzech tygodniach progi dynamiczne mają wystarczającą ilość danych, aby zidentyfikować tygodniowe wzorce, a model jest dostosowywany w celu uwzględnienia tygodniowej sezonowości.

System automatycznie rozpoznaje długotrwałe awarie i usuwa je z algorytmu uczenia progowego. Jeśli występuje długotrwała awaria, progi dynamiczne rozumieją dane. Wykrywają problemy z systemem z takim samym poziomem poufności, jak przed wystąpieniem awarii.

Zagadnienia dotyczące używania progów dynamicznych

  • Aby zapewnić dokładne obliczenie progu, reguły alertów używające progów dynamicznych nie wyzwalają alertu przed zebraniem trzech dni i co najmniej 30 próbek danych metryk. Nowe zasoby lub zasoby, dla których brakuje danych metryk, nie wyzwalają alertu do momentu udostępnienia wystarczającej ilości danych.
  • Progi dynamiczne wymagają co najmniej trzech tygodni danych historycznych w celu wykrycia tygodniowej sezonowości. Niektóre szczegółowe wzorce, takie jak wzorce dwugodzinne lub częściowoweekly, mogą nie zostać wykryte.
  • Jeśli zachowanie metryki uległo ostatnio zmianie, zmiany nie zostaną natychmiast odzwierciedlone w górnej i dolnej granicy progu dynamicznego. Obramowania są obliczane na podstawie danych metryk z ostatnich 10 dni. Po wyświetleniu obramowania progu dynamicznego dla określonej metryki przyjrzyj się trendowi metryki w ostatnim tygodniu, a nie tylko w ostatnich godzinach lub dniach.
  • Progi dynamiczne są dobre do wykrywania znaczących odchyleń, w przeciwieństwie do powoli zmieniających się problemów. Powolne zmiany zachowania prawdopodobnie nie wyzwolą alertu.

Znane problemy z poufnością progów dynamicznych

  • Jeśli reguła alertu korzystająca z progów dynamicznych jest zbyt hałaśliwa lub uruchamia zbyt wiele, może być konieczne zmniejszenie jego poufności. Skorzystaj z jednej z następujących opcji:

    • Czułość progowa: ustaw czułość na Wartość Niska , aby być bardziej odporna na odchylenia.
    • Liczba naruszeń (w obszarze Ustawienia zaawansowane): skonfiguruj regułę alertu, aby wyzwalać tylko wtedy, gdy w określonym okresie wystąpi kilka odchyleń. To ustawienie sprawia, że reguła jest mniej podatna na odchylenia przejściowe.
  • Może się okazać, że reguła alertu korzystająca z progów dynamicznych nie jest uruchamiana lub nie jest wystarczająco wrażliwa, mimo że jest skonfigurowana z wysoką poufnością. Ten scenariusz może wystąpić, gdy rozkład metryki jest bardzo nieregularny. Rozważ jedno z następujących rozwiązań:

    • Przejdź do monitorowania uzupełniającej metryki, która jest odpowiednia dla danego scenariusza, jeśli ma to zastosowanie. Na przykład sprawdź zmiany współczynnika powodzenia, a nie współczynnik niepowodzeń.
    • Spróbuj wybrać inną wartość dla stopnia szczegółowości agregacji (okres).
    • Sprawdź, czy drastyczna zmiana wystąpiła w zachowaniu metryki w ciągu ostatnich 10 dni, takich jak awaria. Nagłe zmiany mogą mieć wpływ na górne i niższe progi obliczone dla metryki i uczynić je szerszymi. Poczekaj kilka dni, aż awaria nie zostanie już uwzględniona w obliczeniu progu. Możesz również edytować regułę alertu, aby użyć opcji Ignoruj dane przed w ustawieniach zaawansowanych.
    • Jeśli dane mają cotygodniową sezonowość, ale za mało historii jest dostępna dla metryki, obliczone progi mogą spowodować szerokie górne i dolne granice. Na przykład obliczenie może traktować dni robocze i weekendy w taki sam sposób i tworzyć szerokie granice, które nie zawsze pasują do danych. Ten problem powinien zostać rozwiązany po udostępnieniu wystarczającej liczby historii metryk. Następnie wykryto poprawną sezonowość i odpowiednio zaktualizowano obliczone progi.
  • Gdy wartość metryki wykazuje duże wahania, progi dynamiczne mogą utworzyć szeroki model wokół wartości metryk, co może spowodować obniżenie lub wyższe granice niż oczekiwano. Ten scenariusz może wystąpić, gdy:

    • Czułość jest ustawiona na niską.
    • Metryka wykazuje nieregularne zachowanie z wysoką wariancją, która pojawia się jako skoki lub spadki danych.

    Rozważ zmniejszenie poufności modelu przez wybranie większej poufności lub wybranie większej wartości okresu lookback. Możesz również użyć opcji Ignoruj dane przed , aby wykluczyć ostatnie nieregularności z danych historycznych używanych do kompilowania modelu.

Konfiguracja progów dynamicznych

Aby skonfigurować progi dynamiczne, wykonaj procedurę tworzenia reguły alertu. Użyj tych ustawień na karcie Warunek :

  • W obszarze Próg wybierz pozycję Dynamiczny.
  • W polu Typ agregacji zalecamy, aby nie wybierać pozycji Maksimum.
  • W obszarze Operator wybierz pozycję Większe niż , chyba że zachowanie reprezentuje użycie aplikacji.
  • W obszarze Czułość progu wybierz pozycję Średni lub Niski , aby zmniejszyć szum alertu.
  • W polu Sprawdź co wybierz, jak często reguła alertu sprawdza, czy warunek jest spełniony. Aby zminimalizować wpływ alertu na działalność biznesową, rozważ użycie niższej częstotliwości. Upewnij się, że ta wartość jest mniejsza lub równa wartości okresu wyszukiwania.
  • W obszarze Okres wyszukiwania ustaw okres, aby za każdym razem, gdy dane są sprawdzane. Upewnij się, że ta wartość jest większa lub równa każdej wartości.
  • W obszarze Opcje zaawansowane wybierz liczbę naruszeń, które będą wyzwalać alert w określonym przedziale czasu. Opcjonalnie ustaw datę, od której chcesz zacząć uczyć się danych historycznych metryk i obliczać progi dynamiczne.

Uwaga

Reguły alertów dotyczących metryk tworzone za pośrednictwem portalu są tworzone w tej samej grupie zasobów co zasób docelowy.

Wykres progów dynamicznych

Na poniższym wykresie przedstawiono metrykę, jej limity progów dynamicznych i niektóre alerty, które zostały wyzwolone, gdy wartość przekroczyła dozwolone progi.

Zrzut ekranu przedstawiający wykres przedstawiający metrykę, limity progów dynamicznych i niektóre wyzwolone alerty.

Aby interpretować wykres, skorzystaj z poniższych informacji:

  • Niebieska linia: metryka mierzona w czasie.
  • Niebieski zacieniony obszar: dozwolony zakres dla metryki. Jeśli wartości metryk pozostaną w tym zakresie, żaden alert nie zostanie wyzwolony.
  • Niebieskie kropki: zagregowane wartości metryk. Jeśli wybierzesz część wykresu, a następnie umieść kursor nad niebieską linią, niebieska kropka pojawi się pod kursorem, aby wskazać pojedynczą zagregowaną wartość metryki.
  • Okno podręczne z niebieską kropką: zmierzona wartość metryki (niebieska kropka) oraz górne i dolne wartości dozwolonego zakresu.
  • Czerwona kropka z czarnym okręgiem: pierwsza wartość metryki poza dozwolonym zakresem. Ta wartość wyzwala alert metryki i umieszcza ją w stanie aktywnym.
  • Czerwone kropki: Inne zmierzone wartości poza dozwolonym zakresem. Nie wyzwalają one większej liczby alertów metryk, ale alert pozostaje w stanie aktywnym.
  • Czerwony obszar: czas, kiedy wartość metryki znajdowała się poza dozwolonym zakresem. Alert pozostaje w stanie aktywnym, o ile kolejne zmierzone wartości znajdują się poza dozwolonym zakresem, ale nie są wyzwalane żadne nowe alerty.
  • Koniec czerwonego obszaru: powrót do dozwolonych wartości. Gdy niebieska linia jest z powrotem wewnątrz dozwolonych wartości, czerwony obszar zatrzymuje się, a linia zmierzonej wartości zmieni kolor na niebieski. Stan alertu dotyczącego metryki wyzwolony w momencie czerwonej kropki z czarnym okręgiem jest ustawiony na rozwiązanie problemu.

Metryki nieobsługiwane przez progi dynamiczne

Progi dynamiczne obsługują większość metryk, ale następujące metryki nie mogą używać progów dynamicznych:

Typ zasobu Nazwa metryki
Microsoft.ClassicStorage/storageAccounts UsedCapacity
Microsoft.ClassicStorage/storageAccounts/blobServices Liczba obiektów blobCapacity
Microsoft.ClassicStorage/storageAccounts/blobServices BlobCount
Microsoft.ClassicStorage/storageAccounts/blobServices IndeksCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.ClassicStorage/storageAccounts/fileServices Udział plikówQuota
Microsoft.Compute/disks Bajty odczytu dysku złożonego na sekundę
Microsoft.Compute/disks Operacje odczytu dysku złożonego na sekundę
Microsoft.Compute/disks Bajty zapisu dysku złożonego na sekundę
Microsoft.Compute/disks Operacje zapisu na dysku złożonym/s
Microsoft.ContainerService/managedClusters Liczba węzłów
Microsoft.ContainerService/managedClusters PodCount
Microsoft.ContainerService/managedClusters CompletedJobsCount
Microsoft.ContainerService/managedClusters RestartingContainerCount
Microsoft.ContainerService/managedClusters OomKilledContainerCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs ConnectedDeviceCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs ConnectedDeviceCount
Microsoft.DocumentDB/databaseAccounts CassandraConnectionClosures
Microsoft.EventHub/clusters Rozmiar
Microsoft.EventHub/namespaces Rozmiar
Microsoft.IoTCentral/IoTApps connectedDeviceCount
Microsoft.IoTCentral/IoTApps provisionedDeviceCount
Microsoft.Kubernetes/connectedClusters Liczba węzłów
Microsoft.Kubernetes/connectedClusters PodCount
Microsoft.Kubernetes/connectedClusters CompletedJobsCount
Microsoft.Kubernetes/connectedClusters RestartingContainerCount
Microsoft.Kubernetes/connectedClusters OomKilledContainerCount
Microsoft.MachineLearningServices/workspaces/onlineEndpoints RequestsPerMinute
Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments DeploymentCapacity
Microsoft.Maps/accounts CreatorUsage
Microsoft.Media/mediaservices/streamingEndpoints EgressBandwidth
Microsoft.Network/applicationGateways Produktywność
Microsoft.Network/azureFirewalls Produktywność
Microsoft.Network/expressRouteGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/expressRouteGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/expressRouteGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayBitsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.ServiceBus/przestrzenie nazw Rozmiar
Microsoft.ServiceBus/przestrzenie nazw Wiadomości
Microsoft.ServiceBus/przestrzenie nazw ActiveMessages
Microsoft.ServiceBus/przestrzenie nazw DeadletteredMessages
Microsoft.ServiceBus/przestrzenie nazw ScheduledMessages
Microsoft.ServiceFabricMesh/applications Przydzielony procesor
Microsoft.ServiceFabricMesh/applications PrzydzieloneMemory
Microsoft.ServiceFabricMesh/applications ActualCpu
Microsoft.ServiceFabricMesh/applications ActualMemory
Microsoft.ServiceFabricMesh/applications ApplicationStatus
Microsoft.ServiceFabricMesh/applications ServiceStatus
Microsoft.ServiceFabricMesh/applications ServiceReplicaStatus
Microsoft.ServiceFabricMesh/applications ContainerStatus
Microsoft.ServiceFabricMesh/applications RestartCount
Microsoft.Storage/storageAccounts UsedCapacity
Microsoft.Storage/storageAccounts/blobServices Liczba obiektów blobCapacity
Microsoft.Storage/storageAccounts/blobServices BlobCount
Microsoft.Storage/storageAccounts/blobServices BlobProvisionedSize
Microsoft.Storage/storageAccounts/blobServices IndeksCapacity
Microsoft.Storage/storageAccounts/fileServices FileCapacity
Microsoft.Storage/storageAccounts/fileServices FileCount
Microsoft.Storage/storageAccounts/fileServices FileShareCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.Storage/storageAccounts/fileServices FileShareCapacityQuota
Microsoft.Storage/storageAccounts/fileServices FileShareProvisionedIOPS

Jeśli masz opinię na temat progów dynamicznych, wyślij nam wiadomość e-mail.