Vytvoření upozornění na metriku s dynamickými prahovými hodnotami

Dynamické prahové hodnoty používají pokročilé strojové učení a používají sadu algoritmů a metod k:

  • Seznámení s historickým chováním metrik
  • Analýza metrik v průběhu času a identifikace vzorů, jako jsou hodinové, denní nebo týdenní vzory
  • Rozpoznávání anomálií, které indikují možné problémy se službami
  • Výpočet nejvhodnější prahové hodnoty pro metriku

Při použití dynamických prahových hodnot nemusíte znát "správnou" prahovou hodnotu pro každou metriku, protože dynamické prahové hodnoty pro vás počítají nejvhodnější prahové hodnoty.

Doporučujeme nakonfigurovat pravidla upozornění s dynamickými prahovými hodnotami pro tyto metriky:

  • Procento procesoru virtuálního počítače
  • Doba spuštění požadavku HTTP Přehledy aplikace

Dynamické prahové hodnoty vám pomůžou:

  • Vytvářejte škálovatelné výstrahy pro stovky řad metrik pomocí jednoho pravidla upozornění. Pokud máte méně pravidel upozornění, strávíte méně času vytvářením a správou pravidel upozornění. Škálovatelné upozorňování je zvlášť užitečné pro více dimenzí nebo pro více prostředků, například pro všechny prostředky v předplatném.
  • Vytvořte pravidla, aniž byste museli vědět, jakou prahovou hodnotu nakonfigurovat. Pomocí dynamických prahových hodnot můžete nakonfigurovat upozornění metrik pomocí konceptů vysoké úrovně, aniž byste měli rozsáhlé znalosti o metrice.
  • Konfigurace upozornění na metriky s využitím konceptů vysoké úrovně bez rozsáhlých znalostí o metrice
  • Zabránění hlučnosti (nízké přesnosti) nebo širokých prahových hodnot (nízké úplnosti), které nemají očekávaný vzor
  • Zpracování hlučných metrik (například procesoru počítače nebo paměti) a metrik s nízkým rozptylem (jako je dostupnost a míra chyb)

Dynamické prahové hodnoty můžete použít pro:

  • většina platforem Azure Monitoru a vlastních metrik
  • běžné metriky aplikací a infrastruktury
  • hlučné metriky, jako je procesor počítače nebo paměť
  • metriky s nízkým rozptylem, jako je dostupnost a míra chyb, zobrazí metriky, které dynamické prahové hodnoty nepodporují, v seznamu metrik, které dynamické prahové hodnoty nepodporují.

Dynamické prahové hodnoty můžete nakonfigurovat pomocí:

Výpočet prahové hodnoty upozornění a náhled

Při prvním vytvoření pravidla upozornění používají dynamické prahové hodnoty 10 dnů historických dat k výpočtu hodinových nebo denních sezónních vzorů. Graf, který vidíte v náhledu upozornění, odráží tato data. Po vytvoření pravidla upozornění dynamické prahové hodnoty průběžně využívají všechna dostupná historická data, abyste se dozvěděli, a upravte prahové hodnoty tak, aby byly přesnější. Po třech týdnech mají dynamické prahové hodnoty dostatek dat k identifikaci týdenních vzorů a model se upraví tak, aby zahrnoval týdenní sezónnost. Pravidla upozornění, která používají dynamické prahové hodnoty, neaktivují upozornění před shromažďováním tří dnů a nejméně 30 vzorků dat metriky.

Systém automaticky rozpozná dlouhodobé výpadky a odebere je z algoritmu učení prahové hodnoty. Pokud dojde k delšímu výpadku, dynamické prahové hodnoty rozumí datům a detekují systémové problémy se stejnou úrovní citlivosti jako před výpadkem.

Důležité informace o používání dynamických prahových hodnot

  • Pokud chcete zajistit přesný výpočet prahové hodnoty, upozornění využívající dynamické prahové hodnoty neaktivují upozornění před shromažďováním tří dnů a nejméně 30 vzorků dat metriky. Nové prostředky nebo prostředky, ve které chybí data metrik, proto neaktivují upozornění, dokud nebude k dispozici dostatek dat.
  • Dynamické prahové hodnoty potřebují k detekci týdenní sezónnosti aspoň tři týdny historických dat. Některé podrobné vzory, například bi-hourly nebo polo-weekly vzory, nemusí být zjištěny.
  • Pokud se chování metriky nedávno změnilo, změny se okamžitě neprojeví v horní a dolní hranici dynamické prahové hodnoty. Ohraničení se počítá na základě dat metrik za posledních 10 dnů. Při zobrazení ohraničení dynamické prahové hodnoty pro danou metriku se podívejte na trend metriky v posledním týdnu a ne jenom na poslední hodiny nebo dny.
  • Dynamické prahové hodnoty jsou vhodné pro detekci významných odchylek oproti pomalu se vyvíjejícím problémům. Změny pomalého chování pravděpodobně neaktivují upozornění.

Známé problémy s citlivostí dynamické prahové hodnoty

  • Pokud pravidlo upozornění, které používá dynamické prahové hodnoty, je příliš hlučné nebo příliš velké, možná budete muset snížit citlivost pravidla upozornění na dynamické prahové hodnoty. Použijte jednu z následujících možností:

    • Citlivost prahové hodnoty: Nastavte citlivost na Nízkou , aby byla odolnější vůči odchylkám.
    • Počet porušení (v části Upřesnit nastavení): Nakonfigurujte pravidlo upozornění tak, aby se aktivovalo pouze v případě, že v určitém časovém období dojde k několika odchylkám. Díky tomuto nastavení je pravidlo méně náchylné k přechodným odchylkám.
  • Můžete narazit na pravidlo upozornění, které používá dynamické prahové hodnoty, se neaktivuje nebo není dostatečně citlivé, i když je nakonfigurované s vysokou citlivostí. K tomu může dojít, když je rozdělení metriky velmi nepravidelné. Při řešení tohoto problému zvažte jedno z následujících řešení:

    • Pokud je to možné, přejděte k monitorování doplňkové metriky, která je vhodná pro váš scénář. Například zkontrolujte, jestli se změny úspěšnosti neprobíjely míra selhání.
    • Zkuste vybrat jinou hodnotu pro členitost agregace (období).
    • Zkontrolujte, jestli v posledních 10 dnech nedošlo k závažné změně chování metrik, například výpadku. Nečekaná změna může ovlivnit horní a dolní prahové hodnoty vypočítané pro metriku a zvětšit je. Počkejte několik dní, než se výpadek nepřebídne do výpočtu prahových hodnot. Pravidlo upozornění můžete také upravit tak, aby před možností Ignorovat data používala v rozšířených nastaveních.
    • Pokud data mají týdenní sezónnost, ale pro metriku není k dispozici dostatek historie, můžou počítané prahové hodnoty vést k tomu, že budou mít široké horní a dolní hranice. Výpočet může například zpracovávat pracovní dny a víkendy stejným způsobem a vytvářet široká ohraničení, která se vždy nevejdou do dat. Tento problém by se měl vyřešit, až bude k dispozici dostatek historie metrik. Pak se zjistí správná sezónnost a odpovídajícím způsobem se aktualizují počítané prahové hodnoty.
  • Když hodnota metriky vykazuje velké výkyvy, dynamické prahové hodnoty mohou vytvořit široký model kolem hodnot metrik, což může vést k nižší nebo vyšší hranici, než se čekalo. K tomuto scénáři může dojít v těchto případech:

    • Citlivost je nastavená na nízkou.
    • Metrika vykazuje nepravidelné chování s vysokou odchylkou, která se v datech zobrazuje jako špičky nebo poklesy.

    Zvažte, že model bude méně citlivý, když zvolíte vyšší citlivost nebo vyberete delší období zpětného vyhledávání. Můžete také použít možnost Ignorovat data před možností vyloučit nedávné nepravidelnosti z historických dat použitých k sestavení modelu.

Konfigurace dynamických prahových hodnot

Pomocí těchto nastavení vytvořte nebo upravte pravidlo upozornění podle postupu.

  1. Na kartě Podmínky
    1. V poli Prahové hodnoty vyberte Dynamické.
    2. V typu Agregace doporučujeme nevybít Maximum.
    3. V poli Operátor vyberte Možnost Větší než, pokud chování nezasoudí využití aplikace.
    4. V nastavení Citlivost prahové hodnoty vyberte Možnost Střední nebo Nízká , abyste snížili šum upozornění.
    5. V poli Kontrola zvažte snížení četnosti na základě obchodního dopadu upozornění.
    6. V období zpětného vyhledávání nastavte okno zpětného vyhledávání na nejméně 15 minut. Pokud je například každé pole kontroly nastavené na 5 minut, mělo by období zpětného vyhledávání být alespoň 3 minuty nebo více.
  2. Pokračujte ve zbývající části procesu a vytvořte pravidlo upozornění.

Poznámka:

Pravidla upozornění na metriky vytvořená prostřednictvím portálu se vytvářejí ve stejné skupině prostředků jako cílový prostředek.

Principy grafů dynamických prahových hodnot

Následující graf ukazuje metriku, její dynamické prahové hodnoty a některá upozornění, která se aktivovala, když byla hodnota mimo povolené prahové hodnoty.

Screenshot that shows a metric, its dynamic thresholds limits, and some alerts that fired.

K interpretaci grafu použijte následující informace:

  • Modrá čára: Skutečná naměřená metrika v průběhu času.
  • Modrá stínovaná oblast: Zobrazuje povolený rozsah metriky. Pokud hodnoty metrik zůstanou v tomto rozsahu, neaktivuje se žádná výstraha.
  • Modré tečky: Pokud jste vybrali část grafu a pak najeďte myší na modrou čáru, zobrazí se pod kurzorem modrá tečka, která zobrazuje individuální agregovanou hodnotu metriky.
  • Automaticky otevírané okno s modrou tečkou: Zobrazuje naměřenou hodnotu metriky (modrou tečku) a horní a nižší hodnoty povoleného rozsahu.
  • Červená tečka s černým kruhem: Zobrazuje první hodnotu metriky mimo povolený rozsah. Tato hodnota aktivuje upozornění na metriku a umístí ji do aktivního stavu.
  • Červené tečky: Uveďte jiné měřené hodnoty mimo povolený rozsah. Neaktivují více upozornění na metriky, ale výstraha zůstane v aktivním stavu.
  • Červená oblast: Zobrazuje čas, kdy hodnota metriky byla mimo povolený rozsah. Výstraha zůstává v aktivním stavu, pokud jsou následující měřené hodnoty mimo povolený rozsah, ale neaktivují se žádné nové výstrahy.
  • Konec červené oblasti: Když se modrá čára vrátí uvnitř povolených hodnot, červená oblast se zastaví a měřená čára hodnoty se změní na modrou. Stav upozornění na metriku aktivovaný v době červené tečky s černou osnovou je nastavený tak, aby se vyřešil.

Metriky nepodporované dynamickými prahovými hodnotami

U většiny metrik se podporují dynamické prahové hodnoty, ale některé metriky nemůžou používat dynamické prahové hodnoty.

Následující tabulka uvádí metriky, které dynamické prahové hodnoty nepodporují.

Typ prostředku Název metriky
Microsoft.ClassicStorage/storageAccounts UsedCapacity
Microsoft.ClassicStorage/storageAccounts/blobServices Kapacita objektu blob
Microsoft.ClassicStorage/storageAccounts/blobServices BlobCount
Microsoft.ClassicStorage/storageAccounts/blobServices IndexCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareQuota
Microsoft.Compute/disky Bajty čtení složeného disku za sekundu
Microsoft.Compute/disky Operace čtení složeného disku za sekundu
Microsoft.Compute/disky Bajty zápisu na složený disk za sekundu
Microsoft.Compute/disky Operace zápisu na složený disk za sekundu
Microsoft.ContainerService/managedClusters NodesCount
Microsoft.ContainerService/managedClusters PodCount
Microsoft.ContainerService/managedClusters CompletedJobsCount
Microsoft.ContainerService/managedClusters RestartováníContainerCount
Microsoft.ContainerService/managedClusters OomKilledContainerCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs Připojení edDeviceCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs Připojení edDeviceCount
Microsoft.DocumentDB/databaseAccounts Cassandra Připojení ionClosures
Microsoft.EventHub/clusters Velikost
Microsoft.EventHub/namespaces Velikost
Microsoft.IoTCentral/IoTApps connectedDeviceCount
Microsoft.IoTCentral/IoTApps provisionedDeviceCount
Microsoft.Kubernetes/connectedClusters NodesCount
Microsoft.Kubernetes/connectedClusters PodCount
Microsoft.Kubernetes/connectedClusters CompletedJobsCount
Microsoft.Kubernetes/connectedClusters RestartováníContainerCount
Microsoft.Kubernetes/connectedClusters OomKilledContainerCount
Microsoft.Machine Učení Services/workspaces/onlineEndpoints RequestsPerMinute
Microsoft.Machine Učení Services/workspaces/onlineEndpoints/deployments DeploymentCapacity
Microsoft. Mapy/účty CreatorUsage
Microsoft.Media/mediaservices/streamingEndpoints Výchozí přenos dat
Microsoft.Network/applicationGateways Propustnost
Microsoft.Network/azureFirewalls Propustnost
Microsoft.Network/expressRouteGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/expressRouteGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/expressRouteGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayBitsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.ServiceBus/namespaces Velikost
Microsoft.ServiceBus/namespaces Zprávy
Microsoft.ServiceBus/namespaces ActiveMessages
Microsoft.ServiceBus/namespaces DeadletteredMessages
Microsoft.ServiceBus/namespaces ScheduledMessages
Microsoft.ServiceFabricMesh/applications Přidělenýcpu
Microsoft.ServiceFabricMesh/applications PřidělenoMemory
Microsoft.ServiceFabricMesh/applications ActualCpu
Microsoft.ServiceFabricMesh/applications ActualMemory
Microsoft.ServiceFabricMesh/applications ApplicationStatus
Microsoft.ServiceFabricMesh/applications ServiceStatus
Microsoft.ServiceFabricMesh/applications ServiceReplicaStatus
Microsoft.ServiceFabricMesh/applications ContainerStatus
Microsoft.ServiceFabricMesh/applications RestartCount
Microsoft.Storage/storageAccounts UsedCapacity
Microsoft.Storage/storageAccounts/blobServices Kapacita objektu blob
Microsoft.Storage/storageAccounts/blobServices BlobCount
Microsoft.Storage/storageAccounts/blobServices BlobProvisionedSize
Microsoft.Storage/storageAccounts/blobServices IndexCapacity
Microsoft.Storage/storageAccounts/fileServices FileCapacity
Microsoft.Storage/storageAccounts/fileServices FileCount
Microsoft.Storage/storageAccounts/fileServices FileShareCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.Storage/storageAccounts/fileServices FileShareCapacityQuota
Microsoft.Storage/storageAccounts/fileServices FileShareProvisionedIOPS

Další kroky