Erstellen einer Metrikwarnung mit dynamischen Schwellenwerten

Dynamische Schwellenwerte wenden fortschrittliches maschinelles Lernen an und verwenden eine Reihe von Algorithmen und Methoden für Folgendes:

  • Erlernen des historischen Verhaltens von Metriken
  • Analysieren von Metriken im Zeitverlauf und Identifizieren von Mustern wie stündliche, tägliche oder wöchentliche Muster
  • Erkennen von Anomalien, die auf mögliche Dienstprobleme hinweisen
  • Berechnen des am besten geeigneten Schwellenwerts für die Metrik

Wenn Sie dynamische Schwellenwerte verwenden, müssen Sie nicht den „richtigen“ Schwellenwert für jede Metrik kennen, da dynamische Schwellenwerte die für Sie am besten geeigneten Schwellenwerte berechnen.

Es wird empfohlen, Warnungsregeln mit dynamischen Schwellenwerten für diese Metriken zu konfigurieren:

  • CPU-Prozentsatz des virtuellen Computers
  • Ausführungszeit der HTTP-Anforderung von Application Insights

Dynamische Schwellwerte helfen Ihnen bei Folgendem:

  • Erstellen Sie skalierbare Warnungen für Hunderte von Metrikreihen mit einer Warnungsregel. Wenn Sie weniger Warnungsregeln nutzen, verbringen Sie weniger Zeit mit dem Erstellen und Verwalten von Warnungsregeln. Skalierbare Warnungen sind besonders nützlich für mehrere Dimensionen oder für mehrere Ressourcen, z. B. für alle Ressourcen in einem Abonnement.
  • Erstellen von Regeln, ohne wissen zu müssen, welcher Schwellenwert konfiguriert werden soll. Mit dynamischen Schwellenwerten können Sie Metrikwarnungen anhand von übergeordneten Konzepten konfigurieren, ohne dass Sie umfassendes Domänenwissen über die Metrik haben
  • Konfigurieren von Metrikwarnungen mithilfe von Konzepten auf hoher Ebene ohne umfangreiches Domänenwissen über die Metrik
  • Verhindern von ausführlichen (geringe Genauigkeit) oder zu weit gefassten (geringe Abrufe) Schwellenwerte ohne erwartetes Muster
  • Handhaben Sie verrauschte Metriken (z. B. Computer-CPU oder Arbeitsspeicher) und Metriken mit geringer Verteilung (z. B. Verfügbarkeit und Fehlerrate)

Sie können dynamische Schwellenwerte für Folgendes verwenden:

  • Die meisten Azure Monitor-Plattform- und benutzerdefinierten Metriken
  • Allgemeine Anwendungs- und Infrastrukturmetriken
  • Verrauschte Metriken, z. B. Computer-CPU oder Arbeitsspeicher
  • Metriken mit geringer Streuung, z. B. Verfügbarkeit und Fehlerrate. Siehe den Artikel Von dynamischen Schwellenwerten nicht unterstützte Metriken für eine Liste von Metriken, die nicht von dynamischen Schwellenwerten unterstützt werden.

Sie können dynamische Schwellenwerte mit Folgendem konfigurieren:

Berechnung und Vorschau des Warnungsschwellenwertes

Wenn eine Warnungsregel zum ersten Mal erstellt wird, verwenden dynamische Schwellenwerte Verlaufsdaten von 10 Tagen, um stündliche oder tägliche saisonale Muster zu berechnen. Das Diagramm, das in der Warnungsvorschau angezeigt wird, spiegelt diese Daten wider. Nachdem eine Warnungsregel erstellt wurde, verwenden dynamische Schwellenwerte zum Lernen kontinuierlich alle verfügbaren Verlaufsdaten, und passen die Schwellenwerte so an, dass sie genauer sind. Nach drei Wochen verfügen dynamische Schwellenwerte über genügend Daten, um auch wöchentliche Muster zu identifizieren, und das Modell wird an die wöchentliche Saisonalität angepasst. Warnungsregeln, die dynamische Schwellenwerte verwenden, lösen erst dann eine Warnung aus, wenn drei Tage lang und mindestens 30 Stichproben von Metrikdaten erfasst wurden.

Das System erkennt automatisch längere Ausfälle und entfernt sie aus dem Schwellenwert-Lernalgorithmus. Wenn es zu einem längeren Ausfall kommt, verstehen dynamische Schwellenwerte die Daten und erkennen Systemprobleme mit der gleichen Empfindlichkeit wie vor dem Ausfall.

Überlegungen zur Verwendung dynamischer Schwellenwerte

  • Um eine genaue Berechnung der Schwellenwerte zu gewährleisten, wird bei der Verwendung von dynamischen Schwellenwerten eine Warnungen erst dann ausgelöst, wenn drei Tage lang und mindestens 30 Stichproben von Metrikdaten erfasst wurden. Daher lösen neue Ressourcen oder Ressourcen, bei denen Metrikdaten fehlen, erst dann eine Warnung aus, wenn genügend Daten verfügbar sind.
  • Dynamische Schwellenwerte benötigen mindestens Verlaufsdaten von drei Wochen, um wöchentliche Saisonalität zu erkennen. Einige detaillierte Muster, z. B. „alle zwei Stunden“ oder „zweimal die Woche“ werden möglicherweise nicht erkannt.
  • Wenn sich das Verhalten einer Metrik kürzlich geändert hat, spiegeln sich die Änderungen nicht sofort in den oberen und unteren Grenzen der dynamischen Schwellenwerte wider. Die Grenzwerte werden basierend auf den Metrikdaten der vergangenen 10 tage berechnet. Wenn Sie die Grenzwerte dynamischer Schwellenwerte für eine bestimmte Metrik anzeigen, verwenden Sie den Metriktrend der letzten Woche und nicht nur den für die letzten Stunden oder Tage.
  • Dynamische Schwellenwerte eignen sich gut zur Erkennung erheblicher Abweichungen, im Gegensatz zu sich langsam entwickelnden Problemen. Langsame Verhaltensänderungen lösen wahrscheinlich keine Warnung aus.

Bekannte Probleme mit der Empfindlichkeit dynamischer Schwellenwerte

  • Wenn eine Warnungsregel, die dynamische Schwellenwerte verwendet, zu verrauscht ist oder zu viel auslöst, müssen Sie möglicherweise die Vertraulichkeit Ihrer Warnungsregel für dynamische Schwellenwerte reduzieren. Nutzen Sie eine der folgenden Optionen:

    • Schwellwertempfindlichkeit: Legen Sie die Empfindlichkeit auf Niedrig fest, um bei Abweichungen toleranter zu sein.
    • Anzahl von Verstößen (unter Erweiterte Einstellungen): Konfigurieren Sie die Warnungsregel so, dass sie nur ausgelöst wird, wenn innerhalb eines bestimmten Zeitraums mehrere Abweichungen auftreten. Diese Einstellung macht die Regel weniger anfällig für vorübergehende Abweichungen.
  • Möglicherweise wird eine Warnungsregel, die dynamische Schwellenwerte verwendet, nicht ausgelöst oder ist nicht empfindlich genug, obwohl sie mit hoher Empfindlichkeit konfiguriert ist. Dies kann passieren, wenn die Verteilung der Metrik sehr unregelmäßig ist. Ziehen Sie eine der folgenden Lösungen in Betracht, um das Problem zu beheben:

    • Wechseln Sie zur Überwachung einer ergänzenden Metrik, die für Ihr Szenario geeignet ist, falls zutreffend. Überprüfen Sie beispielsweise die Änderungen der Erfolgsrate statt Änderungen der Fehlerrate.
    • Versuchen Sie, eine andere Aggregationsgranularität (Zeitraum) auszuwählen.
    • Überprüfen Sie, ob es im Verhalten der Metrik in den letzten 10 Tagen eine drastische Veränderung gab, z. B. einen Ausfall. Eine plötzliche Änderung kann sich auf die oberen und unteren Schwellenwerte auswirken, die für die Metrik berechnet werden, und sie weiter machen. Warten Sie ein paar Tage, bis der Ausfall nicht länger für die Berechnung des Schwellenwerts herangezogen wird. Sie können die Warnungsregel auch bearbeiten, um in den erweiterten Einstellungen die Option Daten ignorieren vor zu verwenden.
    • Wenn Ihre Daten wöchentlich saisonabhängig sind, aber nicht genügend Verlauf für die Metrik verfügbar ist, können die berechneten Schwellenwerte zu breiteren Ober- und Untergrenzen führen. Beispielsweise kann die Berechnung Wochentage und Wochenenden auf die gleiche Weise behandeln und breite Rahmen erstellen, die nicht immer den Daten entsprechen. Dieses Problem sollte sich selbst beheben, nachdem genügend Metrikverlauf verfügbar ist. Dann wird dir korrekte Saisonalität erkannt und die berechneten Schwellenwerte werden entsprechend aktualisiert.
  • Wenn ein Metrikwert große Schwankungen aufweist, können dynamische Schwellenwerte ein Modell mit einem großen Bereich um die Metrikwerte erstellen, was zu einem niedrigeren oder höheren Grenzwert als erwartet führen kann. Dieses Szenario kann in den folgenden Fällen auftreten:

    • Die Empfindlichkeit ist auf „niedrig“ festgelegt.
    • Die Metrik weist ein irreguläres Verhalten mit hoher Varianz auf, die als Spitzen oder Abfälle in den Daten auftreten.

    Erwägen Sie, eine höhere Empfindlichkeit oder einen größeren Rückblickzeitraum auszuwählen, um die Empfindlichkeit des Modells zu senken. Alternativ können Sie die Option Daten ignorieren vor verwenden, um eine aktuelle Unregelmäßigkeit aus den historischen Daten auszuschließen, die zum Erstellen des Modells genutzt werden.

Konfigurieren dynamischer Schwellenwerte

Führen Sie das Verfahren zum Erstellen oder Bearbeiten einer Warnungsregel mit diesen Einstellungen aus:

  1. Auf der Registerkarte Bedingungen,
    1. Wählen Sie im Feld Schwellenwerte die Option Dynamisch aus.
    2. Es wird empfohlen, im Aggregationstyp die Option Maximum nicht auszuwählen.
    3. Im Feld Operator wählen Sie Größer als aus, es sei denn, das Verhalten stellt die Anwendungsnutzung dar.
    4. Wählen Sie unter Schwellenwertempfindlichkeit die Option Mittel oder Niedrig aus, um das Warnungsrauschen zu reduzieren.
    5. Verwenden Sie im Feld Überprüfung alle abhängig von den geschäftlichen Auswirkungen der Warnung ggf. einen niedrigeren Wert.
    6. Legen Sie im Rückblickzeitraum das Rückblickfenster auf mindestens 15 Minuten fest. Ist das Feld Überprüfung alle also beispielsweise auf 5 Minuten festgelegt, sollte der Rückblickzeitraum mindestens auf 3 Minuten festgelegt werden.
  2. Fahren Sie mit dem restlichen Prozess fort, um eine Warnungsregel zu erstellen.

Hinweis

Über das Portal erstellte Metrikwarnungsregeln werden in derselben Ressourcengruppe erstellt wie die Zielressource.

Grundlegendes zum Diagramm „Dynamische Schwellenwerte“

Das folgende Diagramm zeigt eine Metrik, ihre dynamischen Schwellenwertgrenzwerte und einige Warnungen, die ausgelöst werden, wenn der Wert außerhalb der zulässigen Schwellenwerte liegt.

Screenshot that shows a metric, its dynamic thresholds limits, and some alerts that fired.

Verwenden Sie die folgenden Informationen zur Interpretation des Diagramms:

  • Blaue Linie: Die tatsächliche, über die Zeit gemessene Metrik an.
  • Blau schattierter Bereich: Zulässiger Bereich für die Metrik. Wenn die Metrikwerte innerhalb dieses Bereichs liegen, wird keine Warnung ausgelöst.
  • Blaue Punkte: Wenn Sie einen Teil des Diagramms mit der linken Maustaste auswählen und dann mit dem Mauszeiger über die blaue Linie fahren, wird ein blauer Punkt unter Ihrem Cursor angezeigt, der einen individuellen aggregierten Metrikwert anzeigt.
  • Popupfenster mit blauem Punkt: In diesem Fenster werden der gemessene Metrikwert (der blaue Punkt) sowie der oberste und unterste Wert des zulässigen Bereichs angezeigt.
  • Roter Punkt mit einer schwarzen Umrandung: Dieser Punkt zeigt den ersten Metrikwert des zulässigen Bereichs an. Dieser Wert löst eine Metrikwarnung aus und versetzt diese in einen aktiven Zustand.
  • Rote Punkte: Diese Punkte geben weitere gemessenen Werte außerhalb des zulässigen Bereichs an. Sie lösen keine zusätzlichen Metrikwarnungen aus, die Warnung bleibt jedoch aktiv.
  • Roter Bereich: Dieser Bereich zeigt die Zeit an, in der der Metrikwert außerhalb des zulässigen Bereichs lag. Die Warnung bleibt aktiv, solange nachfolgende Messwerte außerhalb des zulässigen Bereichs liegen, aber keine neuen Warnungen ausgelöst werden.
  • Ende des roten Bereichs: Wenn die blaue Linie wieder im zulässigen Bereich liegt, endet der rote Bereich, und die Linie der gemessenen Werte wird blau. Der Status der Metrikwarnung, die zum Zeitpunkt des roten Punkts mit einer schwarzen Umrandung ausgelöst wurde, wird gelöst festgelegt.

Von dynamischen Schwellenwerten nicht unterstützte Metriken

Dynamische Schwellenwerte werden für die meisten Metriken unterstützt, einige Metriken können jedoch keine dynamischen Schwellenwerte verwenden.

In der folgenden Tabelle werden die Metriken aufgeführt, die von dynamischen Schwellenwerten nicht unterstützt werden.

Ressourcentyp Metrikname
Microsoft.ClassicStorage/storageAccounts UsedCapacity
Microsoft.ClassicStorage/storageAccounts/blobServices BlobCapacity
Microsoft.ClassicStorage/storageAccounts/blobServices BlobCount
Microsoft.ClassicStorage/storageAccounts/blobServices IndexCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareQuota
Microsoft.Compute/disks Zusammengesetzter Datenträgerlesevorgang in Bytes/Sek.
Microsoft.Compute/disks Zusammengesetzte Datenträgerlesevorgänge/Sek.
Microsoft.Compute/disks Zusammengesetzter Datenträgerschreibvorgang in Bytes/s
Microsoft.Compute/disks Zusammengesetzte Datenträgerschreibvorgänge/s
Microsoft.ContainerService/managedClusters NodesCount
Microsoft.ContainerService/managedClusters PodCount
Microsoft.ContainerService/managedClusters CompletedJobsCount
Microsoft.ContainerService/managedClusters RestartingContainerCount
Microsoft.ContainerService/managedClusters OomKilledContainerCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs ConnectedDeviceCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs ConnectedDeviceCount
Microsoft.DocumentDB/databaseAccounts CassandraConnectionClosures
Microsoft.EventHub/clusters Size
Microsoft.EventHub/namespaces Size
Microsoft.IoTCentral/IoTApps connectedDeviceCount
Microsoft.IoTCentral/IoTApps provisionedDeviceCount
Microsoft.Kubernetes/connectedClusters NodesCount
Microsoft.Kubernetes/connectedClusters PodCount
Microsoft.Kubernetes/connectedClusters CompletedJobsCount
Microsoft.Kubernetes/connectedClusters RestartingContainerCount
Microsoft.Kubernetes/connectedClusters OomKilledContainerCount
Microsoft.MachineLearningServices/workspaces/onlineEndpoints RequestsPerMinute
Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments DeploymentCapacity
Microsoft.Maps/accounts CreatorUsage
Microsoft.Media/mediaservices/streamingEndpoints EgressBandwidth
Microsoft.Network/applicationGateways Throughput
Microsoft.Network/azureFirewalls Throughput
Microsoft.Network/expressRouteGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/expressRouteGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/expressRouteGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayBitsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.ServiceBus/namespaces Size
Microsoft.ServiceBus/namespaces Meldungen
Microsoft.ServiceBus/namespaces ActiveMessages
Microsoft.ServiceBus/namespaces DeadletteredMessages
Microsoft.ServiceBus/namespaces ScheduledMessages
Microsoft.ServiceFabricMesh/applications AllocatedCpu
Microsoft.ServiceFabricMesh/applications AllocatedMemory
Microsoft.ServiceFabricMesh/applications ActualCpu
Microsoft.ServiceFabricMesh/applications ActualMemory
Microsoft.ServiceFabricMesh/applications ApplicationStatus
Microsoft.ServiceFabricMesh/applications ServiceStatus
Microsoft.ServiceFabricMesh/applications ServiceReplicaStatus
Microsoft.ServiceFabricMesh/applications ContainerStatus
Microsoft.ServiceFabricMesh/applications RestartCount
Microsoft.Storage/storageAccounts UsedCapacity
Microsoft.Storage/storageAccounts/blobServices BlobCapacity
Microsoft.Storage/storageAccounts/blobServices BlobCount
Microsoft.Storage/storageAccounts/blobServices BlobProvisionedSize
Microsoft.Storage/storageAccounts/blobServices IndexCapacity
Microsoft.Storage/storageAccounts/fileServices FileCapacity
Microsoft.Storage/storageAccounts/fileServices FileCount
Microsoft.Storage/storageAccounts/fileServices FileShareCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.Storage/storageAccounts/fileServices FileShareCapacityQuota
Microsoft.Storage/storageAccounts/fileServices FileShareProvisionedIOPS

Nächste Schritte