Créez une alerte de métrique avec des seuils dynamiques

Les seuils dynamiques appliquent le Machine Learning avancé, et utilisent un ensemble d’algorithmes et de méthodes pour :

  • Apprendre le comportement historique des métriques
  • Analyser les métriques au fil du temps et identifier des modèles tels que des modèles horaires, quotidiens ou hebdomadaires
  • Reconnaître les anomalies qui indiquent des problèmes de service possibles
  • Calculer le seuil le plus approprié pour la métrique

Lorsque vous utilisez des seuils dynamiques, vous n’avez pas besoin de connaître le seuil « correct » pour chaque métrique, car les seuils dynamiques calculent les seuils les plus appropriés pour vous.

Nous vous recommandons de configurer des règles d’alerte avec des seuils dynamiques sur les métriques suivantes :

  • Pourcentage UC des machines virtuelles
  • Durée d’exécution de la requête HTTP Application Insights

Les seuils dynamiques vous aident à :

  • Créer des alertes scalables pour des centaines de séries de métriques avec une seule règle d’alerte. Si vous avez moins de règles d’alerte, vous passez moins de temps à créer et à gérer des règles d’alertes. Les alertes évolutives sont particulièrement utiles pour plusieurs dimensions ou pour plusieurs ressources, par exemple pour toutes les ressources d’un abonnement.
  • Créer des règles sans avoir à connaître le seuil à configurer. En utilisant des seuils dynamiques, vous pouvez configurer des alertes de métrique à l’aide de concepts généraux, sans avoir une connaissance approfondie du domaine de la métrique
  • Configurer des alertes de métrique avec des concepts généraux sans connaissances approfondies sur la métrique
  • Empêcher les seuils bruyants (faible précision) ou larges (faible rappel) qui n’ont pas de modèle attendu
  • Gérer les métriques bruyantes (telles que le processeur ou la mémoire de la machine) et les métriques avec une faible dispersion (par exemple, la disponibilité et le taux d’erreur)

Vous pouvez utiliser des seuils dynamiques sur :

  • La plupart des métriques personnalisées et de la plateforme Azure Monitor
  • Les métriques d’infrastructure et d’application courantes
  • Les métriques bruyantes, telles que le processeur ou la mémoire de la machine
  • Les métriques à faible dispersion, telles que la disponibilité et le taux d’erreur Consultez les métriques non prises en charge par les seuils dynamiques pour obtenir la liste des métriques qui ne sont pas prises en charge par les seuils dynamiques.

Vous pouvez configurer des seuils dynamiques via les éléments suivants :

Calcul et préversion du seuil d’alerte

Lorsqu’une règle d’alerte est créée pour la première fois, les seuils dynamiques utilisent 10 jours de données historiques pour calculer des modèles saisonniers horaires ou quotidiens. Le graphique que vous voyez dans l’aperçu de l’alerte reflète ces données. Une fois qu’une règle d’alerte est créée, les seuils dynamiques utilisent continuellement toutes les données historiques disponibles pour apprendre et ajustent les seuils pour être plus précis. Après trois semaines, les seuils dynamiques ont suffisamment de données pour identifier les modèles hebdomadaires, et le modèle est ajusté pour inclure la saisonnalité hebdomadaire. Les règles d’alerte qui utilisent des seuils dynamiques ne déclenchent pas d’alerte avant de collecter trois jours et au moins 30 échantillons de données de métriques.

Le système reconnaît automatiquement les pannes prolongées et les supprime de l’algorithme de formation de seuil. En cas de panne prolongée, les seuils dynamiques comprennent les données et détectent les problèmes système avec le même niveau de sensibilité qu’avant la panne.

Considérations relatives à l’utilisation de seuils dynamiques

  • Pour garantir un calcul précis des seuils, les alertes utilisant des seuils dynamiques ne se déclenchent pas avant d’avoir collecté trois jours et au moins 30 échantillons de données de métriques. Par conséquent, les nouvelles ressources ou les données de métriques manquantes ne déclenchent pas d’alerte tant que les données disponibles ne sont pas suffisantes.
  • Les seuils dynamiques ont besoin d’au moins trois semaines de données historiques pour détecter la saisonnalité hebdomadaire. Certains modèles détaillés, tels que les modèles bi-horaires ou semi-hebdomadaires, peuvent ne pas être détectés.
  • Les modifications apportées au comportement d’une métrique ne sont pas nécessairement reflétées immédiatement dans les limites de seuil dynamique (limites supérieure et inférieure). Celles-ci sont en effet calculées en fonction des données de métriques des 10 derniers jours. Lorsque vous affichez les bordures de seuil dynamique d’une métrique donnée, examinez la tendance de la semaine précédente, et non seulement celle des dernières heures ou des derniers jours.
  • Les seuils dynamiques sont appropriés pour détecter des écarts significatifs plutôt que des problèmes se manifestant lentement. Les changements de comportement lents ne déclencheront probablement pas d’alerte.

Problèmes connus liés à la sensibilité des seuils dynamiques

  • Si une règle d’alerte qui utilise des seuils dynamiques est trop bruyante ou se déclenche trop, vous devrez peut-être réduire la sensibilité de votre règle d’alerte avec des seuils dynamiques. Utilisez l’une des options suivantes :

    • Seuil de sensibilité : Réglez la sensibilité sur Faible afin d'être plus tolérant aux écarts.
    • Nombre de violations (sous Paramètres avancés) : configurez la règle d’alerte pour qu’elle se déclenche uniquement si plusieurs écarts se produisent dans un laps de temps donné. Cela rend la règle moins vulnérable aux écarts temporaires.
  • Vous trouverez sans doute une règle d’alerte qui utilise des seuils dynamiques, mais qui ne se déclenche pas suffisamment ou n’est pas assez sensible, même si elle est configurée avec une sensibilité élevée. Ce cas peut se produire lorsque la répartition de la métrique est très irrégulière. Nous vous recommandons d’utiliser l’une des solutions suivantes pour résoudre le problème :

    • Passez à la surveillance d’une mesure complémentaire adaptée à votre scénario, le cas échéant. Par exemple, recherchez les modifications du taux de réussite, plutôt que le taux d’échec.
    • Essayez de sélectionner une valeur granularité d’agrégation (période) différente.
    • Vérifiez si le comportement de la métrique a subi une modification radicale, comme une panne, au cours des 10 derniers jours. Une modification soudaine peut avoir un impact sur les seuils supérieur et inférieur calculés pour la mesure et les rendre plus larges. Attendez quelques jours jusqu’à ce que la panne ne soit plus prise en compte dans le calcul des seuils. Vous pouvez également modifier la règle d’alerte pour utiliser l’option Ignorer les données avant dans Paramètres avancés.
    • Si vos données comportent un caractère saisonnier hebdomadaire, mais que l’historique n’est pas suffisant pour la métrique, les seuils calculés peuvent entraîner des limites supérieures et inférieures. Par exemple, le calcul peut traiter les jours de semaine et les week-ends de la même façon, et créer des bordures larges qui ne correspondent pas toujours aux données. Ce problème doit se résoudre une fois que l’historique des métriques est suffisant. Ensuite, la saisonnalité correcte est détectée, puis les seuils calculés se mettent à jour en conséquence.
  • Lorsqu’une valeur de métrique présente des fluctuations importantes, les seuils dynamiques peuvent créer un modèle large autour des valeurs de métriques, ce qui peut entraîner une limite inférieure ou supérieure à celle attendue. Ce scénario peut se produire quand :

    • La sensibilité est définie sur faible.
    • La métrique présente un comportement irrégulier avec une forte variance, une apparence de pics ou de creux dans les données.

    Nous vous recommandons de rendre le modèle moins sensible en choisissant une sensibilité plus élevée ou en sélectionnant une période de recherche arrière plus grande. Vous pouvez également utiliser l’option Ignorer les données avant d’exclure une irrégularité récente des données historiques utilisées pour générer le modèle.

Configurer les seuils dynamiques

Suivez la procédure pour créer ou modifier une règle d’alerte à l’aide de ces paramètres

  1. Sous l’onglet Conditions,
    1. Dans le champ Seuils, sélectionnez Dynamique.
    2. Dans le type d’agrégation, nous vous recommandons de ne pas sélectionner Maximum.
    3. Dans le champ Opérateur, sélectionnez Supérieur à, sauf si le comportement représente l’utilisation de l’application.
    4. Dans Sensibilité du seuil, sélectionnez Moyenne ou Faible pour réduire le bruit de l’alerte.
    5. Dans le champ Vérifier chaque, envisagez de réduire la fréquence en fonction de l’impact commercial de l’alerte.
    6. Dans la période de recherche arrière, définissez la fenêtre de recherche arrière sur au moins 15 minutes. Par exemple, si le champ Vérifier chaque est défini sur 5 minutes, la période de recherche arrière doit être d’au moins 3 minutes.
  2. Poursuivez avec le reste du processus pour créer une règle d’alerte.

Notes

Les règles d’alerte de métrique créées via le portail sont créées dans le même groupe de ressources que la ressource cible.

Comprendre les graphiques des seuils dynamiques

Vous trouverez ci-dessous un graphique présentant une métrique, ses limites de seuil dynamique et certaines alertes déclenchées quand la valeur se situe en deçà des seuils autorisés.

Screenshot that shows a metric, its dynamic thresholds limits, and some alerts that fired.

Utilisez les informations suivantes pour interpréter le graphique précédent :

  • Ligne bleue : métrique réelle mesurée au fil du temps.
  • Zone colorée en bleu : montre la plage autorisée pour la métrique. Si les valeurs de la métrique restent dans cette plage, aucune alerte n’est générée.
  • Points bleus : si vous sélectionnez une partie du graphique, puis pointez sur la ligne bleue, un point bleu apparaît sous le curseur pour indiquer une valeur de métrique agrégée individuelle.
  • Fenêtre avec un point bleu : montre la valeur de la métrique mesurée (le point bleu) et les valeurs supérieure et inférieure de la plage autorisée.
  • Point rouge avec un cercle noir : montre la première valeur de la métrique située en dehors de la plage autorisée. Il s’agit de la valeur qui déclenche une alerte de métrique et la met dans un état actif.
  • Points rouges : indique d’autres valeurs mesurées en dehors de la plage autorisée. Elles ne déclencheront plus d’alertes de métriques, mais l’alerte reste dans l’état actif.
  • Zone rouge : indique l’heure à laquelle la valeur de la métrique est sortie de la plage autorisée. L’alerte reste à l’état actif tant que les valeurs mesurées suivantes se trouvent en dehors de la plage autorisée, mais aucune nouvelle alerte n’est déclenchée.
  • Fin de la zone rouge : lorsque la ligne bleue revient à l’intérieur des valeurs autorisées, la zone rouge s’arrête et la ligne des valeurs mesurées redevient bleue. L’état de l’alerte de métrique déclenchée au moment du point rouge avec le contour noir est défini sur résolu.

Métriques non prises en charge par les seuils dynamiques

Les seuils dynamiques sont pris en charge pour la plupart des métriques, mais certaines métriques ne peuvent pas utiliser de seuils dynamiques.

Le tableau ci-dessous répertorie les métriques qui ne sont pas prises en charge par les seuils dynamiques.

Type de ressource Nom de métrique
Microsoft.ClassicStorage/storageAccounts UsedCapacity
Microsoft.ClassicStorage/storageAccounts/blobServices BlobCapacity
Microsoft.ClassicStorage/storageAccounts/blobServices BlobCount
Microsoft.ClassicStorage/storageAccounts/blobServices IndexCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareQuota
Ordinateur/disques Microsoft Octets lus/s sur disque composite
Ordinateur/disques Microsoft Opérations de lecture/s sur disque composite
Ordinateur/disques Microsoft Octets écrits/s sur disque composite
Ordinateur/disques Microsoft Opérations d’écriture/s sur disque composite
Microsoft.ContainerService/managedClusters NodesCount
Microsoft.ContainerService/managedClusters PodCount
Microsoft.ContainerService/managedClusters completedJobsCount
Microsoft.ContainerService/managedClusters RestartingContainerCount
Microsoft.ContainerService/managedClusters OomKilledContainerCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs ConnectedDeviceCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs ConnectedDeviceCount
Microsoft.DocumentDB/databaseAccounts CassandraConnectionClosures
Microsoft.EventHub/clusters Taille
Microsoft.EventHub/namespaces Taille
Microsoft.IoTCentral/IoTApps connectedDeviceCount
Microsoft.IoTCentral/IoTApps provisionedDeviceCount
Microsoft.Kubernetes/connectedClusters NodesCount
Microsoft.Kubernetes/connectedClusters PodCount
Microsoft.Kubernetes/connectedClusters completedJobsCount
Microsoft.Kubernetes/connectedClusters RestartingContainerCount
Microsoft.Kubernetes/connectedClusters OomKilledContainerCount
Microsoft.MachineLearningServices/workspaces/onlineEndpoints RequestsPerMinute
Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments DeploymentCapacity
Microsoft.Maps/accounts CreatorUsage
Microsoft.Media/mediaservices/streamingEndpoints EgressBandwidth
Microsoft.Network/applicationGateways Débit
Microsoft.Network/azureFirewalls Débit
Microsoft.Network/expressRouteGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/expressRouteGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/expressRouteGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayBitsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.ServiceBus/namespaces Taille
Microsoft.ServiceBus/namespaces Messages
Microsoft.ServiceBus/namespaces ActiveMessages
Microsoft.ServiceBus/namespaces DeadletteredMessages
Microsoft.ServiceBus/namespaces ScheduledMessages
Microsoft.ServiceFabricMesh/applications AllocatedCpu
Microsoft.ServiceFabricMesh/applications AllocatedMemory
Microsoft.ServiceFabricMesh/applications ActualCpu
Microsoft.ServiceFabricMesh/applications ActualMemory
Microsoft.ServiceFabricMesh/applications ApplicationStatus
Microsoft.ServiceFabricMesh/applications ServiceStatus
Microsoft.ServiceFabricMesh/applications ServiceReplicaStatus
Microsoft.ServiceFabricMesh/applications ContainerStatus
Microsoft.ServiceFabricMesh/applications RestartCount
Microsoft.Storage/storageAccounts UsedCapacity
Microsoft.Storage/storageAccounts/blobServices BlobCapacity
Microsoft.Storage/storageAccounts/blobServices BlobCount
Microsoft.Storage/storageAccounts/blobServices BlobProvisionedSize
Microsoft.Storage/storageAccounts/blobServices IndexCapacity
Microsoft.Storage/storageAccounts/fileServices FileCapacity
Microsoft.Storage/storageAccounts/fileServices FileCount
Microsoft.Storage/storageAccounts/fileServices FileShareCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.Storage/storageAccounts/fileServices FileShareCapacityQuota
Microsoft.Storage/storageAccounts/fileServices FileShareProvisionedIOPS

Étapes suivantes