Recommandations pour la conception d’une stratégie fiable de surveillance et d’alerte

S’applique à cette recommandation de liste de vérification de fiabilité Azure Well-Architected Framework :

RE :10 Mesurez et publiez les indicateurs d’intégrité de la solution. Capturez en permanence la durée de fonctionnement et d’autres données de fiabilité à partir de l’ensemble de la charge de travail, ainsi que de composants individuels et de flux de clés.

Ce guide décrit les recommandations relatives à la conception d’une stratégie fiable de surveillance et d’alerte. Implémentez cette stratégie pour tenir vos équipes opérationnelles informées des status d’intégrité de votre environnement et assurez-vous d’atteindre les objectifs de fiabilité établis pour votre charge de travail.

Définitions

Terme Définition
Mesures Valeurs numériques collectées à intervalles réguliers. Les métriques décrivent certains aspects d’un système à un moment donné.
Journaux d’activité de ressources Données générées par un système. Il fournit des informations sur l’état du système.
Traces Données qui fournissent des informations sur le chemin d’accès d’une requête via les services et les composants.

Stratégies de conception

Avant de créer une stratégie de surveillance et d’alerte, effectuez les tâches suivantes pour votre charge de travail dans le cadre de votre planification de la fiabilité :

Créez une stratégie de surveillance et d’alerte pour vous assurer que votre charge de travail fonctionne de manière fiable. Une stratégie de surveillance et d’alerte permet de sensibiliser vos équipes opérationnelles afin qu’elles soient informées des modifications apportées à l’état de votre charge de travail et puissent rapidement résoudre les problèmes. Créez une stratégie de surveillance robuste et fiable en créant un modèle d’intégrité pour vos flux critiques et les composants que ces flux critiques comprennent. Le modèle d’intégrité définit des états sains, dégradés et non sains. Concevez votre posture opérationnelle pour détecter immédiatement les changements dans ces états. Lorsque les états d’intégrité passent de sain à dégradé ou non sain, les mécanismes d’alerte déclenchent les mesures correctives automatiques et avertit les équipes appropriées.

Implémentez les recommandations suivantes pour concevoir une stratégie de surveillance et d’alerte qui répond aux exigences de votre entreprise.

Règle générale

  • Comprendre la différence entre les métriques, les journaux et les traces.

  • Activez la journalisation pour toutes les ressources cloud. Utilisez l’automatisation et la gouvernance dans vos déploiements pour activer la journalisation des diagnostics dans votre environnement.

  • Transférez tous les journaux de diagnostic vers un récepteur de données centralisé et une plateforme d’analyse, comme un espace de travail Log Analytics. Si vous avez des exigences de souveraineté des données régionales, vous devez utiliser des récepteurs de données locaux dans les régions soumises à ces exigences.

Compromis : Le stockage et l’interrogation des journaux d’activité ont des conséquences sur les coûts. Notez comment l’analyse et la rétention de vos journaux affectent votre budget et déterminez le meilleur équilibre d’utilisation pour répondre à vos besoins. Pour plus d’informations, consultez Meilleures pratiques pour l’optimisation des coûts.

  • Si vos charges de travail sont soumises à une ou plusieurs infrastructures de conformité, certains des journaux de composants qui gèrent des informations sensibles sont également soumis à ces frameworks. Envoyez les journaux de composants appropriés à un système SIEM (Security Information and Event Management), comme Microsoft Sentinel.

  • Créez une stratégie de rétention des journaux qui intègre des exigences de rétention à long terme que les frameworks de conformité imposent à votre charge de travail.

  • Utilisez la journalisation structurée pour tous les messages de journal afin d’optimiser l’interrogation des données du journal.

  • Configurez des alertes pour qu’elles se déclenchent lorsque des valeurs dépassent des seuils critiques qui sont corrélés à un changement d’état de modèle d’intégrité, comme le vert vers le jaune ou le rouge.

    La configuration des seuils est une pratique d’amélioration continue. À mesure que votre charge de travail évolue, les seuils que vous définissez peuvent changer. Dans certains cas, les seuils dynamiques sont une bonne option pour votre stratégie de surveillance.

  • Envisagez d’utiliser des alertes lorsque des états s’améliorent, tels que du rouge au jaune ou du rouge au vert, afin que les équipes d’opérations puissent suivre ces événements pour référence ultérieure.

  • Visualisez l’intégrité en temps réel de votre environnement.

  • Utilisez les données collectées lors des incidents pour améliorer en permanence vos modèles d’intégrité et votre stratégie de surveillance et d’alerte.

  • Incorporer des services de supervision et d’alerte de plateforme cloud, notamment :

  • Intégrez une supervision et une analytique avancées spécialement conçues par votre fournisseur de cloud, comme les outils d’insights Azure Monitor.

  • Implémentez la surveillance de la sauvegarde et de la récupération pour capturer :

    • La réplication des données status pour garantir la récupération de votre charge de travail au sein de l’objectif de point de récupération cible (RPO).

    • Sauvegardes et récupérations réussies et ayant échoué.

    • Durée de récupération pour informer votre planification de récupération d’urgence.

Surveillance des applications

  • Créez des sondes d’intégrité ou des fonctions case activée et exécutez-les régulièrement à partir de l’extérieur de l’application. Veillez à effectuer des tests à partir de plusieurs emplacements géographiquement proches de vos clients.

  • Journaliser les données pendant que l’application s’exécute dans l’environnement de production. Vous avez besoin d’informations suffisantes pour diagnostiquer la cause des problèmes dans l’état de production.

  • Journalisation des événements au niveau des limites de service. Vous devez inclure un ID de corrélation qui franchit les limites de service. Si une transaction transite par plusieurs services et que l’un d’eux échoue, l’ID de corrélation vous permet de suivre les demandes dans votre application et de déterminer pourquoi la transaction a échoué.

  • Utilisez la journalisation asynchrone. Les opérations de journalisation synchrone bloquent parfois le code de votre application, ce qui entraîne la sauvegarde des demandes au fur et à mesure que les journaux sont écrits. Utilisez une journalisation asynchrone pour préserver la disponibilité lors de la journalisation de l’application.

  • Séparer la journalisation de l’audit de l’application. Des enregistrements d’audit sont généralement conservés afin de pouvoir répondre à des exigences de conformité ou réglementaires, et doivent être complets. Pour éviter les transactions supprimées, conservez les journaux d’audit distincts des journaux de diagnostic.

  • Utilisez la corrélation de télémétrie pour vous assurer que vous pouvez mapper les transactions via l’application de bout en bout et les flux système critiques. Ce processus est essentiel pour effectuer une analyse de la cause racine (RCA) en cas d’échecs. Collectez des métriques et des journaux d’activité au niveau de la plateforme, tels que le pourcentage d’UC, le réseau entrant, le réseau sortant et les opérations sur disque par seconde, à partir de l’application pour informer un modèle d’intégrité et pour détecter et prédire les problèmes. Cette approche peut aider à faire la distinction entre les erreurs temporaires et les erreurs nontransientes.

  • Utilisez la surveillance de la boîte blanche pour instrumenter l’application avec des journaux et des métriques sémantiques. Collectez des métriques et des journaux au niveau de l’application, tels que la consommation de mémoire ou la latence des requêtes, à partir de l’application pour informer un modèle d’intégrité et pour détecter et prédire les problèmes.

  • Utilisez la surveillance des boîtes noires pour mesurer les services de plateforme et l’expérience client résultante. La surveillance de la boîte noire teste le comportement des applications visible de l’extérieur sans connaître les éléments internes du système. Cette approche est courante pour mesurer les indicateurs de niveau de service (SLO) centrés sur le client, les objectifs de niveau de service (SLO) et les contrats de niveau de service (SLA).

Notes

Pour plus d’informations sur l’analyse des applications, consultez Modèle d’analyse du point de terminaison d’intégrité.

Surveiller les données et le stockage

  • Surveillez les métriques de disponibilité de vos conteneurs de stockage. Lorsque cette métrique descend en dessous de 100 %, elle indique que les écritures échouent. Des baisses temporaires de disponibilité peuvent se produire lorsque votre fournisseur de cloud gère la charge. Suivez les tendances de disponibilité pour déterminer s’il existe un problème avec votre charge de travail.

    Dans certains cas, une baisse des métriques de disponibilité d’un conteneur de stockage indique un goulot d’étranglement dans la couche de calcul associée au conteneur de stockage.

  • Il existe de nombreuses métriques à surveiller pour les bases de données. Dans le contexte de la fiabilité, les métriques importantes à surveiller sont les suivantes :

    • Durée de la requête

    • Délais d’expiration

    • Temps d’attente

    • Sollicitation de la mémoire

    • Verrous

Animation Azure

  • Azure Monitor est une solution de supervision complète utilisée pour collecter, analyser et répondre aux données de supervision à partir de vos environnements cloud et locaux.

  • Log Analytics est un outil dans le Portail Azure utilisé pour modifier et exécuter des requêtes de journal sur des données dans l’espace de travail Log Analytics.

  • Application Insights est une extension d’Azure Monitor. Il fournit des fonctionnalités de surveillance des performances des applications (APM).

  • Azure Monitor Insights est un outil d’analytique avancé qui permet de surveiller les services Azure, tels que les machines virtuelles, les services d’application et les conteneurs. Les insights sont basés sur Azure Monitor et Log Analytics.

  • Azure Monitor pour solutions SAP est un produit de supervision Azure natif pour les paysages SAP qui s’exécutent sur Azure.

  • Azure Policy aide à appliquer les normes organisationnelles et à évaluer la conformité à grande échelle.

  • Azure Business Continuity Center vous donne des insights sur votre patrimoine de continuité d’activité. Lorsque vous appliquez les approches fournies pour la continuité d’activité et la récupération d’urgence (BCDR), utilisez Azure Business Continuity Center pour centraliser la gestion de la protection de la continuité d’activité sur les charges de travail Azure et hybrides. Azure Business Continuity Center identifie les ressources qui ne disposent pas d’une protection appropriée (via la sauvegarde ou la récupération d’urgence) et prend des mesures correctives. L’outil facilite la surveillance unifiée et vous permet d’établir la gouvernance et l’audit de la conformité par le biais de Azure Policy, le tout facilement accessible en un seul emplacement.

  • Pour connaître les meilleures pratiques relatives à plusieurs espaces de travail, consultez Concevoir une architecture d’espace de travail Log Analytics.

Exemple

Pour obtenir des exemples de solutions de supervision réelles, consultez Supervision des applications web sur Azure et Architecture de base de référence pour un cluster Azure Kubernetes Service.

  • Azure Monitor Baseline Alerts (AMBA) est un référentiel central de définitions d’alerte que les clients et les partenaires peuvent utiliser pour améliorer leur expérience d’observabilité grâce à l’adoption d’Azure Monitor.

Liste de contrôle de fiabilité

Reportez-vous à l’ensemble complet de recommandations.