Partager via


Recommandations pour la conception d’une stratégie de surveillance et d’alerte fiable

S’applique à cette recommandation de liste de contrôle de fiabilité d’Azure Well-Architected Framework :

RE :10 Mesurez et publiez les indicateurs d’intégrité de la solution. Capturez en permanence le temps de fonctionnement et d’autres données de fiabilité à partir de l’ensemble de la charge de travail, ainsi que des composants individuels et des flux de clés.

Ce guide décrit les recommandations relatives à la conception d’une stratégie de surveillance et d’alerte fiable. Implémentez cette stratégie pour informer vos équipes opérationnelles de l’état d’intégrité de votre environnement et vous assurer que vous respectez les objectifs de fiabilité établis pour votre charge de travail.

Définitions

Terme Définition
Métriques Valeurs numériques collectées à intervalles réguliers. Les métriques décrivent certains aspects d’un système à un moment donné.
Journaux d’activité de ressources Données générées par un système. Il fournit des informations sur l’état du système.
Traces Données qui fournissent des informations sur le chemin d’accès qu’une demande transite par les services et les composants.

Stratégies de conception

Avant de créer une stratégie de surveillance et d’alerte, effectuez les tâches suivantes pour votre charge de travail dans le cadre de votre planification de la fiabilité :

Créez une stratégie de surveillance et d’alerte pour vous assurer que votre charge de travail fonctionne de manière fiable. Une stratégie de surveillance et d’alerte permet de sensibiliser vos équipes opérationnelles afin qu’elles soient averties des modifications apportées à la condition de votre charge de travail et puissent rapidement résoudre les problèmes. Créez une stratégie de surveillance robuste et fiable en créant un modèle d’intégrité pour vos flux critiques et les composants que ces flux critiques comprennent. Le modèle d’intégrité définit des états sains, détériorés et non sains. Concevez votre posture opérationnelle pour intercepter immédiatement les changements dans ces états. Lorsque les états d’intégrité passent de sain à détérioré ou non sain, les mécanismes d’alerte déclenchent les mesures correctives automatiques et avertit les équipes appropriées.

Implémentez les recommandations suivantes pour concevoir une stratégie de surveillance et d’alerte qui répond aux exigences de votre entreprise.

Implémenter une stratégie de supervision globale

  • Comprendre la différence entre les métriques, les journaux et les traces.

  • Activez la journalisation pour toutes les ressources cloud. Utilisez l’automatisation et la gouvernance dans vos déploiements pour activer la journalisation des diagnostics dans votre environnement.

  • Transférez tous les journaux de diagnostic vers un récepteur de données centralisé et une plateforme d’analytique, comme un espace de travail Log Analytics. Si vous avez des exigences régionales de souveraineté des données, vous devez utiliser des récepteurs de données locaux dans les régions soumises à ces exigences.

Compromis : il existe des implications sur le coût pour le stockage et l’interrogation des journaux. Notez comment votre analyse des journaux et votre rétention affectent votre budget et déterminez le meilleur équilibre de l’utilisation pour répondre à vos besoins. Pour plus d’informations, consultez Les meilleures pratiques pour l’optimisation des coûts.

  • Si vos charges de travail sont soumises à une ou plusieurs infrastructures de conformité, certains journaux de composants qui gèrent les informations sensibles sont également soumis à ces frameworks. Envoyez les journaux de composants appropriés à un système SIEM (Security Information and Event Management), comme Microsoft Sentinel.

  • Créez une stratégie de rétention des journaux qui incorpore les exigences de rétention à long terme que les frameworks de conformité imposent à votre charge de travail.

  • Utilisez la journalisation structurée pour tous les messages de journal pour optimiser l’interrogation des données du journal.

  • Configurez les alertes à déclencher lorsque les valeurs passent des seuils critiques qui sont corrélés à un changement d’état du modèle d’intégrité, comme vert à jaune ou rouge.

    La configuration de seuil est une pratique d’amélioration continue. À mesure que votre charge de travail évolue, les seuils que vous définissez peuvent changer. Dans certains cas, les seuils dynamiques constituent une bonne option pour votre stratégie de surveillance.

  • Envisagez d’utiliser des alertes lorsque les états s’améliorent, tels que le rouge vers le jaune ou le rouge vers le vert, afin que les équipes d’opérations puissent suivre ces événements à des fins de référence ultérieure.

  • Visualisez l’intégrité en temps réel de votre environnement.

  • Utilisez les données collectées pendant les incidents pour améliorer continuellement vos modèles d’intégrité et votre stratégie de surveillance et d’alerte.

  • Incorporer des services de supervision et d’alerte de plateforme cloud, notamment :

  • Incorporez la supervision et l’analytique avancées conçues par votre fournisseur de cloud, comme les outils d’insight Azure Monitor.

  • Implémentez la surveillance de la sauvegarde et de la récupération pour capturer :

    • État de réplication des données pour vous assurer que votre charge de travail obtient une récupération dans l’objectif de point de récupération cible (RPO).

    • Sauvegardes et récupérations réussies et ayant échoué.

    • Durée de récupération pour informer votre planification de la reprise d’activité.

Surveillance des applications

  • Créez des sondes d’intégrité ou vérifiez des fonctions et exécutez-les régulièrement à partir de l’extérieur de l’application. Vérifiez que vous testez à partir de plusieurs emplacements qui sont géographiquement proches de vos clients.

  • Journaliser les données pendant l’exécution de l’application dans l’environnement de production. Vous avez besoin d’informations suffisantes pour diagnostiquer la cause des problèmes dans l’état de production.

  • Journalisation des événements au niveau des limites de service. Vous devez inclure un ID de corrélation qui franchit les limites de service. Si une transaction transite par plusieurs services et qu’une d’entre elles échoue, l’ID de corrélation vous aide à suivre les demandes dans votre application et à identifier la raison pour laquelle la transaction a échoué.

  • Utiliser une journalisation asynchrone. Les opérations de journalisation synchrones bloquent parfois le code de votre application, ce qui entraîne la sauvegarde des demandes en tant que journaux d’activité. Utilisez une journalisation asynchrone pour préserver la disponibilité lors de la journalisation de l’application.

  • Séparer la journalisation de l’audit de l’application. Des enregistrements d’audit sont généralement conservés afin de pouvoir répondre à des exigences de conformité ou réglementaires, et doivent être complets. Pour éviter les transactions supprimées, conservez les journaux d’audit distincts des journaux de diagnostic.

  • Utilisez la corrélation de télémétrie pour vous assurer que vous pouvez mapper des transactions via l’application de bout en bout et les flux système critiques. Ce processus est essentiel pour effectuer une analyse de cause racine (RCA) pour les défaillances. Collectez des métriques et des journaux au niveau de la plateforme, tels que le pourcentage d’UC, le réseau entrant, le réseau sortant et les opérations de disque par seconde, de l’application pour informer un modèle d’intégrité et détecter et prédire les problèmes. Cette approche peut aider à faire la distinction entre les erreurs temporaires et nontransientes.

  • Utilisez la surveillance de la boîte blanche pour instrumenter l’application avec des journaux et des métriques sémantiques. Collectez des métriques et des journaux au niveau de l’application, tels que la consommation de mémoire ou la latence des requêtes, de l’application pour informer un modèle d’intégrité et détecter et prédire les problèmes.

  • Utilisez la surveillance de boîte noire pour mesurer les services de plateforme et l’expérience client résultante. La surveillance de la boîte noire teste le comportement des applications visible de l’extérieur sans connaître les éléments internes du système. Cette approche est courante pour mesurer les indicateurs de niveau de service centrés sur le client ( SLA), les objectifs de niveau de service (SLA) et les contrats de niveau de service (SLA).

Remarque

Pour plus d’informations sur la surveillance des applications, consultez le modèle de supervision des points de terminaison d’intégrité.

Surveiller les données et le stockage

  • Surveillez les métriques de disponibilité de vos conteneurs de stockage. Lorsque cette métrique tombe en dessous de 100 %, elle indique l’échec des écritures. Des baisses temporaires de disponibilité peuvent se produire lorsque votre fournisseur de cloud gère la charge. Suivez les tendances de disponibilité pour déterminer s’il existe un problème avec votre charge de travail.

    Dans certains cas, une baisse des métriques de disponibilité d’un conteneur de stockage indique un goulot d’étranglement dans la couche de calcul associée au conteneur de stockage.

  • Il existe de nombreuses métriques à surveiller pour les bases de données. Dans le contexte de la fiabilité, les métriques importantes à surveiller sont les suivantes :

    • Durée de la requête

    • Délais d'attente

    • Temps d’attente

    • Sollicitation de la mémoire

    • Verrous

Facilitation Azure

  • Azure Monitor est une solution de supervision complète utilisée pour collecter, analyser et répondre aux données de surveillance à partir de vos environnements cloud et locaux.

  • Log Analytics est un outil du Portail Azure utilisé pour modifier et exécuter des requêtes de journal sur des données dans l’espace de travail Log Analytics.

  • Application Insights est une extension d’Azure Monitor. Il fournit des fonctionnalités de surveillance des performances des applications (APM).

  • Azure Monitor Insights est des outils d’analyse avancés qui permettent de surveiller les services Azure, tels que les machines virtuelles, les services d’application et les conteneurs. Les insights sont basés sur Azure Monitor et Log Analytics.

  • Azure Monitor pour solutions SAP est un produit de supervision Azure natif pour les paysages SAP qui s’exécutent sur Azure.

  • Azure Policy aide à appliquer les normes organisationnelles et à évaluer la conformité à grande échelle.

  • Azure Business Continuity Center vous donne des informations sur votre patrimoine de continuité d’activité. À mesure que vous appliquez les approches fournies pour la continuité d’activité et la récupération d’urgence (BCDR), utilisez Azure Business Continuity Center pour centraliser la gestion de la protection de la continuité d’activité entre les charges de travail Azure et hybrides. Azure Business Continuity Center identifie les ressources qui n’ont pas de protection appropriée (via la sauvegarde ou la récupération d’urgence) et effectue des actions correctives. L’outil facilite la supervision unifiée et vous permet d’établir la conformité de la gouvernance et de l’audit par le biais d’Azure Policy, tous accessibles facilement dans un seul emplacement.

  • Pour connaître les meilleures pratiques relatives à plusieurs espaces de travail, consultez Concevoir une architecture d’espace de travail Log Analytics.

Exemple

Pour obtenir des exemples de solutions de supervision réelles, consultez la supervision des applications web sur l’architecture Azure et de référence pour un cluster Azure Kubernetes Service.

  • Les alertes de référence Azure Monitor (AMBA) sont un référentiel central de définitions d’alerte que les clients et les partenaires peuvent utiliser pour améliorer leur expérience d’observabilité grâce à l’adoption d’Azure Monitor.

Liste de contrôle de fiabilité

Reportez-vous à l’ensemble complet de recommandations.