Recommandations pour la conception d’une stratégie de surveillance et d’alerte fiable

Article
05/16/2024

S’applique à cette recommandation de liste de contrôle Fiabilité Power Platform Well-Architected :

RE:08	Mesurez et publiez les indicateurs d’état de la solution. Capturez en continu les données de disponibilité et d’autres données de fiabilité sur l’ensemble de la charge de travail, ainsi que sur les composants individuels et les flux clés.

Ce guide décrit Recommandations pour la conception d’un stratégie de surveillance et d'alerte. Mettez en œuvre cette stratégie pour tenir vos équipes opérationnelles informées de l’état de santé de votre environnement et vous assurer que vous atteignez les objectifs de fiabilité établis pour votre charge de travail.

Définitions

Terme	Définition
Mesures	Valeurs numériques collectées à intervalles réguliers. Les métriques décrivent certains aspects d’un système à un moment donné.
Journaux de ressource	Données générées par un système sur l’état du système.
Suivis	Données qui fournissent des informations sur le chemin parcouru par une requête à travers les services et les composants.

Stratégies de conception clés

Avant de créer une stratégie de surveillance et d’alerte, effectuez les tâches suivantes pour votre charge de travail dans le cadre de votre planification de la fiabilité :

Identifier les flux critiques et non critiques.
Effectuer une analyse du mode d’échec (FMA) pour vos flux.
Identifier les objectifs de fiabilité.
Concevoir une stratégie de tests robuste

Créez une stratégie de surveillance et d’alerte pour sensibiliser vos équipes opérationnelles afin qu’elles soient informées des changements dans l’état de votre charge de travail et puissent résoudre rapidement les problèmes. Le modèle d’intégrité de vos flux critiques et des charges de travail qui incluent des flux critiques doit définir des états sains, dégradés et malsains. Concevez votre posture de surveillance pour détecter immédiatement les changements dans ces états. Lorsque l’état de santé passe de sain à dégradé ou malsain, les mécanismes d’alerte doivent déclencher des mesures de rétablissement automatiques et des alertes aux équipes responsables.

Mettez en œuvre les recommandations suivantes pour concevoir une stratégie de surveillance et d’alerte qui répond aux exigences de votre entreprise.

Conseils généraux

Comprendre la différence entre mesures, journaux et suivi.

Activez la journalisation pour toutes les ressources cloud. Utilisez l’automatisation et la gouvernance dans vos déploiements pour activer la journalisation des diagnostics dans tout votre environnement.

Transférez tous les journaux de diagnostic vers un récepteur de données et une plate-forme d’analyse centralisés, comme un espace de travail Log Analytics. Si vous avez des exigences régionales en matière de souveraineté des données, vous devez utiliser des récepteurs de données locaux dans les régions soumises à ces exigences.

Compromis: Implications de coût pour stockage et interroger journaux. Remarquez comment l’analyse et la conservation de vos journaux affectent votre budget et déterminez le meilleur équilibre d’utilisation pour répondre à vos besoins.

Si vos charges de travail sont soumises à un ou plusieurs cadres de conformité, certains des journaux de composants qui gèrent des informations sensibles sont également soumis à ces cadres. Envoyez les journaux des composants pertinents à un système d’informations de sécurité et gestion d’événement (SIEM), comme Microsoft Sentinel.

Créez une politique de conservation des journaux qui intègre les exigences de conservation à long terme que les cadres de conformité imposent à votre charge de travail.

Utilisez la journalisation structurée pour tous les messages de journal afin d’optimiser l’interrogation des données de journal.

Configurez les alertes pour qu’elles se déclenchent lorsque les valeurs dépassent les seuils critiques liés à un changement d’état du modèle de santé, comme le vert vers le jaune ou le rouge. La configuration des seuils est une pratique d’amélioration continue. À mesure que votre charge de travail évolue, les seuils que vous définissez peuvent changer.

Envisagez d’utiliser des alertes lorsque l’état s’améliore, comme du rouge au jaune ou du rouge au vert, afin que les équipes opérationnelles puissent suivre ces événements pour référence future.

Visualisez l’état en temps réel de votre environnement à l’aide de tableaux de bord personnalisés.

Utilisez les données collectées lors des incidents pour améliorer continuellement vos modèles de santé.

Intégrez des services de surveillance et d’alerte de la plate-forme cloud, y compris l’état de santé au niveau de la plate-forme.

Intégrez une surveillance et des analyses avancées spécialement conçues par votre fournisseur de cloud, comme les outils d’analyse Azure Monitor outils aperçus.

Mettez en œuvre une surveillance des sauvegardes et des restaurations pour capturer :

L’état de réplication des données pour garantir que votre charge de travail réalise une récupération dans les limites de l’objectif de point de récupération (RPO) cible.
Sauvegardes et récupérations réussies et échouées.
La durée de récupération pour éclairer votre planification de reprise après sinistre.

Surveillance d’applications

Enregistrez les données pendant que l’application s’exécute dans l’environnement de production. Vous avez besoin de suffisamment d’informations pour diagnostiquer la cause des problèmes en cours de production.

Enregistrez les événements aux limites du service. Incluez un ID de corrélation qui traverse les limites du service. Si une transaction transite par plusieurs services et que l’un d’entre eux échoue, l’ID de corrélation vous aide à suivre les demandes dans votre application et à identifier la raison de l’échec de la transaction.

Séparez la journalisation des applications de l’audit. Les dossiers d’audit sont généralement conservés pour des raisons de conformité ou d’exigences réglementaires et doivent être complets. Pour éviter les transactions abandonnées, conservez les journaux d’audit séparément des journaux de diagnostic.

Utilisez la surveillance en boîte blanche pour instrumenter l’application avec des journaux et des métriques sémantiques. Collectez des métriques et des journaux au niveau de l’application, tels que la consommation de mémoire ou la latence des demandes, à partir de l’application pour informer un modèle d’intégrité et pour détecter et prédire les problèmes.

Utilisez la surveillance par boîte noire pour mesurer les services de la plateforme et l’expérience client qui en résulte. Zone noire surveillance tests qui valide le comportement de l’application visible de l’extérieur sans connaissance des composants internes du système. Cette approche est courante pour mesurer les indicateurs de niveau de service (SLI), les objectifs de niveau de service (SLO) et les accords de niveau de service (SLA) centrés sur le client.

Surveiller données et Stockage

Surveillez les mesures de disponibilité de vos conteneurs de stockage. Lorsque cette métrique descend en dessous de 100 %, cela indique un échec d’écriture. Des baisses de disponibilité transitoires peuvent survenir lorsque votre fournisseur de cloud gère la charge. Suivez les tendances de disponibilité pour déterminer s’il y a un problème avec votre charge de travail. Dans certains cas, une baisse des métriques de disponibilité d’un conteneur de stockage indique un goulot d’étranglement dans la couche de calcul associée au conteneur de stockage.

Il existe de nombreuses mesures à surveiller pour les bases de données. Dans le contexte de la fiabilité, les mesures importantes à surveiller comprennent :

Durée de la requête
Délais d′expiration
Temps d’attente
Sollicitation de la mémoire
Verrous

Facilitation de Power Platform

Power Platform s’intègre à Application Insights, qui fait partie de l’écosystème Azure Monitor. Vous pouvez utiliser cette intégration pour :

Vous inscrire pour recevoir la télémétrie capturée par la plateforme Dataverse dans Application Insights sur les diagnostics, les performances et les opérations exécutées par les applications sur votre base de données Dataverse et dans les applications pilotées par modèle. Cette télémétrie fournit des informations que vous pouvez utiliser pour diagnostiquer et résoudre les problèmes liés aux erreurs et aux performances.
Connecter vos applications canevas à Application Insights pour utiliser ces analyses pour diagnostiquer les problèmes, comprendre ce que les utilisateurs font réellement avec vos applications, prendre de meilleures décisions commerciales et améliorer la qualité de vos applications.
Configurer la télémétrie Power Automate pour les flux dans Application Insights. Vous pouvez utiliser cette télémétrie pour surveiller les exécutions de flux de cloud et créer des alertes en cas d’échecs de l’exécution de flux de cloud.

Les ressources Power Platform consignent les activités dans le portail de conformité Microsoft Purview. La plupart des événements sont disponibles dans les 24 heures suivant l’activité. N’utilisez pas ces informations pour la surveillance en temps réel. Pour plus d’informations sur la consignation des activités dans Power Platform, voir :

Ton Power Platform la charge de travail peut inclure des ressources Azure. Pour en savoir plus sur les recommandations de surveillance des ressources Azure, consultez Recommandations pour la conception et la création d’un système de surveillance.

Le Starter Kit CoE Power Platform est une implémentation de référence qui contient une collection de composants et d’outils conçus pour vous aider à commencer à développer une stratégie pour l’adoption et la prise en charge de Power Platform. Le kit fournit une automatisation et des outils pour aider les équipes à créer la surveillance et l’automatisation nécessaires pour prendre en charge un CoE.

Voir aussi

Comment vérifier l’état de mon service en ligne ?

Liste de contrôle de fiabilité

Référez-vous à l’ensemble complet des recommandations.

Liste de contrôle de fiabilité

Partager via

Recommandations pour la conception d’une stratégie de surveillance et d’alerte fiable

Stratégies de conception clés

Conseils généraux

Surveillance d’applications

Surveiller données et Stockage

Facilitation de Power Platform

Voir aussi

Liste de contrôle de fiabilité

Commentaires

Commentaires

Ressources supplémentaires