Partager via


Recommandations pour la conception et la création d’un système de surveillance

S’applique à cette recommandation de liste de contrôle Excellence opérationnelle Power Platform Well-Architected :

OE:06 Concevez et mettez en œuvre un système de surveillance pour valider les choix de conception et éclairer les futures décisions de conception et commerciales. Ce système capture et expose la télémétrie opérationnelle, les mesures et les journaux émis par la charge de travail.

Ce guide décrit Recommandations pour la conception et la création d’un système de surveillance. Pour surveiller efficacement votre charge de travail en termes de sécurité, de performances et de fiabilité, vous avez besoin d’un système complet doté de sa propre pile qui constitue la base de toutes les fonctions de surveillance, de détection et d’alerte.

Définitions

Terme Définition
Journaux Événements système enregistrés. Les journaux peuvent contenir différents types de données dans un format texte structuré ou libre. Ils contiennent un horodatage.
Mesures Valeurs numériques collectées à intervalles réguliers. Les métriques décrivent certains aspects d’un système à un moment donné.

Stratégies de conception clés

Pour mettre en œuvre une conception de système de surveillance complète pour votre charge de travail, suivez ces principes fondamentaux :

  • Dans la mesure du possible, profitez des outils de surveillance fournis par la plateforme, qui nécessitent généralement peu de configuration et peuvent fournir des informations approfondies sur votre charge de travail qui pourraient autrement être difficiles à réaliser.

  • Collectez les journaux et les métriques de l’ensemble de la pile de charges de travail. Tous les composants et ressources low code et code first doivent être configurés pour produire des données standardisées et significatives, et ces données doivent être collectées.

  • Stockez les données collectées dans une solution de stockage standardisée, fiable et sécurisée.

  • Traiter les données stockées afin qu’elles puissent être traitées par des solutions d’analyse et de visualisation.

  • Analysez les données traitées pour déterminer avec précision l’état de la charge de travail.

  • Visualisez l’état de la charge de travail dans des tableaux de bord ou des rapports significatifs pour les équipes chargées de la charge de travail et les autres parties prenantes.

  • Configurez des alertes exploitables et d’autres réponses automatiques à des seuils intelligemment définis pour avertir les équipes chargées de la charge de travail lorsque des problèmes surviennent.

  • Incluez des systèmes de surveillance et d’alerte dans vos pratiques globales de test de charge de travail.

  • Assurez-vous que les systèmes de surveillance et d’alerte font l’objet d’une amélioration continue. Le comportement des applications et des configurations en production offre des opportunités d’apprentissage continu. Intégrez ces leçons dans les conceptions de surveillance et d’alerte.

  • Reliez les données de surveillance que vous collectez et analysez à votre flux système et utilisateurs pour corréler la santé des flux avec les données en plus de la santé globale de la charge de travail. L’analyse de ces données en termes de flux vous aidera à aligner votre stratégie d’observabilité sur votre modèle de santé.

  • Minimisez le stockage de toute information identifiable pour garantir que vous respectez les lois et réglementations. Si vous devez stocker des informations identifiables, veillez, lors de la conception de votre solution, à prendre en compte les exigences permettant aux individus de demander la suppression de leurs informations.

  • N’enregistrez jamais les mots de passe des utilisateurs ou d’autres informations qui pourraient être utilisées pour commettre une fraude d’identité. Supprimez ces détails des données avant qu’elles ne soient stockées. Les exigences réglementaires peuvent imposer que les informations collectées à des fins d’audit et de sécurité doivent être archivées et sauvegardées. Ces données sont également sensibles et peuvent devoir être cryptées ou autrement protégées pour éviter toute falsification.

Vous devez automatiser autant que possible toutes les fonctions du système de surveillance, et elles doivent toutes fonctionner en continu, toute la journée, tous les jours.

Ce pipeline de workflow illustre le système de surveillance :

Diagramme qui montre les étapes d’un système de surveillance complet sous forme de pipeline.

Collection

Vous devez configurer tous les composants de la charge de travail, qu’il s’agisse de composants low-code, code-first ou de paramètres de plate-forme tels que les environnements et les politiques, pour capturer la télémétrie et/ou les événements tels que les journaux et les métriques.

Les journaux sont principalement utiles pour détecter et enquêter sur les anomalies. En règle générale, les journaux sont produits par le composant de charge de travail, puis envoyés à la plateforme de surveillance ou extraits par la plateforme de surveillance via l’automatisation.

Les métriques sont principalement utiles pour construire un modèle de santé et identifier les tendances en matière de performances et de fiabilité des charges de travail. Les métriques sont également utiles pour identifier les tendances dans le comportement d’utilisation de vos utilisateurs. Ces tendances peuvent aider à orienter les décisions concernant les améliorations du point de vue du client. En règle générale, les métriques sont définies dans la plateforme de surveillance, et la plateforme de surveillance et d’autres outils interrogent la charge de travail pour capturer les métriques.

Données sur la charge de travail

Utilisez l’intégration prête à l’emploi avec Application Insights pour collecter des données. Une fois Application Insights activé, vous pouvez obtenir une visibilité claire sur les événements importants, à la fois en temps réel et dans l’historique.

Les journaux d’application prennent en charge le cycle de vie des applications de bout en bout. La journalisation est essentielle pour comprendre comment l’application fonctionne dans divers environnements, quels événements se produisent et dans quelles conditions ils se produisent.

Nous vous recommandons de collecter les journaux et événements des applications dans tous les principaux environnements. Séparez autant que possible les données entre les environnements en utilisant des magasins de données différents pour chaque environnement, si cela est pratique. Utilisez des filtres pour garantir que les environnements non critiques ne compliquent pas l’interprétation des journaux de production. Enfin, les entrées de journal correspondantes dans l’application doivent capturer un ID de corrélation pour leurs transactions respectives.

Infrastructure et configuration des données

Pour les ressources d’infrastructure de votre charge de travail, assurez-vous de collecter à la fois les journaux et les métriques. Comme Power Platform il s’agit d’une offre de plateforme en tant que service (PaaS), votre capacité à capturer les journaux liés à l’infrastructure sous-jacente peut être limitée. Vous pouvez toutefois capturer des journaux et des analyses sur les modifications de configuration et de stratégie liées à l’intégrité et aux incidents de la charge de travail.

Dans la mesure du possible, collectez les journaux de votre plateforme cloud. Vous pourrez peut-être collecter des journaux d’activité pour votre abonnement et des journaux de diagnostic pour le plan de gestion.

Considérations relatives aux performances

Une application complexe et hautement évolutive peut générer d’énormes volumes de données. La quantité de données peut entraîner des problèmes de performances en fonction du degré de détail du suivi au niveau de l’application. La solution de télémétrie ne doit pas constituer un goulot d’étranglement et doit être évolutive à mesure que le système se développe.

Analyse

Après avoir collecté des données provenant de diverses sources de données, analysez-les pour évaluer le bien-être global du système. Pour cette analyse, ayez une compréhension claire de :

  • Comment structurer les données en fonction d’indicateurs de performance clés (KPI) et d’autres mesures de performance que vous avez définies.
  • Comment corréler les données capturées dans différentes métriques et fichiers journaux. Cette corrélation est importante lorsque vous suivez une séquence d’événements et peut vous aider à diagnostiquer les problèmes.

Dans la plupart des cas, votre charge de travail comportera différents composants et les journaux ou événements seront capturés dans différents formats ou tableaux. Vous devrez combiner avec précision les données pour mieux comprendre l’état global de la charge de travail.

Par exemple, votre Power Platform solution pourrait consister à

  • Une application canevas qui permet aux utilisateurs d’interagir avec les données.
  • Une application basée sur un modèle qui permet aux administrateurs de configurer les paramètres de l’application.
  • Un flux cloud qui effectue des opérations de données.
  • Une Dataverse instance qui stocke les données associées à l’opération.
  • Une fonction Azure qui récupère les données du stockage Azure Table et est appelée depuis l’application.

Les données d’utilisation pour une seule opération commerciale peuvent couvrir tous les composants de la charge de travail. Ces informations doivent être corrélées pour fournir une vue globale de l’utilisation des ressources et du traitement pour l’opération.

Recommandations pour l’analyse des données

Corrélez les journaux au niveau de l’application et au niveau des ressources. Évaluez les données aux deux niveaux pour optimiser la détection des problèmes et le dépannage de ces problèmes.

Définissez des temps de rétention clairs lors du stockage pour l’analyse à froid. Nous recommandons cette pratique pour permettre une analyse historique sur une période spécifique. Cela peut également vous aider à contrôler les coûts de stockage. Mettez en œuvre des processus garantissant que les données sont archivées dans un stockage moins cher et regroupez les données pour une analyse des tendances à long terme.

Analysez les tendances à long terme pour prédire les problèmes opérationnels. Évaluez les données à long terme pour élaborer des stratégies opérationnelles et également pour prédire quels problèmes opérationnels sont susceptibles de survenir et à quel moment. Par exemple, vous remarquerez peut-être que les temps de réponse moyens augmentent lentement avec le temps et se rapprochent de l’objectif maximum.

Visualisation

La visualisation dans la surveillance de l’état de santé est essentielle pour comprendre l’état de la charge de travail. La visualisation peut vous aider à identifier rapidement les problèmes et les tendances, et peut également vous aider à comprendre l’impact des modifications que vous apportez à la charge de travail.

Tableaux bord

La manière la plus courante de visualiser les données consiste à utiliser des tableaux de bord qui peuvent afficher les informations sous la forme d’une série de tableaux ou de graphiques. Ces éléments peuvent être paramétrés et un analyste peut sélectionner les paramètres importants, comme la période de temps, pour toute situation spécifique.

Alignez vos tableaux de bord sur votre modèle d’intégrité afin qu’ils indiquent quand la charge de travail ou les composants de la charge de travail sont sains, dégradés ou malsains.

Pour qu’un système de tableau de bord fonctionne efficacement, il doit être significatif pour l’équipe chargée de la charge de travail. Visualisez les informations relatives à l’état de la charge de travail et qui sont également exploitables. Lorsque la charge de travail ou un composant est dégradé ou malsain, les membres de l’équipe chargée de la charge de travail doivent être en mesure d’identifier facilement l’origine du problème dans la charge de travail et de commencer leurs actions correctives ou leurs enquêtes. À l’inverse, inclure des informations qui ne sont pas exploitables ou qui ne sont pas liées à l’état de la charge de travail peut rendre le tableau de bord inutilement complexe et frustrant pour les membres de l’équipe qui tentent de distinguer le bruit de fond des données exploitables.

Vous pouvez disposer de tableaux de bord pour les parties prenantes ou les développeurs qui sont personnalisés pour afficher uniquement les données sur la charge de travail qu’ils jugent pertinentes. Assurez-vous que l’équipe chargée de la charge de travail comprend les types de points de données que les autres équipes souhaitent voir et prévisualise les tableaux de bord avant de les partager pour vérifier leur clarté. Fournir des tableaux de bord sur votre charge de travail aux parties prenantes est un bon moyen de les tenir informés de l’état de la charge de travail, mais comporte un risque d’être contre-productif si les parties prenantes ne comprennent pas clairement les données qu’elles voient.

Note

Restreindre l’accès au tableau de bord au personnel autorisé. Les informations sur les tableaux de bord peuvent être sensibles. Vous devez également protéger les données sous-jacentes pour empêcher les utilisateurs de les modifier.

Signalement

Le reporting est utilisé pour générer une vue globale du système. Il peut incorporer des données historiques et des informations actuelles. Les exigences en matière de reporting se répartissent en deux grandes catégories : les rapports opérationnels et les rapports de sécurité.

Les rapports opérationnels comprennent généralement :

  • Agrégation de statistiques que vous pouvez utiliser pour comprendre l’utilisation des ressources du système global ou des sous-systèmes spécifiés pendant une fenêtre de temps spécifiée.
  • Identifier les tendances d’utilisation des ressources pour le système global ou des sous-systèmes spécifiés au cours d’une période spécifiée.
  • Surveillance des exceptions survenues dans l’ensemble du système ou dans des sous-systèmes spécifiés pendant une période spécifiée.
  • Déterminer l’efficacité de l’application pour les ressources déployées et comprendre si le volume des ressources et leurs coûts associés peuvent être réduits sans affecter inutilement les performances.

Les rapports de sécurité suivent l’utilisation du système par les clients. Il peut inclure :

  • Audit des opérations des utilisateurs. Cette tâche nécessite d’enregistrer les demandes individuelles que chaque utilisateur effectue, ainsi que les dates et heures. Les données doivent être structurées pour permettre à un Administrateur de reconstruire rapidement la séquence d’opérations qu’un utilisateur effectue au cours d’une période spécifiée.
  • Suivi de l’utilisation des ressources par l’utilisateur. Cette tâche nécessite d’enregistrer comment chaque requête d’un utilisateur accède aux différentes ressources qui composent le système, et pendant combien de temps. Un Administrateur peut utiliser ces données pour générer un rapport d’utilisation, par utilisateur, pour une période déterminée, éventuellement à des fins de facturation.

Alertes

Pour garantir que le système reste sain, réactif et sécurisé, définissez des alertes afin que les opérateurs puissent y répondre en temps opportun. Une alerte peut contenir suffisamment d’informations contextuelles pour les aider à démarrer rapidement les activités de diagnostic.

Recommandations alertes

  • Définissez un processus de réponse aux alertes qui identifie les propriétaires et les actions responsables.
  • Configurez les alertes pour une portée bien définie et ajustez la verbosité pour minimiser le bruit.
  • Utilisez une solution d’alerte automatisée, comme Splunk ou Azure Monitor, au lieu d’obliger les utilisateurs à rechercher activement les problèmes.
  • Utilisez des alertes pour opérationnaliser les processus de remédiation. Par exemple, créez automatiquement des tickets pour suivre les problèmes et les résolutions.

Seuils

Des alertes sont générées lorsque les seuils sont franchis, tels que détectés par votre système de surveillance. Assurez-vous que les seuils que vous définissez vous laissent généralement suffisamment de temps pour mettre en œuvre les modifications nécessaires à votre charge de travail afin d’éviter toute dégradation ou panne. Vous devez également mettre en œuvre la gestion des erreurs nécessaire et détecter les erreurs connues dans votre charge de travail afin de réduire le nombre d’alertes. Par exemple, configurez des stratégies de nouvelle tentative pour vos actions dans les flux cloud afin qu’une nouvelle tentative soit tentée dans le cadre de l’exécution du flux, et uniquement si les tentatives répétées échouent et que l’échec du flux est enregistré et qu’une alerte est envoyée.

Pour obtenir des conseils détaillés sur les cas d’utilisation des alertes et d’autres considérations, consultez les Recommandations pour la conception d’une stratégie de surveillance et d’alerte fiable.

Facilitation de Power Platform

Power Platform s’intègre à Application Insights, qui fait partie de l’écosystème Azure Monitor. Utilisez cette intégration pour :

  • Recevoir la télémétrie sur les diagnostics et les performances capturées par la plateforme Dataverse dans Application Insights. Vous pouvez vous abonner pour recevoir la télémétrie sur les opérations que les applications effectuent sur votre base de données Dataverse et dans les applications basées sur des modèles. Cette télémétrie fournit des informations que vous pouvez utiliser pour diagnostiquer et résoudre les problèmes liés aux erreurs et aux performances.

  • Connectez vos applications canevas à Application Insights. Vous pouvez utiliser ces analyses pour diagnostiquer les problèmes et comprendre ce que les utilisateurs font avec vos applications. Vous pouvez collecter des informations pour vous aider à prendre de meilleures décisions commerciales et à améliorer la qualité de vos applications.

  • Configurer la télémétrie Power Automate pour les flux dans Application Insights. Par exemple, pour surveiller les exécutions de flux de cloud et créer des alertes pour les échecs d’exécution de flux de cloud.

Les ressources Power Platform consignent les activités dans le portail de conformité Microsoft Purview. La plupart des événements sont disponibles dans les 24 heures suivant l’activité. N’utilisez pas ces informations pour la surveillance en temps réel. Pour plus d’informations sur la consignation des activités dans Power Platform, voir :

Ton Power Platform la charge de travail peut inclure des ressources Azure. Pour en savoir plus sur les recommandations de surveillance des ressources Azure, consultez Recommandations pour la conception et la création d’un système de surveillance.

Le Starter Kit CoE Power Platform est une implémentation de référence qui contient une collection de composants et d’outils conçus pour vous aider à commencer à développer une stratégie pour l’adoption et la prise en charge de Power Platform. Le kit de démarrage CoE comprend un riche ensemble de tableaux de bord pour vous aider à mieux comprendre votre adoption et votre utilisation de Power Platform.

Le kit d’automatisation Power Platform est un ensemble d’outils qui accélèrent l’utilisation et la prise en charge de Power Automate pour le bureau pour les projets d’automatisation. Le kit fournit des outils qui vous aident à gérer les projets d’automatisation et à les surveiller pour estimer les économies réalisées et le retour sur investissement (ROI). Le centre de contrôle, qui fait partie du kit d’automatisation, complète les exécutions de flux de bureau Monitor existantes. La priorité du centre de contrôle est une vue d’orchestrateur permettant aux analystes du support et aux organisations de surveiller, de prendre des mesures et d’alerter si nécessaire.

Voir aussi

Liste de contrôle d’excellence opérationnelle

Référez-vous à l’ensemble complet des recommandations.