Recommandations pour la conception d’une stratégie d’intervention d’urgence

Article
09/11/2024

S’applique à cette recommandation de liste de contrôle Excellence opérationnelle Power Platform Well-Architected :

OE:07

Développez une pratique efficace des opérations d’urgence. Assurez-vous que votre charge de travail émet des signaux d’état significatifs. Collectez les données résultantes et utilisez-les pour générer des alertes exploitables qui mettent en œuvre des réponses d’urgence via des tableaux de bord et des requêtes. Définissez clairement les responsabilités humaines, telles que les rotations à la demande, la gestion des incidents, l’accès aux ressources d’urgence et la réalisation d’analyses restrospectives.

Ce guide décrit les recommandations pour concevoir une stratégie d’intervention d’urgence. Certaines de vos charges de travail peuvent être critiques, et les problèmes qui surviennent au cours du cycle de vie d’une charge de travail peuvent être suffisamment graves pour justifier de les déclarer d’urgence. Vous pouvez mettre en œuvre des processus et des procédures étroitement contrôlés et ciblés que votre équipe peut suivre pour garantir qu’un problème est traité de manière calme et ordonnée. Les situations d’urgence augmentent naturellement les niveaux de stress de chacun et peuvent générer un environnement chaotique si votre équipe n’est pas bien préparée. Pour aider à réduire le stress et la confusion, concevez une stratégie d’intervention, partagez-la avec votre organisation et suivez régulièrement une formation sur les interventions d’urgence.

Stratégies de conception clés

Une stratégie d’intervention d’urgence doit être un ensemble bien défini de processus et de procédures. Chaque processus et procédure doit comporter des scripts pour s’assurer que chaque étape fait progresser votre équipe vers une résolution rapide et sûre d’un problème. Pour élaborer une stratégie d’intervention d’urgence, considérez la vue d’ensemble suivante :

Conditions préalables
- Développer un système de surveillance
- Créer un plan de réponse aux incidents
Phases de l’incident
- Détection et confinement
- Triage
Phases postérieures à l’incident
- Analyse des causes profondes (RCA)
- Post-mortem
Activité en cours
- Exercices d’intervention d’urgence

Les sections suivantes fournissent des recommandations pour chacune de ces phases.

Système de surveillance

Pour disposer d’une stratégie d’intervention d’urgence robuste, vous devez disposer d’un système de surveillance robuste, ou d’une plateforme d’observabilité. Votre plateforme d’observabilité doit avoir les caractéristiques suivantes :

Surveillance globale : assurez-vous de surveiller minutieusement votre charge de travail du point de vue de la configuration et de l’application, et incluez la surveillance de l’infrastructure si les composants de votre charge de travail sont hébergés dans le cloud ou en local. Assurez-vous que tous les composants de votre charge de travail sont couverts par votre stratégie de surveillance. Par exemple, si votre charge de travail interagit avec des ressources Azure ou un système local, incluez ces composants dans votre surveillance.
Journalisation détaillée : activez la journalisation détaillée pour vos composants afin de faciliter les investigations lorsque vous triez un problème. Structurez les journaux de manière à ce qu’ils soient faciles à gérer. Envoyez automatiquement les journaux aux récepteurs de données pour les préparer à l’analyse.
Tableaux de bord utiles : créez des tableaux de bord basés sur votre modèle d’intégrité qui sont adaptés à chaque équipe de votre organisation. Différentes équipes sont responsables de différents aspects de l’intégrité de la charge de travail.
Alertes exploitables : créez des alertes utiles pour vos équipes de la charge de travail. Évitez les alertes qui ne nécessitent aucune action de la part de vos équipes. Trop d’alertes de ce type peuvent amener les utilisateurs à ignorer ou à bloquer les notifications d’alerte.
Notifications automatiques : assurez-vous que les équipes appropriées reçoivent automatiquement les alertes qui nécessitent une action de leur part. Par exemple, votre équipe de support de niveau 1 doit recevoir des notifications pour toutes les alertes, tandis que vos ingénieurs en sécurité ne doivent recevoir des alertes que pour les événements de sécurité.

Pour en savoir plus, consultez Recommandations pour la conception et la création d’un cadre de surveillance.

Plan de réponse aux incidents

La base d’une stratégie d’intervention d’urgence est un plan de réponse aux incidents. Comme pour un plan de reprise après sinistre, définissez clairement et minutieusement les rôles, les responsabilités et les procédures d’intervention en cas d’incident. Le plan doit être un document avec contrôle de version qui est soumis à des révisions régulières pour garantir sa mise à jour.

Définissez clairement les composants suivants dans votre plan.

Rôles

Identifiez un responsable de la réponse aux incidents. Cette personne est responsable de l’incident depuis son commencement jusqu’à la remédiation en passent par l’analyse des causes profondes. Un responsable de la réponse aux incidents s’assure que les processus sont suivis et que les parties appropriées sont informées au fur et à mesure que l’équipe d’intervention effectue son travail.

Identifiez un leader post-mortem. Cette personne veille à ce que des post-mortems soient réalisés peu de temps après la résolution de l’incident. Ils produisent un rapport qui vous aide à appliquer les conclusions de l’incident.

Processus et procédures

Votre équipe de la charge de travail doit définir et comprendre les critères d’urgence. Lorsque votre équipe détermine qu’un cas est grave, vous pouvez déclarer un sinistre et lancer le plan de récupération d’urgence. Dans les cas moins graves, le problème peut ne pas répondre aux critères d’une catastrophe, mais vous devez tout de même considérer le problème comme une urgence, ce qui nécessite le lancement du plan d’intervention d’urgence. Les urgences peuvent être soit internes à votre charge de travail, comme des bogues dans le code de votre application, soit résulter d’un problème lié à une dépendance de votre charge de travail, comme l’indisponibilité d’une API ou d’une base de données. Une urgence peut également être causée par une panne de votre fournisseur (comme un problème avec Microsoft Entra ID ou Power Platform). L’équipe de support doit être en mesure de déterminer si un problème répond aux critères d’urgence, même si l’équipe n’a aucune visibilité sur le problème sous-jacent.

Définissez précisément les plans de communication et d’escalade. En fonction du type de notification d’alerte qu’ils reçoivent, assurez-vous que les membres de votre équipe d’assistance de niveau 1 peuvent facilement contacter les équipes appropriées pour faire remonter les problèmes.

Autres éléments à inclure

Documentez tous les outils standard utilisés pendant les incidents pour la communication interne, par exemple Microsoft Teams, et pour le suivi des activités au cours de l’incident, comme les outils de création de tickets ou les outils de planification du backlog.

Documentez vos informations d’identification d’urgence, également appelées comptes d’urgence. Incluez un guide détaillé qui décrit comment elles doivent être utilisées.

Créez des instructions sur les exercices d’intervention d’urgence et notez quand les exercices sont effectués.

Documenter toutes les mesures légales ou réglementaires nécessaires, telles que la communication des violations de données.

Détection et confinement des incidents

Lorsque vous disposez d’un système de surveillance bien conçu qui surveille les anomalies et émet automatiquement des alertes, vous pouvez rapidement détecter les problèmes et déterminer leur gravité. Si le problème est jugé urgent, le plan peut être lancé. Dans certains cas, l’équipe d’assistance n’est pas notifiée via le système de surveillance. Les utilisateurs peuvent signaler des problèmes au support en utilisant les moyens de communication de l’équipe de support. Ils peuvent également contacter des personnes avec lesquelles ils travaillent régulièrement ou qui savent qu’ils utilisent Power Platform, comme vos administrateurs de service Power Platform ou l’équipe du centre d’excellence. Quelle que soit la manière dont l’équipe de support est informée, elle doit toujours suivre les mêmes étapes pour valider le problème et déterminer sa gravité. Tout écart par rapport au plan de réponse peut ajouter du stress et de la confusion.

Triage

La première étape de la résolution d’un problème consiste à identifier le composant de la charge de travail à l’origine du problème. Les étapes que vous suivez lors du triage dépendent du type de problème. L’équipe d’un certain domaine de soutien de la charge de travail doit créer des procédures pour les incidents liés à son travail. Par exemple, les équipes de sécurité doivent trier les problèmes de sécurité et suivre les scripts qu’elles développent. Il est important que les équipes suivent des scripts bien définis tout au long de leurs efforts de triage. Ces scripts doivent être des instructions pas à pas qui incluent des processus de restauration pour annuler les modifications qui sont inefficaces ou susceptibles de causer d’autres problèmes. Une fois le problème résolu, suivez des processus bien définis pour ramener en toute sécurité le composant concerné dans les parcours du flux de la charge de travail.

Rapports d’analyse des causes profondes

Le propriétaire de l’incident ou une personne qui a travaillé en étroite collaboration avec lui doit créer les rapports d’analyse des causes profondes (RCA). Cette stratégie garantit une comptabilisation précise de l’incident. En règle générale, les organisations disposent d’un modèle RCA défini avec des directives sur la manière dont les informations sont présentées et sur les types d’informations qui peuvent ou non être partagées. Si vous devez créer vos propres modèles et directives, assurez-vous que les parties prenantes les examinent et les approuvent.

Post-mortems de l’incident

Une personne impartiale doit réaliser des post-mortems objectifs. Lors des sessions de post-mortem, chacun partage ses conclusions sur un incident. Chaque équipe qui a participé à la réponse à l’incident doit être représentée par des personnes qui ont travaillé sur l’incident. Ces personnes devraient se présenter à la séance préparées avec des exemples d’actions qui ont été couronnées de succès et de domaines qui peuvent être améliorés. La session n’est pas un forum pour attribuer la responsabilité de l’incident ou des problèmes qui pourraient survenir lors de l’intervention. Le leader post-mortem doit quitter la session avec une liste claire d’actions axées sur l’amélioration, notamment :

Améliorations du plan de réponse. Les processus ou procédures devront peut-être être réévalués et réécrits pour mieux capturer les actions appropriées.
Améliorations du système de surveillance. Les seuils devront peut-être être réévalués pour détecter le type spécifique d’incident plus tôt, ou une nouvelle surveillance devra peut-être être mise en œuvre pour détecter un comportement qui n’a pas été pris en compte.
Améliorations de la charge de travail. L’incident peut révéler une vulnérabilité dans la charge de travail qui doit être corrigée de manière permanente.

Considérations

Votre stratégie d’intervention d’urgence doit être étroitement alignée sur votre stratégie de support globale Power Platform. Travaillez avec vos administrateurs Power Platform et l’équipe du centre d’excellence pour discuter des options et des processus de support et d’intervention d’urgence qui pourraient déjà être définis.

Lorsque vous définissez votre processus de support et votre parcours d’escalade, il est important de catégoriser les solutions créées en fonction de leur criticité. Cette pratique vous permet d’établir des processus qui garantissent que les applications critiques disposent des protections nécessaires pour les prendre en charge, sans étouffer l’innovation des scénarios de productivité ni submerger vos équipes de réponse aux incidents. Lorsque vous définissez vos modèles de support, pensez également à un parcours de progression. Au départ, une solution peut ne nécessiter qu’un support au niveau de la productivité, mais évoluer en fonctionnalités ou en base d’utilisateurs pour nécessiter un niveau de support plus élevé. Définissez comment les créateurs peuvent demander un support plus formel et faire migrer une solution vers des environnements pris en charge.

Facilitation de Power Platform

Power Platform s’intègre à Application Insights, qui fait partie de l’écosystème Azure Monitor. Utilisez cette intégration pour :

Recevoir la télémétrie sur les diagnostics et les performances capturées par la plateforme Dataverse dans Application Insights. Vous pouvez vous abonner pour recevoir la télémétrie sur les opérations que les applications effectuent sur votre base de données Dataverse et dans les applications basées sur des modèles. Cette télémétrie fournit des informations que vous pouvez utiliser pour diagnostiquer et résoudre les problèmes liés aux erreurs et aux performances.
Connectez vos applications canevas à Application Insights. Vous pouvez utiliser ces analyses pour diagnostiquer les problèmes et comprendre ce que les utilisateurs font avec vos applications. Vous pouvez collecter des informations pour vous aider à prendre de meilleures décisions commerciales et à améliorer la qualité de vos applications.
Configurez la télémétrie Power Automate à envoyer dans Application Insights ; par exemple, pour surveiller les exécutions de flux de cloud et créer des alertes pour les échecs d’exécution de flux de cloud.
Capturez les données de télémétrie à partir de votre agent Microsoft Copilot Studio pour les utiliser dans Azure Application Insights. Vous pouvez utiliser cette télémétrie pour surveiller les messages et événements consignés envoyés vers et depuis vos agent, les rubriques à déclencher pendant les conversations des utilisateurs et les événements de télémétrie personnalisés qui peuvent être envoyés à partir de vos rubriques.

Application Insights est une solution complète pour collecter, analyser et répondre aux données de surveillance des environnements cloud et locaux. Elle comprend une plateforme d’alerte robuste que vous pouvez configurer pour les notifications automatiques et d’autres actions.

Le kit d’automatisation Power Platform est un ensemble d’outils qui accélèrent l’utilisation et la prise en charge de Power Automate pour le bureau pour les projets d’automatisation. Le kit fournit des outils qui vous aident à gérer les projets d’automatisation et à les surveiller pour estimer les économies réalisées et le retour sur investissement (ROI). Une partie du kit d’automatisation est le centre de contrôle, qui complète la fonctionnalité existante Surveiller les exécutions de flux de bureau. La priorité du centre de contrôle est une vue d’orchestrateur permettant aux analystes du support et aux organisations de surveiller, de prendre des mesures et d’alerter si nécessaire.

Étapes suivantes

Liste de contrôle de l’excellence opérationnelle

Partager via

Recommandations pour la conception d’une stratégie d’intervention d’urgence

Stratégies de conception clés

Système de surveillance

Plan de réponse aux incidents

Rôles

Processus et procédures

Autres éléments à inclure

Détection et confinement des incidents

Triage

Rapports d’analyse des causes profondes

Post-mortems de l’incident

Considérations

Facilitation de Power Platform

Étapes suivantes

Commentaires

Ressources supplémentaires

Partager via

Recommandations pour la conception d’une stratégie d’intervention d’urgence

Stratégies de conception clés

Système de surveillance

Plan de réponse aux incidents

Rôles

Processus et procédures

Autres éléments à inclure

Détection et confinement des incidents

Triage

Rapports d’analyse des causes profondes

Post-mortems de l’incident

Considérations

Facilitation de Power Platform

Informations associées

Étapes suivantes

Commentaires

Ressources supplémentaires