Recommandations pour la conception d’une stratégie d’intervention d’urgence
S’applique à cette recommandation de la liste de contrôle d’excellence opérationnelle bien conçue : Power Platform
OE:07 | Développez une pratique efficace des opérations d’urgence. Assurez-vous que votre charge de travail émet des signaux d’état significatifs. Collectez les données obtenues et utilisez-les pour générer des alertes exploitables qui déclenchent des réponses d’urgence via des tableaux de bord et des requêtes. Définissez clairement les responsabilités humaines, telles que les rotations à la demande, la gestion des incidents, l’accès aux ressources d’urgence et la réalisation d’analyses restrospectives. |
---|
Ce guide décrit les recommandations pour concevoir une stratégie d’intervention d’urgence. Certaines de vos charges de travail peuvent être critiques pour la mission, et les problèmes qui surviennent au cours du cycle de vie d’une charge de travail peuvent être suffisamment graves pour justifier leur déclaration d’urgence. Vous pouvez mettre en œuvre des processus et des procédures étroitement contrôlés et ciblés que votre équipe peut suivre pour garantir qu’un problème est traité de manière calme et ordonnée. Les situations d’urgence augmentent naturellement les niveaux de stress de chacun et peuvent générer un environnement chaotique si votre équipe n’est pas bien préparée. Pour aider à réduire le stress et la confusion, concevez une stratégie d’intervention, partagez-la avec votre organisation et suivez régulièrement une formation sur les interventions d’urgence.
Stratégies de conception clés
Une stratégie d’intervention d’urgence doit être un ensemble bien défini de processus et de procédures. Chaque processus et procédure doit disposer de scripts pour garantir que chaque étape permet à votre équipe de progresser vers la résolution rapide et sûre d’un problème. Pour élaborer une stratégie d’intervention d’urgence, considérez la vue d’ensemble suivante :
- Conditions préalables
- Développer un système de surveillance
- Créer un plan de réponse aux incidents
- Phases de l’incident
- Détection et confinement
- Triage
- Phases postérieures à l’incident
- Analyse des causes profondes (RCA)
- Post-mortem
- Activité en cours
- Exercices d’intervention d’urgence
Les sections suivantes fournissent des recommandations pour chacune de ces phases.
Système de surveillance
Pour avoir une stratégie d’urgence réponse robuste, vous devez disposer d’un système de surveillance robuste, ou d’une plateforme d’observabilité, en place. Votre plateforme d’observabilité doit avoir les caractéristiques suivantes :
Surveillance holistique : assurez-vous de surveiller minutieusement votre charge de travail du point de vue de la configuration et de l’application, et incluez la surveillance de l’infrastructure si les composants de votre charge de travail sont hébergés dans le cloud ou local. Assurez-vous que tous les composants de votre charge de travail sont couverts par votre stratégie de surveillance. Par exemple, si votre charge de travail interagit avec des ressources Azure ou un système local, incluez ces composants dans votre surveillance.
Journalisation détaillée : activez la journalisation détaillée pour vos composants afin de faciliter les investigations lorsque vous triez un problème. Structurez les journaux de manière à ce qu’ils soient faciles à gérer. Envoyez automatiquement les journaux aux récepteurs de données pour les préparer à l’analyse.
Tableaux de bord utiles : créez des tableaux de bord basés sur votre modèle de santé et adaptés à chaque équipe de votre organisation. Différentes équipes sont responsables de différents aspects de l’intégrité de la charge de travail.
Alertes exploitables : créez des alertes utiles pour vos équipes de charge de travail. Évitez les alertes qui ne nécessitent aucune action de la part de vos équipes. Trop d’alertes de ce type peuvent amener les utilisateurs à ignorer ou à bloquer les notifications d’alerte.
Notifications automatiques : assurez-vous que les équipes appropriées reçoivent automatiquement les alertes qui nécessitent une action de leur part. Par exemple, votre équipe de support de niveau 1 doit recevoir des notifications pour toutes les alertes, tandis que vos ingénieurs de sécurité ne doivent recevoir des alertes que pour les événements de sécurité.
Pour en savoir plus, consultez les Recommandations pour la conception et la création d’un cadre de surveillance.
Plan de réponse aux incidents
La base d’une stratégie d’intervention d’urgence est un plan de réponse aux incidents. Comme pour un plan de reprise après sinistre, définissez clairement et en détail les rôles, les responsabilités et les procédures de réponse à un incident. Le plan doit être un document avec contrôle de version qui est soumis à des révisions régulières pour garantir sa mise à jour.
Définissez clairement les composants suivants dans votre plan.
Rôles
Identifiez un responsable de la réponse aux incidents. Cette personne est responsable de l’incident depuis son commencement jusqu’à la remédiation en passent par l’analyse des causes profondes. Un gestionnaire d’incident réponse s’assure que les processus sont suivis et que les parties appropriées sont informées pendant que l’équipe réponse effectue son travail.
Identifiez un leader post-mortem. Cette personne veille à ce que des post-mortems soient réalisés peu de temps après la résolution de l’incident. Ils produisent un rapport qui vous aide à appliquer les conclusions de l’incident.
Processus et procédures
Votre équipe de la charge de travail doit définir et comprendre les critères d’urgence. Lorsque votre équipe détermine qu’un cas est grave, vous pouvez déclarer un sinistre et lancer le plan de récupération d’urgence. Dans les cas moins graves, le problème peut ne pas répondre aux critères d’une catastrophe, mais vous devez quand même considérer le problème comme une urgence, ce qui nécessite le lancement du plan d’urgence réponse. Les urgences peuvent être internes à votre charge de travail, comme des bugs dans le code de votre application, ou résulter d’un problème avec une dépendance de votre charge de travail, comme l’indisponibilité d’une API ou d’une base de données. Une urgence peut également être causée par une panne de votre fournisseur (comme un problème avec Microsoft Entra ID ou Power Platform). L’équipe de support doit être en mesure de déterminer si un problème répond aux critères d’urgence, même si l’équipe n’a aucune visibilité sur le problème sous-jacent.
Définissez précisément les plans de communication et d’escalade. En fonction du type de notification d’alerte qu’ils reçoivent, assurez-vous que les membres de votre équipe d’assistance de niveau 1 peuvent facilement contacter les équipes appropriées pour faire remonter les problèmes.
Autres éléments à inclure
Documentez tous les outils standards utilisés lors des incidents pour la communication interne, comme Microsoft Teams, et pour suivre les activités au cours de l’incident, comme les outils de ticketing ou les outils de planification du backlog.
Documentez vos informations d’identification d’urgence, également appelées comptes d’urgence. Incluez un guide détaillé qui décrit comment elles doivent être utilisées.
Créez des instructions d’urgence réponse explorer et conservez une trace du moment où les exercices sont effectués.
Documentez toutes les mesures légales ou réglementaires nécessaires, telles que la communication des violations de données.
Détection et confinement des incidents
Lorsque vous disposez d’un système de surveillance bien conçu qui surveille les anomalies et émet automatiquement des alertes, vous pouvez rapidement détecter les problèmes et déterminer leur gravité. Si le problème est jugé urgent, le plan peut être lancé. Dans certains cas, l’équipe d’assistance n’est pas informée via le système de surveillance. Les utilisateurs peuvent signaler des problèmes au support en utilisant les moyens de communication de l’équipe de support. Ils peuvent également contacter des personnes avec lesquelles ils travaillent régulièrement ou dont ils savent qu’elles travaillent avec Power Platform, comme vos Power Platform administrateurs de service ou l’équipe du Centre d’excellence. Quelle que soit la manière dont l’équipe de support est informée, elle doit toujours suivre les mêmes étapes pour valider le problème et déterminer sa gravité. Tout écart par rapport au plan de réponse peut ajouter du stress et de la confusion.
Triage
La première étape de la résolution d’un problème consiste à identifier le composant de la charge de travail à l’origine du problème. Les étapes que vous suivez lors du triage dépendent du type de problème. L’équipe chargée d’un certain domaine de support de charge de travail doit créer des procédures pour les incidents liés à son travail. Par exemple, les équipes de sécurité doivent trier les problèmes de sécurité et suivre les scripts qu’elles développent. Il est important que les équipes suivent des scripts bien définis tout au long de leurs efforts de triage. Ces scripts doivent être des instructions étape par étape qui incluent des processus de restauration pour annuler les modifications inefficaces ou pouvant entraîner d’autres problèmes. Une fois le problème résolu, suivez des processus bien définis pour ramener en toute sécurité le composant concerné dans les parcours du flux de la charge de travail.
Rapports d’analyse des causes profondes
Le propriétaire de l’incident ou une personne ayant travaillé en étroite collaboration avec lui doit créer les rapports d’analyse des causes profondes (RCA). Cette stratégie garantit une comptabilisation précise de l’incident. En règle générale, les organisations disposent d’un modèle RCA défini avec des directives sur la manière dont les informations sont présentées et sur les types d’informations qui peuvent ou non être partagées. Si vous devez créer votre propre modèle et vos propres directives, assurez-vous que les parties prenantes les examinent et les approuvent.
Post-mortems de l’incident
Une personne impartiale doit réaliser des post-mortems objectifs. Lors des sessions de post-mortem, chacun partage ses conclusions sur un incident. Chaque équipe impliquée dans l’incident réponse doit être représentée par des personnes ayant travaillé sur l’incident. Ces personnes doivent venir à la séance préparées avec des exemples d’actions qui ont réussi et des domaines qui peuvent être améliorés. La session n’est pas un forum pour attribuer la responsabilité de l’incident ou des problèmes qui pourraient survenir pendant le réponse. Le leader post-mortem doit quitter la session avec une liste claire d’actions axées sur l’amélioration, notamment :
- Améliorations du plan de réponse. Les processus ou procédures devront peut-être être réévalués et réécrits pour mieux capturer les actions appropriées.
- Améliorations du système de surveillance. Les seuils devront peut-être être réévalués pour détecter le type spécifique d’incident plus tôt, ou une nouvelle surveillance devra peut-être être mise en œuvre pour détecter un comportement qui n’a pas été pris en compte.
- Améliorations de la charge de travail. L’incident peut révéler une vulnérabilité dans la charge de travail qui doit être corrigée de manière permanente.
Considérations
Votre stratégie d’intervention d’urgence doit être étroitement alignée sur votre stratégie de support globale Power Platform. Travaillez avec vos administrateurs et l’équipe du Centre d’excellence pour discuter des options et processus d’assistance et d’urgence réponse qui pourraient déjà être définis. Power Platform
Lorsque vous définissez votre processus de support et votre parcours d’escalade, il est important de catégoriser les solutions créées en fonction de leur criticité. Cette pratique vous permet d’établir des processus qui garantissent que les applications critiques disposent des garde-fous nécessaires pour les prendre en charge, sans pour autant étouffer l’innovation des scénarios de productivité ni submerger vos équipes de gestion des incidents réponse. Lorsque vous définissez vos modèles de support, pensez également à un parcours de progression. Une solution peut commencer en ne nécessitant qu’un support au niveau de la productivité, mais évoluer en termes de fonctionnalités ou de base d’utilisateurs pour nécessiter un niveau de support plus élevé. Définissez comment les créateurs peuvent demander un support plus formel et faire migrer une solution vers des environnements pris en charge.
Facilitation de Power Platform
Power Platform s’intègre à Application Insights, qui fait partie de l’écosystème Azure Monitor. Utilisez cette intégration pour :
Recevoir la télémétrie sur les diagnostics et les performances capturées par la plateforme Dataverse dans Application Insights. Vous pouvez vous abonner pour recevoir la télémétrie sur les opérations que les applications effectuent sur votre base de données Dataverse et dans les applications basées sur des modèles. Cette télémétrie fournit des informations que vous pouvez utiliser pour diagnostiquer et résoudre les problèmes liés aux erreurs et aux performances.
Connectez vos applications canevas à Application Insights. Vous pouvez utiliser ces analyses pour diagnostiquer les problèmes et comprendre ce que les utilisateurs font avec vos applications. Vous pouvez collecter des informations pour vous aider à prendre de meilleures décisions commerciales et à améliorer la qualité de vos applications.
Configurez la Power Automate télémétrie à laquelle s’adresser Application Insights ; par exemple, pour surveiller les exécutions flux de cloud et créer des alertes pour les échecs d’exécution flux de cloud.
Capturez les données de télémétrie de votre Microsoft Copilot Studio copilote pour les utiliser dans Azure Application Insights. Vous pouvez utiliser cette télémétrie pour surveiller les messages et événements enregistrés envoyés vers et depuis votre copilote, les sujets à déclencher pendant les conversations des utilisateurs et les événements de télémétrie personnalisés qui peuvent être envoyés à partir de vos sujets.
Application Insights est une solution complète pour collecter, analyser et répondre aux données de surveillance des environnements cloud et locaux. Elle comprend une plateforme d’alerte robuste que vous pouvez configurer pour les notifications automatiques et d’autres actions.
Le kit d’automatisation Power Platform est un ensemble d’outils qui accélèrent l’utilisation et la prise en charge de Power Automate pour le bureau pour les projets d’automatisation. Le kit fournit des outils qui vous aident à gérer les projets d’automatisation et à les surveiller pour estimer les économies réalisées et le retour sur investissement (ROI). Une partie du kit d’automatisation est le centre de contrôle, qui complète la fonctionnalité Monitor flux de bureau existante. La priorité du centre de contrôle est une vue d’orchestrateur permettant aux analystes du support et aux organisations de surveiller, de prendre des mesures et d’alerter si nécessaire.
Informations associées
- Recommandations pour la conception et la création d’un système de surveillance
- Recommandations pour concevoir une stratégie de surveillance et d’alerte fiable
- Stratégie de support aux utilisateurs et aux créateurs