Partager via


Recommandations pour la conception d’une stratégie de récupération d’urgence

S’applique à cette recommandation de liste de contrôle Fiabilité Power Platform Well-Architected :

RE:07 Mettez en œuvre des plans de continuité des activités et de reprise après sinistre (BCDR) structurés, testés et documentés qui s’alignent sur les objectifs de récupération. Les plans doivent couvrir tous les composants et le système dans son ensemble.

Ce guide décrit des recommandations pour concevoir une stratégie de récupération d’urgence fiable pour une charge de travail. Pour répondre aux objectifs de niveau de service (SLO) internes ou même à un contrat de niveau de service (SLA) que vous avez garanti à vos clients, vous devez disposer d’une stratégie de récupération d’urgence robuste et fiable. Des échecs et d’autres problèmes majeurs sont attendus. Vos préparatifs pour faire face à ces incidents déterminent dans quelle mesure vos clients peuvent faire confiance à votre entreprise pour leur fournir un service fiable. Une stratégie de récupération d’urgence constitue l’épine dorsale de la préparation aux incidents majeurs.

Définitions

Terme Définition
Basculement Changement automatisé et/ou manuel du trafic de la charge de travail de production d’une région non disponible à une région non affectée.
Restauration automatique Changement automatisé et/ou manuel du trafic de la charge de travail de production d’une région de basculement à la région principale.

Stratégies de conception clés

Ce guide suppose que vous avez déjà effectué les tâches suivantes dans le cadre de votre planification de la fiabilité :

Une architecture de charge de travail fiable est la base d’une stratégie de récupération d’urgence (DR) fiable. Tenez compte de la fiabilité à chaque étape de la création de votre charge de travail pour vous assurer de disposer des composants nécessaires à une récupération efficace avant de commencer à planifier votre stratégie de récupération d’urgence. Cette base garantit que les objectifs de fiabilité de votre charge de travail, tels que l’objectif de temps de récupération (RTO) et l’objectif de point de récupération (RPO), sont pratiques et réalisables.

Maintenir un plan de récupération d’urgence

La clé d’une stratégie de récupération d’urgence fiable pour une charge de travail est le plan de récupération d’urgence. Votre plan doit être un document évolutif qui est régulièrement révisé et mis à jour à mesure que votre environnement évolue. Partagez régulièrement le plan avec les équipes pertinentes (opérations, dirigeants technologiques et parties prenantes commerciales) (par exemple, tous les six mois). Conservez-le dans un magasin de données hautement disponible et sécurisé comme OneDrive.

Suivez ces recommandations pour développer votre plan de récupération d’urgence :

  • Définissez clairement ce qui constitue un sinistre et nécessite l’activation du plan de récupération d’urgence.

    Les sinistres sont des problèmes à grande échelle. Il peut s’agir de pannes régionales, de pannes de services comme Microsoft Entra ID ou Azure DNS, ou d’attaques malveillantes graves telles que des attaques de rançongiciel ou des attaques DDoS.

    Incluez des exemples de modes d’échec qui ne sont pas considérés comme des sinistres, tels que l’indisponibilité ou l’échec d’une seule ressource, dans votre plan de récupération d’urgence afin que les opérateurs n’invoquent pas par erreur leurs escalades de récupération d’urgence.

  • Créez le plan de récupération d’urgence dans votre documentation FMA. Assurez-vous que votre plan de récupération d’urgence capture les modes d’échec et les stratégies d’atténuation pour les pannes définies comme des sinistres. Si des mises à jour sont nécessaires, mettez à jour votre plan de récupération d’urgence et vos documents FMA en même temps afin qu’ils soient précis lorsque l’environnement change ou lorsque les tests révèlent des comportements inattendus.

  • Définissez clairement les rôles et les responsabilités au sein de l’équipe de la charge de travail et comprenez tous les rôles externes associés au sein de votre organisation. Si le sinistre est provoqué par la panne d’un service externe, tel que Microsoft Entra ID, assurez-vous de disposer d’un rôle défini comme responsable de la communication avec la partie externe et que vous pouvez partager les mises à jour avec l’équipe de la charge de travail. Les rôles doivent inclure :

    • La partie chargée de déclarer un sinistre
    • La partie chargée de déclarer la clôture de l’incident
    • Rôles pour les opérations
    • Rôles de test et de validation
    • Rôles de communications internes et externes
    • Rôles principaux de l’analyse rétrospective et des causes profondes (RCA)
  • Définissez les chemins d’escalade que l’équipe de la charge de travail doit suivre pour garantir que le statut de récupération est communiqué aux parties prenantes.

  • Incluez l’ordre prescrit dans lequel les composants de la charge de travail doivent être récupérés pour causer le moins d’impact. Par exemple, récupérez les bases de données et redémarrez les flux de cloud avant de récupérer l’application.

    • Détaillez la procédure de récupération de chaque composant sous la forme d’un guide détaillé. Incluez des captures d’écran si possible et les conditions préalables à l’exécution de la procédure. Par exemple, répertoriez les scripts ou les informations d’identification nécessaires qui doivent être collectés.

    • Définissez les responsabilités de votre équipe par rapport à celles de votre fournisseur d’hébergement cloud. Par exemple, Microsoft est responsable de la restauration d’un PaaS (Platform as a service), mais vous êtes responsable de la réhydratation des données et de l’application de votre configuration au service.

    • Capturez la cause principale de l’incident et exécutez des mesures d’atténuation avant de lancer la récupération. Par exemple, si la cause de l’incident est un problème de sécurité, atténuez ce problème avant de récupérer les systèmes concernés dans votre environnement de basculement.

  • Si vous devez redéployer votre application dans l’environnement de basculement, utilisez des outils pour automatiser autant que possible le processus de déploiement. Assurez-vous que vos Azure Pipelines sont prédéployés et correctement configurés dans les environnements de basculement afin de pouvoir commencer immédiatement vos déploiements. Utilisez des déploiements automatisés de bout en bout, avec des portes d’approbation manuelles si nécessaire, pour garantir un processus de déploiement cohérent et efficace. Lorsqu’une étape du processus de déploiement nécessite une intervention manuelle, documentez les étapes manuelles. Définissez clairement les rôles et les responsabilités.

  • Automatisez autant de procédures que possible. Utilisez la logique de nouvelle tentative pour éviter de perdre du temps sur des scripts bloqués sur une tâche interrompue. Étant donné que vous exécutez ces scripts uniquement en cas d’urgence, vous ne voulez pas que des scripts mal développés causent davantage de dégâts ou ralentissent votre processus de récupération.

Note

L’automatisation présente des risques. Les opérateurs formés doivent surveiller attentivement les processus automatisés et intervenir si un processus rencontre des problèmes. Pour minimiser le risque que l’automatisation réagisse à des faux positifs, soyez minutieux dans vos exercices de récupération d’urgence. Testez toutes les phases du plan. Simulez la détection pour générer des alertes, puis suivez toute la procédure de récupération.

Effectuer des exercices de récupération d’urgence

Une pratique de test de récupération d’urgence est essentielle pour un bon plan de récupération d’urgence. De nombreux secteurs d’activités disposent de cadres de conformité qui exigent des exercices réguliers de récupération d’urgence. Quel que soit votre secteur d’activité, des exercices de récupération d’urgence fréquents sont cruciaux pour votre réussite.

Suivez ces recommandations pour réussir vos exercices de récupération d’urgence :

  • Effectuez au moins un exercice de récupération d’urgence en production par an. Les exercices de test ou les exercices hors production aident à garantir que les parties impliquées connaissent leurs rôles et responsabilités. Ces exercices aident également les opérateurs à se familiariser en suivant les processus de récupération. Mais seuls les exercices en production testent véritablement la validité du plan de récupération d’urgence et les mesures RTO et RPO. Utilisez vos exercices en production pour chronométrer les processus de récupération des composants et des flux afin de garantir que les objectifs RTO et RPO définis pour votre charge de travail sont réalisables. Pour les fonctions qui sont hors de votre contrôle, comme les pannes Microsoft Entra ID, assurez-vous que les objectifs RTO et RPO pour les flux impliquant ces fonctions tiennent compte des retards possibles indépendants de votre volonté.

  • Utilisez des exercices de test pour former les nouveaux opérateurs aux processus et procédures de récupération d’urgence. Les opérateurs seniors doivent prendre le temps de laisser les nouveaux opérateurs accomplir leur rôle et doivent rechercher des opportunités d’amélioration. Si un nouvel opérateur est hésitant ou confus par une étape d’une procédure, examinez cette procédure pour vous assurer qu’elle est clairement rédigée.

Considérations

La réalisation d’exercices de récupération d’urgence en production peut provoquer des défaillances catastrophiques inattendues. Assurez-vous de tester les procédures de récupération dans des environnements hors production lors de vos déploiements initiaux.

Accordez à votre équipe autant de temps de maintenance que possible pendant les exercices. Lors de la planification du temps de maintenance, utilisez les mesures de récupération capturées pendant les tests comme temps minimum nécessaire alloué.

À mesure que vos exercices de récupération d’urgence évoluent, vous apprenez quelles procédures vous pouvez exécuter en parallèle et lesquelles vous devez exécuter dans l’ordre. Au début de vos exercices, partez du principe que chaque procédure doit être exécutée dans l’ordre et que vous avez besoin de temps supplémentaire à chaque étape pour gérer les problèmes imprévus.

Fonctionnalités de basculement

Microsoft Business Applications fournit des fonctionnalités de continuité des activités et de reprise après sinistre (BCDR) à tous les environnements de production dans les applications Software as a service (SAAS) de Dynamics 365 et Power Platform. Découvrez comment Microsoft garantit la résilience de vos données de production lors de pannes régionales.

Liste de contrôle de fiabilité

Référez-vous à l’ensemble complet des recommandations.