Partager via


Liste de contrôle des recommandations pour la fiabilité

Cette liste de contrôle présente un ensemble de recommandations que vous pouvez utiliser pour évaluer les stratégies de fiabilité, de résilience et de reprise après incident dans la conception de votre architecture. Pour garantir la fiabilité, identifiez la meilleure conception d’infrastructure et d’application pour votre charge de travail. Prenez ces décisions en fonction des exigences de votre entreprise qui sont mappées aux mesures cibles de disponibilité et de récupérabilité.

Pour mettre en œuvre une conception fiable, examinez attentivement les points de décision de votre conception et soyez conscient de la manière dont ces décisions affectent votre charge de travail. Cette liste de contrôle et les guides qui l’accompagnent offrent des ressources pour vous aider à prendre ces décisions. Faites de la fiabilité de la charge de travail une considération centrale à chaque étape du cycle de vie de la conception, du développement et de l’exploitation de la charge de travail.

Liste de contrôle

Abordez votre conception en mettant l’accent sur la fiabilité pour vous assurer de concevoir une charge de travail résiliente, gérable et reproductible. Si vous n’incluez pas de pratiques de fiabilité ni ne tenez compte des compromis, votre conception est potentiellement menacée. Examinez attentivement tous les points abordés dans la liste de contrôle pour inspirer la confiance dans le succès de votre système.

  Code Recommandation
RE:01 Concevez votre charge de travail pour l’aligner sur les objectifs de l’entreprise et éviter toute complexité ou surcharge inutile. Utilisez une approche pratique et équilibrée pour prendre des décisions de conception qui produisent les résultats souhaités. Limitez votre conception aux nécessités pour réduire les inefficacités et les problèmes potentiels.
RE:02 Identifier et évaluer les flux utilisateur et système. Utilisez une échelle de criticité basée sur les besoins de votre entreprise pour prioriser les flux.
RE:03 Utilisez l’analyse du mode d’échec (FMA) pour identifier et hiérarchiser les échecs potentiels dans les composants de votre solution. Effectuez la FMA pour vous aider à évaluer le risque et l’effet de chaque mode d’échec Déterminez comment la charge de travail répond et récupère.
RE:04 Définissez les objectifs de fiabilité et de récupération pour les composants, les flux et la solution globale. Visualisez les cibles pour négocier, obtenir un consensus, définir des attentes et mener des actions pour atteindre l’état idéal. Utilisez les cibles définies pour créer le modèle d’état. Le modèle d’état définit à quoi ressemblent les états sains, dégradés et malsains.
RE:05
RE:05
Renforcez la résilience de votre charge de travail en mettant en œuvre la gestion des erreurs et la gestion des défaillances transitoires. Intégrez des fonctionnalités dans la solution pour gérer les défaillances de composants et les erreurs transitoires.
RE:06 Testez les scénarios de résilience et de disponibilité en appliquant les principes de l’ingénierie du chaos dans vos environnements de test et de production. Utilisez les tests pour garantir que vos stratégies de mise en œuvre de la dégradation progressive sont efficaces en effectuant des tests de dysfonctionnement actifs et des tests de charge simulés.
RE:07 Mettez en œuvre des plans de continuité des activités et de reprise après sinistre (BCDR) structurés, testés et documentés qui s’alignent sur les objectifs de récupération. Les plans doivent couvrir tous les composants et le système dans son ensemble.
RE:08 Mesurez et publiez les indicateurs d’état de la solution. Capturez en continu les données de disponibilité et d’autres données de fiabilité sur l’ensemble de la charge de travail, ainsi que sur les composants individuels et les flux clés.

Étapes suivantes