Liste de contrôle de la révision de la conception pour la fiabilité

Cette liste de contrôle présente un ensemble de recommandations que vous pouvez utiliser pour évaluer la fiabilité, la résilience et les stratégies de récupération des défaillances dans votre conception d’architecture. Pour garantir la fiabilité, identifiez la meilleure conception d’infrastructure et d’application pour votre charge de travail. Prenez ces décisions en fonction des besoins de votre entreprise mappés aux métriques cibles de disponibilité et de récupération.

Pour implémenter une conception fiable, tenez compte des points de décision de votre conception et tenez compte de la façon dont ces décisions affectent votre charge de travail. Cette liste de contrôle et les guides qui l’accompagnent fournissent des ressources pour vous aider à prendre ces décisions. Faites de la fiabilité de la charge de travail une considération centrale tout au long du cycle de vie de la conception, du développement et de l’exploitation de la charge de travail.

Liste de contrôle

Approchez votre conception en vous concentrant sur la fiabilité pour vous assurer de concevoir une charge de travail résiliente, gérable et reproductible. Si vous n’incluez pas de pratiques de fiabilité et que vous tenez compte des compromis, votre conception est potentiellement à risque. Examinez attentivement tous les points abordés dans la liste de contrôle pour susciter la confiance dans la réussite de votre système.

  Code Recommandation
RE :01 Concevez votre charge de travail pour l’aligner sur les objectifs métier et éviter une complexité ou une surcharge inutiles. Utilisez une approche pratique et équilibrée pour prendre des décisions de conception qui fournissent les résultats souhaités. Limitez votre conception aux nécessités pour réduire les inefficacités et les problèmes potentiels.
RE :02 Identifiez et évaluez les flux utilisateur et système. Utilisez une échelle de criticité en fonction des besoins de votre entreprise pour hiérarchiser les flux.
RE :03 Utilisez l’analyse du mode d’échec (FMA) pour identifier et hiérarchiser les défaillances potentielles dans les composants de votre solution. Effectuez un FMA pour vous aider à évaluer les risques et les effets de chaque mode d’échec. Déterminez la façon dont la charge de travail répond et récupère.
RE :04 Définissez des objectifs de fiabilité et de récupération pour les composants, les flux et la solution globale. Visualisez les cibles à négocier, à obtenir un consensus, à définir des attentes et à mener des actions pour atteindre l’état idéal. Utilisez les cibles définies pour générer le modèle d’intégrité. Le modèle d’intégrité définit à quoi ressemblent les états sains, détériorés et non sains.
RE :05
RE :05
RE :05
Ajoutez une redondance à différents niveaux, en particulier pour les flux critiques. Appliquez la redondance aux niveaux de calcul, de données, de réseau et d’autres niveaux d’infrastructure conformément aux objectifs de fiabilité identifiés.
RE :06
RE :06
Implémentez une stratégie de mise à l’échelle rapide et fiable au niveau de l’application, des données et de l’infrastructure.
RE :07
RE :07
RE :07
Renforcez la résilience et la récupération de votre charge de travail en implémentant des mesures d’auto-conservation et d’auto-réparation. Créez des fonctionnalités dans la solution en utilisant des modèles de fiabilité basés sur l’infrastructure et des modèles de conception basés sur des logiciels pour gérer les défaillances de composants et les erreurs temporaires. Créez des fonctionnalités dans le système pour détecter les défaillances des composants de la solution et lancer automatiquement des actions correctives pendant que la charge de travail continue à fonctionner avec des fonctionnalités complètes ou réduites.
RE :08 Testez les scénarios de résilience et de disponibilité en appliquant les principes de l’ingénierie du chaos dans vos environnements de test et de production. Utilisez les tests pour vous assurer que vos stratégies d’implémentation de dégradation et de mise à l’échelle sont efficaces en effectuant un dysfonctionnement actif et des tests de charge simulés.
RE :09 Implémentez des plans de continuité d’activité et de reprise d’activité (BCDR) structurés, testés et documentés qui s’alignent sur les objectifs de récupération. Les plans doivent couvrir tous les composants et le système dans son ensemble.
RE :10 Mesurez et modélisez les signaux d’intégrité de la solution. Capturez en continu la durée de fonctionnement et d’autres données de fiabilité à partir de l’ensemble de la charge de travail, ainsi que des composants individuels et des flux de clés.

Étapes suivantes

Nous vous recommandons de passer en revue les compromis de fiabilité pour explorer d’autres concepts.