信頼性の設計レビュー チェックリスト

このチェックリストでは、アーキテクチャ設計の信頼性、回復性、および障害復旧戦略を評価するために使用する一連の推奨事項を示します。 信頼性を確保するには、ワークロードに最適なインフラストラクチャとアプリケーション設計を特定します。 可用性と回復可能性のターゲット メトリックにマップされているビジネス要件に基づいて、これらの決定を行います。

信頼性の高い設計を実装するには、設計で意思決定ポイントを十分に検討し、それらの決定がワークロードにどのように影響するかを認識します。 このチェックリストと付随するガイドは、これらの決定を行うのに役立つリソースを提供します。 ワークロードの設計、開発、運用のライフサイクル全体を通じて、ワークロードの信頼性を一元的に考慮します。

チェック リスト

信頼性に重点を置いて設計に取り組み、回復性、管理性、反復性に優れたワークロードを設計できるようにします。 信頼性プラクティスを含めず、トレードオフを検討すると、設計が危険にさらされる可能性があります。 チェックリストで説明されているすべての点を慎重に検討して、システムの成功に自信を持たわせてください。

  コード 推奨
RE:01 ビジネス目標に合わせてワークロードを設計し、不要な複雑さやオーバーヘッドを回避します。 実用的でバランスの取れたアプローチを使用して、目的の結果を提供する設計上の決定を行います。 非効率性と潜在的な問題を減らすために必要な設計を含める。
RE:02 ユーザー フローとシステム フローを特定して評価します。 ビジネス要件に基づいて重要度スケールを使用して、フローに優先順位を付けます。
RE:03 エラー モード分析 (FMA) を使用して、ソリューション コンポーネントの潜在的な障害を特定し、優先順位を付けます。 FMA を実行して、各障害モードのリスクと影響を評価します。 ワークロードの応答と回復方法を決定します。
RE:04 コンポーネント、フロー、およびソリューション全体の信頼性と回復のターゲットを定義します。 目標を視覚化して 、ネゴシエートし、合意を得て、期待を設定し、 理想的な状態を達成するためのアクションを推進します。 定義されたターゲットを使用して正常性モデルを構築します。 正常性モデルでは、正常な状態、低下状態、異常な状態を定義します。
RE:05
RE:05
RE:05
特に重要なフローの場合は、異なるレベルで冗長性を追加します。 特定された信頼性ターゲットに従って、コンピューティング、データ、ネットワーク、およびその他のインフラストラクチャ層に冗長性を適用します。
RE:06
RE:06
アプリケーション、データ、インフラストラクチャ レベルでタイムリーかつ信頼性の高いスケーリング戦略を実装します。
RE:07
RE:07
RE:07
自己保存と自己復旧の対策を実装することで、ワークロードの回復性と回復性を強化します。 インフラストラクチャ ベースの信頼性パターンとソフトウェアベースの設計パターンを使用して、コンポーネントの障害や一時的なエラーを処理することで、ソリューションに機能を組み込みます。 ソリューション コンポーネントの障害を検出し、ワークロードが引き続き完全または縮小された機能で動作している間に、修正アクションを自動的に開始する機能をシステムに組み込みます。
RE:08 テスト環境と運用環境でカオス エンジニアリングの原則を適用して、回復性と可用性のシナリオをテストします。 テストを使用して、アクティブな誤動作とシミュレートされたロード テストを実行することで、正常な劣化の実装とスケーリング戦略が効果的であることを確認します。
RE:09 復旧ターゲットに合わせて、構造化、テスト、文書化されたビジネス継続性とディザスター リカバリー (BCDR) 計画を実装します。 プランは、すべてのコンポーネントとシステム全体をカバーする必要があります。
RE:10 ソリューションの正常性シグナルを測定してモデル化します。 ワークロード全体、および個々のコンポーネントと主要なフローから、アップタイムやその他の信頼性データを継続的にキャプチャします。

次の手順

信頼性のトレードオフを確認して、他の概念を確認することをお勧めします。