信頼性に関する推奨チェックリスト

[アーティクル]
05/10/2024

このチェックリストは、アーキテクチャ設計の信頼性、回復力、障害回復戦略を評価するために使用できる一連のレコメンデーションを示しています。信頼性を確保するため、ワークロードに最適なインフラストラクチャとアプリケーション設計を特定します。可用性と回復可能性のターゲットメトリックにマッピングされたビジネス要件に基づいて、これらの決定を行います。

信頼性の高い設計を実装するには、設計における決定ポイントを徹底的に検討し、それらの決定がワークロードにどのように影響するかを認識しておく必要があります。このチェックリストとそれに付属するガイドは、これらの決定を下すのに役立つリソースを提供します。ワークロードの設計、開発、運用ライフサイクルのあらゆる段階で、ワークロードの信頼性を中心的な考慮事項にします。

チェックリスト

信頼性を重視して設計に取り組むことで、回復力があり、管理しやすく、繰り返し可能なワークロードを設計できるようになります。信頼性の実践を含めず、トレードオフを考慮しない場合、設計が危険にさらされる可能性があります。システムの成功に自信を持たせるために、次のチェックリストに記載されているポイントをすべて慎重に検討してください。

	コード	レコメンデーション
☐	RE:01	ビジネス目標に合わせてワークロードを設計し、不必要な複雑さやオーバーヘッドを回避します。実用的かつバランスの取れたアプローチを採用して、望ましい結果をもたらす設計上の決定を下します。非効率性や潜在的な問題を軽減するために、必要なものを設計に含めます。
☐	RE:02	ユーザーとシステムのフローを特定して評価します。ビジネス要件に基づいた重要度スケールを使用して、フローに優先順位を付けます。
☐	RE:03	障害モード分析 (FMA) を使用して、ソリューションコンポーネントの潜在的な障害を特定し、優先順位を付けます。 FMA を実行すると、各障害モードのリスクと影響を評価できます。ワークロードがどのように応答し、回復するかを決定します。
☐	RE:04	コンポーネント、フロー、および全体的なソリューションについて信頼性と回復の目標を定義します。ターゲットを視覚化して、交渉し、合意を得て、期待を設定し、行動を促すことで、理想的な状態を実現します。定義されたターゲットを使用して正常性モデルをビルドします。正常性モデルは、正常な状態、劣化した状態、および異常な状態がどのようなものであるかを定義します。
☐	RE:05 RE:05	エラー処理と一時的な障害処理を実装することで、ワークロードの回復力を強化します。コンポーネントの故障や一時的なエラーを処理する機能をソリューションに組み込みます。
☐	RE:06	カオスエンジニアリングの原則をテスト環境と運用環境に適用して、復元力と可用性のシナリオをテストします。アクティブな障害テストとシミュレートされた負荷テストを実行して、正常な劣化の実装戦略が有効であることを確認するためのテストを実行します。
☐	RE:07	復旧目標に合わせて構造化、テスト、文書化された事業継続とディザスターリカバリー (BCDR) 計画を実装します。計画は、すべてのコンポーネントとシステム全体をカバーする必要があります。
☐	RE:08	ソリューションの正常性指標を測定して公開します。ワークロード全体、また個々のコンポーネントや主要なフローから、稼働時間やその他の信頼性データを継続的にキャプチャします。

次の手順

信頼性のトレードオフ

次の方法で共有

信頼性に関する推奨チェックリスト

チェックリスト

次の手順

フィードバック

フィードバック

その他のリソース