可靠性的設計檢閱檢查清單

此檢查清單提供一組建議,供您用來評估架構設計中的可靠性、復原和失敗復原策略。 若要確保可靠性,請找出工作負載的最佳基礎結構和應用程序設計。 根據您的商務需求,根據對應至可用性和復原性目標計量的這些決策。

若要實作可靠的設計,請徹底考慮您設計中的決策點,並瞭解這些決策如何影響您的工作負載。 此檢查清單和隨附指南會提供資源來協助您做出這些決策。 讓工作負載可靠性成為工作負載設計、開發和作業生命週期的集中考慮。

檢查清單

以專注於可靠性的方式處理您的設計,以協助確保您設計可復原、可管理且可重複的工作負載。 如果您沒有包含可靠性做法並考慮取捨,您的設計可能會有風險。 請仔細考慮檢查清單中涵蓋的所有點,以讓您的系統成功產生信賴度。

  程式碼 建議
RE:01 設計您的工作負載以符合商務目標,並避免不必要的複雜度或額外負荷。 使用實用且平衡的方法,做出可提供所需結果的設計決策。 包含您的設計,以降低效率不佳和潛在問題的需求。
RE:02 識別和評分用戶和系統流程。 根據您的業務需求使用重要性調整,以排定流程的優先順序。
RE:03 使用失敗模式分析 (FMA) 來識別並排定解決方案元件中潛在失敗的優先順序。 執行 FMA 以協助您評估每個失敗模式的風險和效果。 判斷工作負載如何回應和復原。
RE:04 定義元件、流程和整體解決方案的可靠性與復原目標。 將目標可視化,以 交涉、取得共識、設定期望,以及推動動作 以達到理想狀態。 使用定義的目標來建置健康情況模型。 健全狀況模型會定義狀況良好、降級和狀況不良狀態的外觀。
RE:05
RE:05
RE:05
在不同的層級新增備援,特別是針對重要流程。 根據識別的可靠性目標,將備援套用至計算、數據、網路和其他基礎結構層。
RE:06
RE:06
在應用程式、數據和基礎結構層級實作及時且可靠的調整策略
RE:07
RE:07
RE:07
藉由實作自我保留和自我修復措施,強化工作負載的復原能力和復原能力。 使用基礎結構式可靠性模式和軟體型設計模式來處理元件失敗和暫時性錯誤,將功能建置到解決方案中。 將功能建置到系統中,以偵測解決方案元件失敗,並在工作負載繼續完整或減少的功能時自動起始更正動作。
RE:08 測試和生產環境中套用混亂工程的原則,以測試復原和可用性案例。 使用測試來確保您的正常效能降低實作和調整策略會藉由執行作用中的故障和模擬負載測試來有效。
RE:09 實作與復原目標一致的結構化、測試和記載的商務持續性和災害復原 (BCDR) 計劃。 方案必須涵蓋所有元件和整個系統。
RE:10 測量解決方案的健康情況訊號並建立模型。 持續從工作負載之間擷取運行時間和其他可靠性數據,以及從個別元件和密鑰流程擷取。

下一步

建議您檢閱可靠性取捨,以探索其他概念。