共用方式為


可靠性設計檢查清單

此檢查清單提供一組建議,讓您用來評估架構設計中的可靠性、復原和失敗復原策略。 若要確保可靠性,請識別工作負載的最佳基礎結構和應用程式設計。 根據企業需求,並將其映射到可用性和復原性目標指標中,以做出這些決策。

若要實作可靠的設計,請徹底考慮設計中的決策點,並瞭解這些決策如何影響您的工作負載。 這份檢查清單和隨附指南會提供資源來協助您做出這些決策。 讓工作負載可靠性成為整個工作負載設計、開發和作業生命週期的集中考慮。

核對清單

以專注於可靠性的方式處理您的設計,以協助確保您設計可復原、可管理且可重複的工作負載。 如果您沒有包含可靠性做法並考慮取捨,您的設計可能會面臨風險。 請仔細考慮檢查清單中涵蓋的所有點,以灌輸系統成功的信心。

  程式碼 建議
RE:01 將工作負載設計集中於簡單與效率。 使用實用的方法來避免不必要的複雜度,同時符合您的商務目標和需求。
RE:02 識別和評等用戶和系統流程。 根據您的業務需求使用關鍵性評估量表來確定流程的優先順序。
RE:03 使用失敗模式分析 (FMA) 來識別工作負載中的潛在失敗。 識別相依性和失敗點,並針對這些失敗開發風險降低策略。
回復:04 定義工作負載的可靠性與復原目標 。 使用目標來指導您的設計,並作為健康模型的基礎。
RE:05
RE:05
RE:05
新增不同層級的備援,特別是針對重要流程,以協助達到您的可靠性目標。 請考慮備援基礎結構元件,例如計算和網路,以及解決方案的多個實例。
RE:06 在應用程式、數據和基礎結構層級實作及時且可靠的調整策略。 根據實際或預測的使用模式來調整策略,並將手動介入降至最低。
RE:07 藉由實作自我保護和自我修復措施,加強工作負載的復原能力。 使用內建功能和妥善建立的雲端模式,協助您的工作負載在期間保持運作,並從事件中復原。
RE:08 藉由套用混亂工程的原則來測試復原和可用性案例。 執行主動故障和模擬負載測試,以確保您的優雅降級實作和擴展策略有效。
RE:09 實作結構化、測試和記載的商務持續性和災害復原 (BCDR) 計劃 ,以符合復原目標。 方案必須涵蓋所有元件和整個系統。
RE:10 測量並建立解決方案健康情況訊號的模型。 從整個工作負載以及單個元件和關鍵流程中,持續擷取上線時間和其他可靠性資料。

後續步驟

建議您檢閱可靠性取捨,以探索其他概念。