此檢查清單提供一組建議,讓您用來評估架構設計中的可靠性、復原和失敗復原策略。 若要確保可靠性,請識別工作負載的最佳基礎結構和應用程式設計。 根據企業需求,並將其映射到可用性和復原性目標指標中,以做出這些決策。
若要實作可靠的設計,請徹底考慮設計中的決策點,並瞭解這些決策如何影響您的工作負載。 這份檢查清單和隨附指南會提供資源來協助您做出這些決策。 讓工作負載可靠性成為整個工作負載設計、開發和作業生命週期的集中考慮。
核對清單
以專注於可靠性的方式處理您的設計,以協助確保您設計可復原、可管理且可重複的工作負載。 如果您沒有包含可靠性做法並考慮取捨,您的設計可能會面臨風險。 請仔細考慮檢查清單中涵蓋的所有點,以灌輸系統成功的信心。
程式碼 | 建議 | |
---|---|---|
☐ | RE:01 | 將工作負載設計集中於簡單與效率。 使用實用的方法來避免不必要的複雜度,同時符合您的商務目標和需求。 |
☐ | RE:02 | 識別和評等用戶和系統流程。 根據您的業務需求使用關鍵性評估量表來確定流程的優先順序。 |
☐ | RE:03 | 使用失敗模式分析 (FMA) 來識別工作負載中的潛在失敗。 識別相依性和失敗點,並針對這些失敗開發風險降低策略。 |
☐ | 回復:04 | 定義工作負載的可靠性與復原目標 。 使用目標來指導您的設計,並作為健康模型的基礎。 |
☐ |
RE:05 RE:05 RE:05 |
新增不同層級的備援,特別是針對重要流程,以協助達到您的可靠性目標。 請考慮備援基礎結構元件,例如計算和網路,以及解決方案的多個實例。 |
☐ | RE:06 | 在應用程式、數據和基礎結構層級實作及時且可靠的調整策略。 根據實際或預測的使用模式來調整策略,並將手動介入降至最低。 |
☐ | RE:07 | 藉由實作自我保護和自我修復措施,加強工作負載的復原能力。 使用內建功能和妥善建立的雲端模式,協助您的工作負載在期間保持運作,並從事件中復原。 |
☐ | RE:08 | 藉由套用混亂工程的原則來測試復原和可用性案例。 執行主動故障和模擬負載測試,以確保您的優雅降級實作和擴展策略有效。 |
☐ | RE:09 | 實作結構化、測試和記載的商務持續性和災害復原 (BCDR) 計劃 ,以符合復原目標。 方案必須涵蓋所有元件和整個系統。 |
☐ | RE:10 | 測量並建立解決方案健康情況訊號的模型。 從整個工作負載以及單個元件和關鍵流程中,持續擷取上線時間和其他可靠性資料。 |
後續步驟
建議您檢閱可靠性取捨,以探索其他概念。