共用方式為


電信業者等級工作負載的測試與驗證

持續測試和驗證可以偵測並協助解決問題,再成為潛在的生命威脅。 請考慮已知的測試方法,例如混亂測試。 應針對應用程式的存留期進行測試,因為部署環境很複雜且多層。

重要

如需如何為您的任務關鍵性工作負載實作持續驗證的詳細資訊, 請參閱這裡

此外,在應用程式存留期內,支援能力必須強大。 高可用性系統依賴高品質的支援小組,能夠快速回應並解決現場的問題、進行根本原因分析,並尋找系統設計缺陷。

證明應用程式結構良好,需要測試,最好使用混亂測試架構來避免測試偏差。 此方法會模擬所有相依元素的失敗。 健全且週期性測試應該同時證明設計和驗證原始失敗模式分析。

任何無法測試備援或復原量值的應用程式或服務,都應該引發警告旗標,因為它被視為 有風險

如果未測試備援和復原措施,則從安全關鍵的觀點來看,唯一有效的假設是這些量值不會在需要時運作。 例如,使用軟體升級、組態更新和錯誤復原的常見路徑,提供良好的機制來驗證量值會正常運作。

人為錯誤

來自 Telcos 的經驗是,所有中斷的 60% 實際上都是人為錯誤的結果。 架構良好的應用程式可辨識此情況,並尋求補償。 以下是一些建議的方法,但清單並不詳盡,而且特定工作負載適用的方法必須逐一考慮。

  • 將自動化的使用最大化,可避免人類操作員必須輸入冗長且複雜的命令,或跨多個元素進行重複的作業。 不過,請務必小心考慮快顯半徑,因為自動化實際上會放大設定錯誤的效果,讓它在幾秒內跨全域網路推出。 建議您先進行下一個步驟,才能進行強式檢查和平衡,例如需要人工核准的決策閘道。
  • 利用語法檢查工具和模擬工具,將錯誤或無法預期的副作用從變更變成廣泛生產環境的可能性降到最低。
  • 使用謹慎控制的 Canary 部署,可確保可以在有限的範圍內觀察和驗證完整生產環境變更的影響。
  • 確保錯誤復原所需的管理介面和程式與日常作業中使用的管理介面和程式相同,可避免操作員在尖峰壓力時 (MOP) 遇到不熟悉的螢幕,以及幾乎使用的程式方法。

用戶端

常見的用戶端程式庫也是端對端系統的一部分,而且需要對等的分析與測試。 同時影響系統用戶端比例之常見用戶端程式代碼中的軟體問題,將會以與應用程式伺服器端問題相同的方式影響整體可用性。

後續步驟

重新流覽架構卓越五大要素,為您的貨運業者等級工作負載形成穩固的基礎。