了解 BCP 功能驗證

已完成

功能驗證是 ERCM 生命週期不可或缺的一部分。 其涉及在理論與實務中測試商務持續性計劃 (BCP) 有效性。 每個服務小組會定期測試其 BCP,以測量方案有效性和服務小組執行計劃的整備程度。 根據 ERCM 計劃指導方針,BCP 和功能驗證的年度檢閱必須在上次檢閱的 12 個月內進行,並包含支援檔的檢閱,例如 BIA 和 DA。

功能驗證階段: - 開發案例、 - 進行驗證、 - 文件結果、 - 識別缺口和改善

驗證層級

為了驗證各種潛在事件的復原和復原策略,ERCM 計劃會定義影響人員、位置和技術的多種測試案例類別。 個別服務小組可自由地在 ERCM 測試案例指導方針中定義自己的特定測試。

測試案例的範例包括:

  • 主要建築物或校園叢集遺失
  • 技術中斷
  • 區域性網路中斷
  • 關鍵第三方中斷
  • 員工中斷
  • 廣泛區域性事件
  • 單一資料中心遺失
  • 網路攻擊
  • 疫情

在每個測試案例的情境中,Microsoft 定義八個層級的驗證 (從 0 到 7),這表示功能在測試期間已完全啟用。 生產環境外部商務持續性計劃的層級 1 到 4 測試功能。 層級 5 到 7 要求在生產環境中對復原策略進行越來越嚴格的驗證,第 7 層則要求驗證整個應用程式生態系統的復原計畫,包括所有相依性。 每個服務所需的驗證層級都是以服務的重要性為基礎,而比較重要的服務會收到更嚴格的驗證。 我們會透過服務信任入口網站上每季提供的報告,為客戶提供選取的 Microsoft Online Services 功能驗證結果。

回應影響服務的事件

當 Microsoft 必須執行商務持續性計劃以回應影響服務的事件時,功能驗證和持續 BCM 改善的價值就會變明顯。 當颶風哈維襲擊德州並對我們的聖安東尼奧資料中心造成預期的影響時,Exchange Online 團隊啟動了商務持續性計畫,主動撤離來自該資料中心的流量,以避免對我們的客戶造成任何影響。 一旦威脅通過,資料中心就會遵循明確定義的復原程序,回到正常運作,而不會發生任何事件。 這些程序已備妥,因為 Exchange Online 已根據從先前自然災害學到的經驗更新並測試其持續性計畫,以確保計畫在真正緊急期間有效。

從內部事件學到的經驗也支援商務持續性改善。 當 Microsoft 公司網路因為群組原則部署錯誤而發生 DNS 中斷時,客戶會受到保護,免於受到任何影響,因為公司網路與不同錯誤區域中的商務服務隔開。 不過,Microsoft 的內部通訊受到影響,因此更難以協調來解決事件。 此事件導致建立緊急狀態通訊協定,以在影響內部通訊的事件期間,在 Microsoft 的小組之間共同合作。

深入了解