什麼是商務持續性、高可用性和災害復原？

本文定義並描述透過高可用性和災害復原設計進行風險管理方面的商務持續性和商務持續性規劃。雖然本文並未提供有關如何符合您自己商務持續性需求的明確指導，但其可協助您了解 Microsoft 的可靠性指導期間使用的概念。

「商務持續性」是指企業在失敗、中斷或災難期間仍能持續營運的狀態。商務持續性需要主動式規劃、準備，並實作復原性的系統與流程。

規劃商務持續性需要識別、了解、分類和管理風險。根據了解風險及其可能性，您可以設計健康的商務持續性計劃，以達到符合您業務需求的高可用性（HA）和災害復原（DR）策略。

「高可用性」是關於將解決方案設計成對日常問題具備復原性，且能夠滿足企業對可用性的需求。

「災害復原」是針對非常見風險與可能導致之重大中斷情況進行規劃。

商務持續性

一般而言，雲端解決方案會與商務營運直接相關。每當雲端解決方案無法使用或遇到嚴重問題時，其可能會對商務營運帶來嚴重影響。嚴重影響可能會中斷商務持續性。

對商務持續性的嚴重影響可能包括：

失去業務收入。
無法為使用者提供重要的服務。
違反對客戶或另一方所做的承諾。

請務必了解並向重要利害關係人溝通業務期望及失敗的後果，這包括那些設計、實作和運作工作負載的人員。然後，作為回應，那些利害關係人會共用達成該願景所涉及的成本。通常會有一個根據預算和其他限制針對該願景進行談判和修訂的流程。

商務持續性規劃

若要控制或完全避免對商務持續性造成負面影響，請務必主動建立「商務持續性方案」。商務持續性方案是以風險評定為基礎，並開發透過各種方法控制那些風險的方法。針對每個組織和工作負載，特定的風險和用於緩解的方法都會有所不同。

商務持續性方案不僅會將雲端平台本身的復原功能納入考量，也會考慮應用程式的功能。強固的商務持續性方案也會納入商務中支援的所有層面，包括人員、商務相關手冊或自動化流程，以及其他技術。

商務持續性計畫應包括下列循序步驟：

關鍵等級分類。工作負載可依其對業務的重要性分類為不同的關鍵等級。每個層級對可用性的要求不同，因此對業務持續性規劃的要求也不同。要確定你工作負載的關鍵層級，請參見 Well-Architected 框架 - 選擇你的關鍵層級。
「風險識別」。識別對工作負載的可用性或功能的風險。可能的風險包括網路問題、硬體失敗、人為錯誤、區域中斷等。了解每個風險能帶來的影響。
「風險分類」。將每個風險分類為應納入高可用性方案的一般風險，或是應作為災害復原規劃之一部分的不常見風險。
「風險降低」。設計適用於高可用性或災害復原的風險降低策略，以透過例如使用備援、複寫、容錯移轉和備份將風險降至最低或加以緩解。此外，請考慮採用非技術型和以流程為基礎的風險降低和控制。

商務持續性規劃是一個流程，而不是一次性事件。應定期檢閱和更新所建立的任何商務持續性方案，以確保其維持相關且有效，並支援最新的商務需求。

風險識別

商務持續性規劃的初始階段是識別對工作負載可用性或功能的風險。應該分析每個風險，以了解其可能性和嚴重性。嚴重性必須包括任何潛在的停機或資料遺失，以及解決方案其餘的設計是否有任何層面可能可以補償負面影響。

下表是一份非詳盡的風險清單，依可能性遞減排序：

範例風險	Description	規律性 (可能性)
暫時性網路問題	網路堆疊的元件發生暫時性的失敗，其可在短時間內復原 (通常是幾秒鐘或更少)。	定期的
虛擬機器重新開機	將您或相依服務使用的虛擬機器重新開機。重新開機可能會因為虛擬機器當機或需要套用修補程式而發生。	定期的
硬體失敗	發生資料中心內元件的失敗，例如硬體節點、機架或叢集。	偶爾
資料中心中斷	發生影響大部分或所有資料中心的中斷，例如電源故障、網路連線問題，或與冷暖設備相關的問題。	不尋常
區域中斷	發生影響整個大都市區域或更廣泛區域的中斷，例如重大自然災害。	非常不尋常

商務持續性規劃不只是關於雲端平台和基礎結構。請務必考慮人為錯誤的風險。此外，傳統上可能視為安全性、效能或作業風險的一些風險，也應該被視為可靠性風險，因為其會影響解決方案的可用性。

以下是一些範例：

範例風險	Description
資料遺失或損毀	資料因意外或如勒索軟體攻擊的安全性缺口而刪除、覆寫或以其他方式損毀。
軟體 BUG	因部署新的或更新過的程式碼而引進影響可用性或完整性的 BUG，使工作負載處於故障狀態。
失敗的部署	因新元件或版本在部署上的失敗，使解決方案處於不一致的狀態。
阻拒絕服務的攻擊	系統遭到攻擊，以試圖防止對解決方案的合法使用。
流氓系統管理員	具有系統管理權限的使用者刻意對系統執行破壞性動作。
應用程式出現非預期的流量湧入	流量激增讓系統資源不堪重負。

「失敗模式分析」 (FMA) 是識別工作負載或其元件可能失敗之潛在方式的流程，以及解決方案在那些情況下的運作方式。若要深入了解，請參閱執行失敗模式分析的建議 (部分機器翻譯)。

風險分類

商務持續性方案必須同時解決常見和不常見風險。

「常見風險」是規劃中且預期的風險。例如，在雲端環境中，常見短暫的故障或異常現象，包括短暫的網路中斷、因修補程式導致的設備重啟、服務繁忙時的逾時等。由於這些事件會定期發生，因此工作負載必須對其具備復原性。

高可用性策略必須針對此類型的每個風險進行考量和控制。
「不常見風險」通常是意外事件的結果，例如自然災害或重大網路攻擊，其可能會導致災難性的中斷。

災害復原流程會處理這些罕見的風險。

高可用性和災害復原是相互關聯的，因此請務必共同規劃這兩者的策略。

風險分類依工作負載架構與業務需求而定，有些風險可分為一種工作負載的 HA 與另一種工作負載的 DR。例如，Azure 區域全面中斷通常會被視為該區域工作負載的災難風險。但對於使用多個 Azure 區域並採用主動-主動配置、具備完整複製、冗餘及自動區域故障轉移的工作負載，區域故障被歸類為 HA 風險。

風險降低

風險降低包括開發高可用性或災害復原策略，以將商務持續性的風險降到最低或加以緩解。風險降低可以是技術型或人為型的。

技術型風險降低

技術型風險降低會使用以工作負載實作和設定方式為基礎的風險控制，例如：

Redundancy
資料複寫
故障轉移
Backups

技術型風險控制必須在商務持續性方案的內容內考慮。

例如：

低停機需求。 由於嚴格的高可用性需求，某些商務持續性方案無法容忍任何形式的停機風險。某些技術型控制可能需要花時間通知人類，然後才能做出回應。包括緩慢手動流程的技術型風險控制可能不適合納入其風險降低策略。
對部分失敗的容錯。 某些商務持續性方案能夠容忍以「降級狀態」執行的工作流程。當解決方案處於降級狀態時，某些元件可能會停用或無法運作，但核心商務作業可以繼續執行。若要深入了解，請參閱自我修復和自我保護的建議 (部分機器翻譯)。

人為型風險降低

人為型風險降低會使用以商務流程為基礎的風險控制，例如：

觸發回應劇本。
回復為手動作業。
訓練和文化變更。

這很重要

負責設計、實作、操作和不斷改良工作負載的人員應該要是稱職的，同時要鼓勵他們在有疑慮時勇於發聲，並使他們對系統抱持責任感。

由於人為型風險控制與比技術型控制比起來通常較為緩慢，而且更容易發生人為錯誤，因此良好的商務持續性方案應該要針對會改變執行中系統之狀態的任何項目，包括一個正式的變更控制流程。例如，請考慮實作下列流程：

根據工作負載關鍵性嚴格測試您的工作負載。若要防止變更相關問題，請務必測試對工作負載所做的任何變更。
引入策略性品質閘門作為您工作負載安全部署做法的一部分。若要深入了解，請參閱安全部署做法的建議 (部分機器翻譯)。
將臨機作生產存取和資料操作的程序正規化。這些活動，無論有多麼輕微，在造成可靠性事件上都具有高度風險。程序可能包括與另一位工程師搭檔、使用檢查清單，以及在執行指令碼或套用變更之前進行同儕審查。

高可用性

高可用性是特定工作負載日常維持其必要可用時間的狀態，即便是在發生暫時性失敗和間歇失敗的期間。由於這些事件會定期發生，因此請務必根據特定應用程式和客戶期望的需求，針對高可用性設計及設定每個工作負載。每個工作負載的高可用性都能為您的商務持續性方案做出貢獻。

由於高可用性會依每個工作負載而有所不同，因此在判斷高可用性時，請務必了解需求和客戶期望。例如，組織用來訂購辦公室用品之應用程式的可用時間需求可能相對較低，而重要的財務應用程式可能需要更高的可用時間。即使在某個工作負載內，不同的「流程」也可能會有不同的需求。例如，在電子商務應用程式中，支援客戶瀏覽和下單的流程，可能比訂單履行和後台處理流程更為重要。若要深入了解流程，請參閱識別和評等流程的建議 (部分機器翻譯)。

通常，可用時間是根據可用時間百分比中的「九」的數目來測量。可用時間百分比與您在指定時間內允許的停機有關。以下是一些範例：

99.9% 的可用時間需求 (三個九) 允許在一個月內大約 43 分鐘的停機。
99.95% 的可用時間需求 (三個半的九) 允許在一個月內大約 21 分鐘的停機。

可用時間需求越高，對中斷的承受度就越低，且在達成該可用性層級上所需進行的工作就越多。可用時間不是由單一元件 (例如節點) 的可用時間來測量，而是透過整個工作負載的整體可用性來測量。

這很重要

請勿對您的解決方案進行過度的工程設計來達成比合理程度更高的可靠性。使用商務需求來引導您的決策。

高可用性設計元素

若要達成高可用性需求，工作負載可以包括一些設計元素。本節將列出一些常見的元素，如下所述。

備註

某些工作負載是「任務關鍵性」工作負載，這表示任何停機都可能會對人類生命和安全造成嚴重後果，或造成重大財務損失。如果您要設計任務關鍵性工作負載，當您設計解決方案並管理商務持續性時，需要考慮一些特定事項。欲了解更多資訊，請參閱 Azure Well-Architected 框架：關鍵任務負載。

支援高可用性的 Azure 服務與層級

許多 Azure 服務設計為高可用性，並可用來建立高可用性的工作負載。以下是一些範例：

Azure 虛擬機器擴展集透過自動建立和管理虛擬機實例，並分發這些虛擬實例，為虛擬機（VM）提供高可用性，以降低基礎設施故障的影響。
Azure App 服務透過多種方法提供高可用性，包括自動將工作者從不健康節點移動到健康節點，以及提供多種常見故障類型的自我修復能力。

使用每個服務可靠性指南來了解服務的功能、決定要使用的層級，以及決定要在高可用性策略中包括哪些功能。

檢閱每個服務的服務等級協定 (SLA)，以了解您需要符合的預期可用性層級和條件。您可能需要選取或避免特定層級的服務，才能達到特定層級的可用性。有些來自 Microsoft 的服務，是以未提供 SLA 為前提 (例如開發或基本層)，或是以可能會從您執行中的系統回收資源 (例如現成型供應項目) 為前提提供的。此外，某些層級已新增可靠性功能，例如對可用性區域 (部分機器翻譯) 的支援。

容錯

容錯是在發生失敗時，讓系統以某種預先定義的效能繼續運作的能力。例如，即使發生單一網頁伺服器失敗，Web 應用程式的設計仍可能使其能繼續運作。容錯可透過備援、容錯移轉、資料分割、柔性降低和其他技巧來達成。

容錯也需要您的應用程式處理暫時性錯誤。當您建置自己的程式碼時，您可能需要自行啟用暫時性錯誤處理。部分 Azure 服務在某些情況下提供內建的暫態故障處理。例如，預設情況下，Azure Logic Apps 會自動重試向其他服務失敗的請求。若要深入了解，請參閱處理暫時性錯誤的建議 (英文)。

Redundancy

備援是複製執行個體或資料以增加工作負載可靠性的做法。

可以透過下列其中一種方式，藉由散發複本或備援執行個體來達成備援：

資料中心內 (「本地備援」)
在區域內的可用性區域之間 (「區域備援」)
跨區域 (「異地備援」)。

以下是一些 Azure 服務提供冗餘選項的範例：

Azure App 服務讓你能執行多個應用程式實例，確保即使其中一個實例失敗，應用程式仍能保持可用。如果你啟用區域冗餘，這些實例會分散在你使用的 Azure 區域內多個可用區域。
Azure 儲存體透過自動複製至少三次資料，提供高可用性。您可以藉由啟用區域備援儲存體 (ZRS) 將那些複本散發到可用性區域上，且在許多區域中，您也可以使用異地備援儲存體 (GRS) 跨區域複寫儲存體資料。
Azure SQL Database 有多個副本，以確保即使其中一個副本失敗，資料仍能保持可用。

若要深入瞭解備援的運作方式，請參閱備援、復寫和備份。若要瞭解如何在解決方案中套用備援，請參閱設計備援的建議和使用可用性區域的建議。

延展性和彈性

可擴縮性和彈性是系統藉由新增和移除資源來處理增加負載的能力 (可擴縮性)，以及隨著您需求的變更更快速處理的能力 (彈性)。可擴縮性和彈性可協助系統在尖峰負載期間維持可用性。

許多 Azure 服務都支援可擴展性。以下是一些範例：

Azure 虛擬機器擴展集、Azure API 管理和其他幾項服務支援Azure 監視器自動縮放。 Azure 監視器自動縮放時，您可以設定策略，例如「當 CPU 持續高於 80% 時，新增一個實例」。
Azure Functions 可以動態配置實例來回應你的請求。
Azure Cosmos DB 支援自動擴展吞吐量，服務能根據您指定的政策自動管理分配給資料庫的資源。

可擴縮性是部分或完整故障期間需要考慮的一個關鍵因素。如果複本或計算執行個體無法使用，其餘元件可能需要承擔更多負載，才能處理先前由失敗節點處理的負載。如果您的系統無法快速調整以處理預期的負載變更，請考慮採取「超額佈建」的做法。

如需如何設計可調整且具彈性系統的詳細資訊，請參閱設計可靠調整策略的建議 (部分機器翻譯)。

零停機部署技巧

部署和其他系統變更會造成停機的重大風險。由於停機時間風險是高可用性需求的挑戰，因此請務必使用零停機部署做法，來在不造成任何必要停機的情況下進行更新和設定變更。

零停機部署技巧可能包括：

一次只更新資源的一個子集。
控制到達新部署的流量數量。
監視對您使用者或系統的任何影響。
快速補救問題，例如復原至先前已知良好的部署。

若要深入了解零停機部署技巧，請參閱安全部署做法 (部分機器翻譯)。

Azure 本身對我們自己的服務採用零停機部署方式。當您建置自己的應用程式時，您可以透過各種做法採用零停機部署，例如：

Azure 容器應用程式提供多次應用程式版本，可用於實現零停機部署。
Azure Kubernetes Service（AKS）支援多種零停機部署技術。

雖然零停機部署通常與應用程式部署相關聯，但也應該用於設定變更。以下是您可以安全地套用設定變更的一些方式：

Azure 儲存體允許你在多個階段更改 storage 帳號的存取金鑰，避免金鑰輪替操作時的停機。
Azure 應用程式組態提供功能旗標、快照及其他功能，幫助你控制配置變更的套用方式。

如果您決定不實作零停機部署，請務必定義「維護時段」，以便在使用者預期的時間進行系統變更。

自動化測試

請務必測試您解決方案承受您認為位於高可用性範圍中的中斷和失敗的能力。許多這些失敗都可以在測試環境中模擬。測試解決方案自動容許或從各種錯誤類型中復原的能力，稱為「混沌工程」。混沌工程對於具有嚴格高可用性標準的成熟組織而言非常重要。 Azure Chaos Studio 是一種混沌工程工具，可以模擬一些常見的故障類型。

若要深入了解，請參閱設計可靠性測試策略的建議 (部分機器翻譯)。

監視和警示

監視可讓您知道系統的健康情況，即使是在發生自動化移轉的期間。監視對於了解解決方案的行為，以及監視失敗的早期訊號 (例如錯誤率的增加或高資源使用量) 來說非常重要。透過警示，您可以主動接收環境中的重要變更。

Azure 提供多種監控與警示功能，包括以下幾項：

Azure 監視器會從Azure資源和應用程式收集日誌與指標，並能發送警示並在儀表板中顯示資料。
Azure 監視器 Application Insights 提供對您的應用程式的詳細監控。
Azure 服務健康狀態和 Azure 資源健康狀態監控Azure平台及資源的健康狀況。
Scheduled Events (部分機器翻譯) 會在已針對虛擬機器規劃維護時提供建議。

如需詳細資訊，請參閱設計可靠監視和警示策略的建議 (部分機器翻譯)。

災害復原

「災害」是一個明顯、罕見且重大的事件，其影響比起應用程式透過其設計的高可用性層面所能緩解的幅度還要更大且更久。災害範例包括：

「自然災害」，如颶風、地震、洪水或火災。
「造成重大影響的人為錯誤」，例如意外刪除生產資料，或公開敏感資料的錯誤設定防火牆。
「重大安全性事件」，例如阻拒絕服務或勒索軟體攻擊，導致資料損毀、資料遺失或服務中斷。

「災害復原」是關於規劃如何回應這些類型的情況。

備註

您應該遵循解決方案的建議做法，以將這些事件的可能性降到最低。不過，即使在仔細主動規劃之後，您還是應該謹慎地規劃在發生這些情況時要如何加以回應。

災害復原需求

由於災害事件的罕見性和嚴重性，災害復原規劃會為您的回應帶來不同的期望。許多組織都接受一個事實，即在災害案例中，發生某種程度的停機或資料遺失都是不可避免的。完整的災害復原方案必須為每個流程指定下列重要商務需求：

復原點目標 (RPO) 是發生災害時可接受的資料遺失持續時間上限。 RPO 是以時間單位來測量，例如「30 分鐘的資料」或「四小時的資料」。
復原時間目標 (RTO) 是發生災害時可接受的停機持續時間上限，其中「停機」是由您的規格所定義。 RTO 也會以時間單位來測量，例如「八小時的停機」。

顯示範例災難時間表的圖表，其中 RTO 和 RPO 持續時間以小時為單位。

工作負載中的每個元件或流程可能都會有個別的 RPO 和 RTO 值。在決定需求時，請檢查災害案例風險和潛在復原策略。指定 RPO 和 RTO 的程序會因為您獨特的商務考慮 (成本、影響、資料遺失等)，有效地為工作負載建立災害復原需求。

備註

雖然將 RTO 和 RPO 的目標設定為零 (在發生災害時無停機且無資料遺失) 是一個很吸引人的做法，但在實務上這是很難實作且成本高昂的事。技術和商務利害關係人必須一起討論這些需求，並決定較為實際的需求。如需詳細資訊，請參閱定義可靠性目標的建議。

災害復原方案

不論災害原因為何，請務必建立妥善定義且可測試的災害復原方案。該方案將作為基礎結構和應用程式設計的一部分，以積極為其提供支援。您可以針對不同類型的情況建立多個災害復原方案。災害復原方案通常需仰賴流程控制和手動介入。

DR 並不是 Azure 的自動功能。不過，許多服務確實提供可用來支援災害復原策略的功能和能力。你應該查閱每個 Azure 服務的可靠性指南，以了解每個服務的運作方式及其功能，然後將這些功能對應到你的災難復原計劃。

強有力的災難恢復計畫能將策略轉化為具體行動。它提供明確的災難應對路線圖，減少停機時間，並確保業務持續運作。

為達成此目標，每個災難復原計畫都應包含明確的執行手冊、明確的溝通計畫，以及結構化的升級流程。欲了解更多關於這些災難復原計畫元素，請參閱 Well-Architected 框架-記錄你的災難復原計畫。

以下章節列出災難復原計畫中常見的做法，並說明 Azure 如何協助你達成這些目標。

容錯移轉和容錯回復

某些災害復原方案牽涉到在另一個位置佈建次要部署。如果災害影響解決方案的主要部署，流量就可以「容錯移轉」至另一個站點。容錯移轉需要仔細規劃和實作。 Azure 提供多種協助故障轉移的服務，例如：

Azure Site Recovery 提供本地環境及在 Azure 中虛擬機器託管解決方案的自動故障轉移功能。
Azure Front Door 和 Azure 流量管理員支援在不同區域的解決方案部署之間，自動進行流量故障轉移。

容錯移轉流程通常需要一些時間，才能偵測主要執行個體失敗，並切換至次要執行個體。請確定工作負載的 RTO 與容錯移轉時間一致。

也請務必考慮「容錯回復」，其是您在主要區域復原後用來還原作業的流程。容錯回復在規劃和實作上可能會很複雜。例如，主要區域中的資料可能是在容錯移轉開始「之後」才寫入。您必須針對如何處理該資料做出仔細的商務決策。

如需詳細資訊，請參閱故障轉移和容錯回復。

Backups

備份涉及擷取資料的複本，並將其安全地儲存一段定義的時間。透過備份，您可以在無法自動容錯移轉到另一個複本，或是發生資料損毀時，從災害中復原。

使用備份作為災害復原方案的一部分時，請務必考慮下列事項：

儲存位置。 當您使用備份作為災害復原方案的一部分時，應該將其與主要資料分開儲存。通常備份會儲存在另一個 Azure 區域。
「資料遺失」。由於備份通常不常進行，因此備份復原通常會涉及資料遺失。基於這個理由，備份復原應該作為最後手段使用，而災害復原方案應該要指定從備份還原「之前」必須先進行的一系列步驟和復原嘗試。請務必確定工作負載 RPO 與備份間隔一致。
「復原時間」。備份復原通常需要時間，因此請務必測試備份和復原流程以確認其完整性，並了解復原流程需要花費多久時間。請確定工作負載的 RTO 會將還原備份所需的時間納入考量。

許多 Azure 資料與儲存服務支援備份，例如以下幾項：

Azure 備份提供虛擬機磁碟、儲存帳號、AKS 及其他多種來源的自動備份。
許多Azure資料庫服務，包括Azure SQL Database和Azure Cosmos DB，都具備資料庫的自動備份功能。
Azure Key Vault 提供備份您的秘密、憑證和金鑰的功能。

欲了解更多備份與還原的復原策略，請參閱 Well-Architected 框架 - 備份與還原復原策略。

自動化部署

為了在災難發生時快速部署與配置所需資源，請使用基礎設施即程式碼（IaC）資產，如 Bicep 檔案、ARM 範本或 Terraform 設定檔。相較於手動部署和設定資源，使用 IaC 可減少復原時間和發生錯誤的可能性。

測試和鑽研

請務必定期驗證和測試災害復原方案，以及更廣泛的可靠性策略。請在您的演練中包括所有人為流程，而不只是專注於技術流程。

如果您尚未在災害模擬中測試復原流程，您在實際災害中使用這些流程時，便更有可能面臨重大問題。此外，藉由測試災害復原方案和必要流程，您可以驗證 RTO 的可行性。