社群訓練Microsoft的可靠性
Microsoft社群訓練是一種採用 Azure 的雲端式解決方案,可提供具有高品質和效率的大型廣度訓練計劃。 透過社群訓練,各種大小和類型的組織都可以為其內部和外部社群執行大規模的訓練計劃。 社群可以包括前線工作人員、擴充人力、合作夥伴生態系統、志願者網路和計劃受益者。
本文說明社群訓練的可靠性支援,並涵蓋可用性區域的區域內復原能力,以及災害復原和商務持續性。 如需更多關於 Azure 可靠性準則的詳細概觀,請參閱 Azure 可靠性。
可用性區域支援
Azure 可用性區域是每個 Azure 區域內至少三個實體獨立的資料中心群組。 每個區域內的資料中心都配備了獨立的電源、冷卻系統和網路基礎結構。 在本機區域失敗的案例中,可用性區域的設計在於,當一個區域受影響時,讓其餘兩個區域支援區域服務、容量和高可用性。
這類失敗的範圍可從軟體和硬體故障,擴及到如地震、淹水和火災的事件。 透過 Azure 服務的備援和邏輯隔離,實現對失敗的容錯。 如需深入了解 Azure 的可用性區域,請參閱區域和可用性區域。
已啟用 Azure 可用性區域的服務旨在提供正確程度的可靠性和彈性。 您可以透過兩種方式加以設定。 它們可以是區域備援,具有跨區域自動複寫功能,或者是區域性的,將執行個體釘選在特定區域。 兩種方法可以結合使用。 如需區域與區域備援結構的詳細資訊,請參閱使用可用性區域和區域的建議。
社群訓練會使用 Azure 可用性區域,在 Azure 區域內提供高可用性和容錯。 社群訓練同時提供控制和資料平面可用性區域支援:
必要條件
下列社群訓練 SKU 支援可用性區域:
- 標準 (低階使用者)
- 進階 (高階使用者)
只有配對區域支援社群訓練。 每個次要區域都會使用區域性組態進行部署。 下表顯示支援社群訓練可用性區域及其配對區域的所有區域。
主要區域 | 配對區域 |
---|---|
英國南部 | UKWest |
AustraliaEast | AustraliaSoutheast |
EastUS | WestUS |
EastUS2 | CentralUS |
北歐 | 西歐 |
WestUS3 | EastUS |
SwedenCentral | SwedenSouth |
區域性容錯移轉支援
社群訓練使用許多相依性 Azure 服務,例如 App Service 和 Azure SQL。 當您選擇區域備援部署時,社群訓練也會建立這些基礎 Azure 服務資源的區域性備援供應項目。 如果某個區域失敗,所有資源 (包括相依性資源) 都會容錯轉移至其中一個狀況良好的區域。
建立已啟用可用性區域的資源
社群訓練只會在建立執行個體時提供可用性區域的組態。 如果您想要在建立執行個體之後變更可用性區域組態,您必須建立新的執行個體。 若要了解如何建立社群訓練執行個體,請參閱建立社群訓練。
區域關閉體驗
區域性。 在全區域中斷期間,社群訓練可能會有完全或部分的服務中斷。 可用的範圍取決於各種因素,例如整個數據中心是否關閉,或該區域中是否不再提供特定的相依性服務。
區域備援。 在全區域中斷期間,您不應對已佈建的資源產生任何影響。 不過,您應該做好準備,以因應與這些資源的通訊短暫中斷。 在區域關閉的情況下,用戶端通常會收到 409 錯誤碼,以及重試邏輯嘗試以適當的間隔重新建立連線。 新的要求會導向至狀況良好的節點,而不會對使用者造成影響。 在全區域中斷期間,使用者能夠建立新的資源,並成功調整現有資源。
災害復原和商務持續性
災害復原 (DR) 是指從重大影響事件中復原,例如自然災害或不成功的部署 (導致停機和資料遺失)。 無論原因為何,解決災害的最佳辦法是定義完善且經過測試的 DR 方案,以及主動支援 DR 的應用程式設計。 開始思考建立災害復原方案之前,請參閱設計災害復原策略的建議。
Microsoft 在災害復原方面採取共同責任模型。 在共同責任模型中,Microsoft 確保基準基礎結構和平台服務可供使用。 此時,許多 Azure 服務不會自動複寫資料,或從失敗區域回復為交叉複寫到另一個已啟用的區域。 您需要為這些服務制定適合工作負載的災害復原方案。 在 Azure 平台即服務 (PaaS) 供應項目上執行的多數服務,都有提供支援災害復原的功能和指導,您可以使用特定服務功能復原,制定災害復原方案。
Microsoft 社群訓練小組會管理社群訓練的整個災害復原程序。 災害復原不是主動-主動或主動-被動性質,而是以從 Azure 服務的最新可用備份復原為基礎。 社群訓練小組會從資料備份手動建立配對區域中的所有資源。
注意
只有配對區域支援社群訓練災害復原。
多區域地理位置的災害復原
在區域性災害中,控制平面會手動容錯轉移至配對區域。 在容錯轉移完成前的時間,您應該預期服務效能會有一些降低。 容錯轉移之後,僅支援唯讀作業,直到災害區域重新上線為止。 一旦服務重新上線且所有作業繼續,服務就會手動容錯回復至原始區域。 復原點目標 (RPO) 預期為 10 分鐘;復原時間目標 (RTO) 為 24 小時。
針對資料平面,社群訓練提供 Microsoft 管理的災害復原。 若要使用受控災害復原,您必須在 Azure 中建立社群訓練執行個體期間啟用災害復原。 一旦啟用災害復原,Microsoft 就會在配對區域中維護儲存體和資料庫的備份。 復原點目標 (RPO) 預期為 12 小時;復原時間目標 (RTO) 為 48 小時。
注意
RTO 取決於資料庫和儲存體大小、配對區域之間的延遲。 資料庫或儲存體 VM 容量 (SKU)。 RPO 取決於基礎 Azure 資源,例如 Azure SQL 和 Azure 儲存體。 如需 RTO 和 RPO 的詳細資訊,請參閱災害復原概觀。
中斷偵測、通知及管理
當社群訓練健康情況檢查偵測到任何服務中斷,且在任何區域中,Microsoft 會要求您同意容錯轉移至配對區域。 Microsoft 會通知您災害復原程序期間有哪些功能可以使用。 一旦 Microsoft 收到您的同意,社群訓練小組就可以開始進行災害復原程序。
重要
在主要區域可運作前,學習者將無法取用音訊/視訊功能。 建議您避免媒體上傳作業,直到主要站台可運作為止。
容量和主動式災害復原能力
Microsoft 及其客戶會在共同責任模型下運作。 一旦任何區域關閉,社群訓練執行個體不僅會移轉至配對區域,但所有產品和客戶工作負載也會移轉至配對區域。 此程序可能會導致配對區域或資料中心的資源短缺。 因此,災害復原可用性取決於基礎 Azure 資源的可用容量。