共用方式為


在 Azure VMware 解決方案中的可靠性

Azure VMware 解決方案 提供包含由專用裸機 Azure 基礎設施建構的 VMware vSphere 叢集的私有雲。 你可以從本地環境遷移工作負載、部署新的虛擬機(VM),並從私有雲使用Azure服務。 你可以結合 VMware 與 Azure 原生功能,來實現工作負載的高可用性與韌性。

當您使用 Azure 時, 可靠性是共同的責任。 Microsoft 提供一系列功能來支援韌性和復原。 您有責任瞭解這些功能在您使用的所有服務中如何運作,並選取符合業務目標和正常運作時間目標所需的功能。

本文說明如何讓 Azure VMware 解決方案具備韌性,以應對潛在的中斷與問題,包括暫時性故障、可用性區域中斷及區域中斷。 同時說明如何利用備份來從其他類型的問題中復原,並強調關於 Azure VMware 解決方案服務等級協議(SLA)的一些重要資訊。

生產部署建議

Azure VMware 解決方案的部署需要在多個領域進行謹慎規劃,且通常需要多個 Azure 服務。 詳細指引請參閱 Well-Architected Framework 中的 Azure VMware 解決方案工作負載

可靠性架構概觀

Azure VMware 解決方案使用超融合基礎架構與 VMware vSphere 叢集。

當你部署 Azure VMware Solution 時,你部署的是私 有雲,該私有雲包含一個或多個叢集。 每個叢集包含 ESXi 主機,透過 vSAN 提供運算、儲存,並透過 VMware NSX 提供網路服務。 Azure VMware 解決方案分為兩代:

  • 第一代使用專用裸金屬硬體作為節點,並採用專用網路方式。 欲了解更多關鍵概念,請參閱 Azure VMware 解決方案私有雲與叢集概念
  • Gen 2 使用標準的 Azure 虛擬機類型和 Azure 虛擬網路。 此架構可簡化網路架構、增強數據傳送速率、降低工作負載的延遲,以及改善存取其他 Azure 服務時的效能。

容錯

Azure VMware 解決方案提供多種機制,可在基礎架構與應用層級處理故障:

  • vSphere 高可用性(HA): vSphere HA 監控 ESXi 主機與虛擬機。 如果主機故障,會自動重啟健康主機上受影響的虛擬機。 vSphere HA 預設啟用,並保留運算與記憶體容量以應對單一節點故障。

  • vSAN 容錯性: vSAN 儲存政策透過在主機間維持多份資料副本,來防止儲存層級的暫態故障。 如果儲存路徑或磁碟發生暫時性問題,vSAN 會自動處理切換到健康儲存路徑。

  • 網路冗餘: Azure VMware 解決方案提供冗餘的網路路徑及多個 VMkernel 網路介面卡,以處理網路層級的暫時性故障。

對瞬態故障的彈性

暫時性錯誤是元件中的短暫間歇性失敗。 它們經常出現在雲端等分散式環境中,而且是作業的一般部分。 暫時性錯誤會在短時間內自行修正。 請務必確保您的應用程式能妥善處理暫時性錯誤,通常透過重試受影響的請求來進行。

所有雲端裝載的應用程式在與任何雲端裝載的 API、資料庫和其他元件通訊時,都應該遵循 Azure 暫時性錯誤處理指引。 如需詳細資訊,請參閱 處理暫時性錯誤的建議

對於運行於 Azure VMware 解決方案虛擬機上的應用程式,請實施標準的暫態故障處理實務:

  • 設定適當的重試策略,並以指數退避
  • 使用斷路器模式來呼叫外部服務
  • 監控應用程式健康狀況並實施優雅降級
  • 設計無狀態應用程式以減少虛擬機重啟的影響

對可用性區域故障的抵抗力

可用性區域 是 Azure 區域內物理上獨立的資料中心群組。 當某個區域發生故障時,服務可以切換至其他剩餘的區域。

Azure VMware 解決方案第一代支援透過 伸展叢集來建立可用性區域,將 ESXi 主機分散到同一區域內的兩個可用區域。 Microsoft 會選擇要使用的區域。 你的叢集在兩個區域之間以主動-主動配置運行,vSAN 也會跨越多個區域。 你可以指定每個工作負載是部署在一個還是兩個區域。

見證節點會自動部署到第三個可用性區域,以在分裂腦情境中提供法定人數。 Microsoft 會自動管理這個見證節點。

圖示為在第三個可用性區域建立的受控 vSAN 延伸叢集,資料被複製到三個 AZ。

標準叢集是指不會跨區域拉伸的。 在標準叢集中,叢集及其所有 ESXi 主機被視為 非區域 性或 區域性。 非區域叢集可放置在區域內的任何可用區域,Microsoft 選擇該區域。 若該區域的可用區域發生故障,非區域群聚及主機可能位於受影響區域,並可能出現停機。

Azure VMware 解決方案第二代支援私有雲的 區域 部署。 當你設定區域私有雲時,每個叢集及其所有 ESXi 主機都會部署到你選擇的單一可用性區域。

區域私有雲無法防止可用性區故障。 你可以將多個私有雲部署到不同的可用區域以提升韌性,但你必須獨立地部署和配置每個私有雲。

如果你沒有選擇可用性區域,你的私有雲、叢集以及所有 ESXi 主機都被視為 非區域區域性。 非區域叢集可放置在區域內的任何可用區域,Microsoft 選擇該區域。 若該區域的可用區發生停機,非區域群聚可能會在受影響區域內,並可能出現停機。

若要查看其他世代可用區支援的資訊,請在本頁開頭選擇相應世代。

需求

  • 區域支援: 在支援擴展叢集配置的特定 Azure 區域中,提供拉伸叢集。 請查看 Azure 區域的可用性區到主機類型的映射表,以了解當前的區域支援。

  • 最低主機數: 部署至少六台主機,分布於兩個可用區域(每個區域三台主機),以啟用延伸叢集配置。 當你縮小或擴大時,必須以成對方式進行,確保每個區域的主機數量相等。

  • 主機SKU: 擴展叢集支援 AV36、AV36P 及 AV52 主機類型。 AV64 SKU 不支援延伸叢集。

區域支援: 你可以在同時 支援 Azure VMware Solution Gen 2可用性區域的區域部署區域私有雲。

考慮事項

區域內的每個可用區域可支援特定的主機類型。 欲了解每個區域可用主機類型的詳細清單,請參閱 Azure 區域可用性區的主機類型映射表

費用

無論叢集的可用性區域配置如何,你都會為叢集中的每個節點產生成本。 欲了解詳細價格資訊,請參閱 Azure VMware 解決方案的定價

設定可用性區域支援

  • 部署新叢集: 當你在支援區域建立新的 Azure VMware Solution 私有雲時,可以在部署時將其配置為拉伸叢集。 此配置會自動將主機分配到兩個可用區域。 如需詳細資訊,請參閱 部署 vSAN 延展式叢集

  • 現有的群組: 你無法將標準叢集轉換成拉伸叢集,也無法將拉伸叢集轉換成標準叢集。 相反地,你需要部署一個新的叢集並遷移你的工作負載。

  • 部署新叢集: 當您在支援區域建立新的 Azure VMware Solution 私有雲時,可以選擇其可用性區域。

  • 現有的群組: 你無法更改現有叢集的可用性區域設定。 相反地,你需要部署一個新的叢集並遷移你的工作負載。

所有區域都狀況良好時的行為

本節說明當您的叢集處於擴展狀態且所有可用區域正常運行時,可以預期的情況。

  • 跨區域作業: 虛擬機可以在任一可用性區域的主機上運行。 虛擬機的放置可透過vSphere DRS親和力與反親和規則來控制,以優化效能或可用性需求。

  • 跨區域資料複製: vSAN 能同步複製資料於不同可用性區域。 每次寫入操作在完成前都會由兩個區域確認,確保資料完整性一致。

本節說明當您的叢集部署於區域私有雲,且所有可用區域皆正常運作時,會遇到什麼情況。

  • 跨區域作業: 虛擬機運行於叢集可用性區域內的主機上。

  • 跨區域資料複寫: 沒有任何資料會被複製到其他區域。

區域失敗期間的行為

本節說明當你的叢集被拉長且發生可用區域中斷時,可以預期的情況。

  • 偵測與回應: Azure VMware 解決方案負責管理基礎設施層級對區域故障的回應。 vSphere HA 會自動偵測區域故障,並在必要時啟動虛擬機重啟程序。
  • 運行中的請求: 在失效可用區運行的虛擬機會在可用的存活區的主機上重新啟動。 對受影響虛擬機的主動請求與連線會被終止,客戶端需負責重新嘗試。

  • 預期的停機時間: 在健康區域中重新啟動失敗的虛擬機通常需要幾分鐘,視虛擬機設定和啟動程序而定。 這個加長的集群仍能運作,但容量有所減少。

    如果失敗的可用區包含見證節點,該見證節點將無法被存取。 只要仍有足夠的資料副本可用,資料主機與正在運行的工作負載即可持續運作,且不會立即遺失資料。 然而,vSAN 在此狀態下失去對法定人數的感知,導致無法安全地做出放置與恢復決策,並導致某些操作被阻擋,例如失敗後的虛擬機開機、重新平衡及修復。

  • 預期資料遺失: 因為 vSAN 在區域間使用同步複製,因此區域故障時不會有資料遺失。

  • 重新分發: vSphere DRS 會自動將虛擬機工作負載重新分配到存續的可用性區域。 透過 VMware NSX 的網路流量路由會自動調整新的虛擬機配置。

本節說明當你的叢集部署在區域私有雲中,且發生可用性區域中斷時,可以預期的情況。

  • 偵測與回應: 你需要偵測可用性區塊的流失。 如果需要,你可以啟動故障轉移至你在另一個可用區域預先建立的備援叢集。
  • 作用中請求: 對受影響虛擬機的作用中請求和連線會被終止,客戶端需自行重新嘗試。

  • 預期的停機時間: 當某個區域無法使用時,你的叢集及其工作負載將無法使用,直到可用區域恢復。

  • 預期資料遺失: 受影響區域的資料在該區域恢復前無法取得。

  • 重新劃分: 如果需要,你負責將流量切換到健康區域內的其他叢集。

區域復原

當可用性區域恢復後,vSphere DRS 可以根據你的 DRS 設定和親和規則,選擇性地將虛擬機重新分配回恢復的區域。 你也可以用 vMotion 操作手動控制虛擬機的擺放。

當可用區域恢復時,該區域內的叢集與主機又會重新可用。 您負責工作負載所需的任何區域復原程序和資料同步處理。

測試區域失敗

你可以透過以下方式模擬區域失效:

  • 利用 vSphere 將主機置於維護模式,模擬區域層級故障。

  • 驗證備份與監控系統在模擬故障期間仍能正常運作。

  • 測試應用程式對虛擬機重啟和網路路徑變更的韌性,特別是當你有分散叢集或在不同區域的獨立叢集部署應用程式時。

因為 Azure VMware 解決方案負責管理區域故障的基礎設施回應,你主要需要測試應用程式對虛擬機重啟的反應。

你要負責對區域故障的任何基礎設施回應,例如切換到不同區域或區域內的其他叢集。 務必徹底測試你的回應流程。

對區域範圍故障的復原能力

每個 Azure VMware 解決方案叢集部署於單一 Azure 區域內。 如果該區域無法使用,你的私有雲及其內的所有資源也將無法使用。

然而,您也可以設計客製化的多區域解決方案,結合不同方法或整合現有基礎設施,以符合您的特定業務需求與復原目標。

自訂多區域解決方案,以實現復原能力

為了在 Azure VMware 解決方案中實現多區域韌性,您需要在多個區域部署獨立的私有雲,並實施故障轉移及其他災難復原解決方案。

有多種選項以支援不同需求。 欲了解更多資訊,請參閱 Azure VMware 的第三方備份與災難復原解決方案:限制、相容性與已知問題

備份與還原

Azure VMware 解決方案會自動備份管理元件(如啟用 vCenter Server、NSX Manager 及 HCX Manager)。 要從這些管理備份還原,請建立 Azure 支援請求。

針對你的虛擬機工作負載,Azure VMware 解決方案支援多種備份方式。 欲了解更多詳細資訊,請參閱 Azure VMware Solution VM 的備份解決方案

服務維護的韌性

Azure 會自動執行平台維護,以套用安全更新、部署新功能並提升服務可靠性。

想了解維護對 Azure VMware 解決方案元件的影響,以及了解你負責維護的元件與 Microsoft 維護的元件,請參閱 Azure VMware Solution 私有雲維護的最佳實務

你可以設定叢集的維護時段,以降低維護影響生產工作負載的可能性。 欲了解更多資訊,請參閱 「規劃 Azure VMware Solution (公開預覽版)自助維護」。

服務等級協定

Azure 服務的服務等級協定 (SLA) 描述服務的預期可用性,以及解決方案必須符合才能達到該可用性預期的條件。 如需詳細資訊,請參閱 在線服務的 SLA

Azure VMware 解決方案為工作負載基礎設施及管理操作提供不同的可用性 SLA。

配置為伸縮叢集的叢集擁有較高的基礎設施可用性水平協議 (SLA) 的工作負載。

然而,為了符合可用性 SLA,你必須以特定方式配置叢集。 詳情請參閱服務協議文本。