共用方式為


Azure 虛擬桌面的災害復原概念

Azure 虛擬桌面在最近幾年已大幅成長為遠端和混合式工作解決方案。 由於許多使用者現在在遠端工作,因此組織需要具有高部署速度且降低成本的解決方案。 使用者也需要具備保證可用性和復原能力的遠端工作環境,讓他們即使在災害期間也能存取其虛擬機器。 本文件說明我們建議讓組織保持運作的災害復原計畫。

若要避免系統中斷或停機,Azure 虛擬桌面部署中的每個系統和元件都必須可容錯。 容錯就是您在另一個 Azure 區域中有重複的組態或系統,可在中斷期間接管主要組態。 此次要組態或系統可減少當地語系化中斷的影響。 有許多方式可以設定容錯,但本文將著重於 Azure 中目前可用的方法。

Azure 虛擬桌面基礎結構

為了找出可容錯的區域,我們必須先知道誰負責維護每個區域。 您可以在 Azure 虛擬桌面服務中將責任分成兩個領域:Microsoft 管理和客戶管理。 如主機集區、應用程式群組和工作區等中繼資料是由 Microsoft 所控制。 中繼資料一律可供使用,而且客戶不需要額外的設定,即可複寫主機集區資料或組態。 我們已設計閘道基礎結構,讓人員連線到其工作階段主機,使其成為由 Microsoft 管理的全域高度復原服務。 同時,客戶管理的區域涉及 Azure 虛擬桌面中使用的虛擬機器 (VM),以及客戶部署專屬的設定和組態。 下表讓您更清楚了解哪些區域是由哪一方管理。

由 Microsoft 管理 由客戶管理
負載平衡器 網路
工作階段訊息代理程式 工作階段主機
閘道 儲存體
診斷 使用者設定檔資料
雲端身分識別平台 身分識別

在本文中,我們將著重於客戶管理的元件,因為這些是您可自行設定的設定。

災害復原基本概念

在本節中,我們將討論可保護資料的動作和設計準則,且避免在小型中斷或全面災害之後進行大量的資料復原工作。 對於較小型的中斷,遵循特定較小型的步驟有助於防止其變成更大的災害。 讓我們來看看一些基本詞彙,以協助您開始制定災害復原方案。

當您設計災害復原方案時,您應該記住下列三件事:

  • 高可用性:分散基礎結構,因此較小型、更當地語系化的中斷不會中斷整個部署。 考量 HA 的設計可能將中斷影響降到最低,且避免需要完整災害復原。
  • 商務持續性:組織如何在任何規模的中斷期間持續運作。
  • 災害復原:在完全中斷後恢復運作的程序。

Azure 有許多內建的免費功能,可在許多層級提供高可用性。 第一項功能是可用性設定組,可將 VM 分散於 Azure 內的不同容錯和更新網域。 接著是可用性區域,這些區域是實體隔離和地理位置分散的資料中心群組,可降低中斷的影響。 最後,將工作階段主機分散於多個 Azure 區域 可使地理位置更加分散,進一步降低中斷影響。 這三項功能在 Azure 虛擬桌面內提供特定層級的保護,您應該仔細考慮它們以及任何成本影響。

基本上,我們針對 Azure 虛擬桌面建議的災害復原策略就是跨區域內多個可用性區域部署資源。 如果需要更多保護,您也可以跨多個配對 Azure 區域部署資源。

主動-被動和主動-主動部署

您應該記住其他事項是主動-被動與主動-主動方案之間的差異。 主動-被動方案是指您的區域有一組作用中的資源,還有一組直到需要才開啟的資源 (被動)。 如果作用中區域因緊急情況而離線,則組織可以開啟被動區域並將所有使用者移到那裡,以切換至被動區域。

另一個選項是主動-主動部署,其中同時使用這兩組基礎結構。 雖然某些使用者可能受到中斷影響,但影響僅限於關閉區域中的使用者。 仍在線上的另一個區域中的使用者不受影響,且只會復原受影響區域中重新連線至正常作用中區域的使用者。 主動-主動部署有許多種形式,包括:

  • 在每個區域中超額佈建基礎結構,以便其中一個區域停止運作時容納受影響的使用者。 這個方法的潛在缺點是維護額外資源會增加成本。
  • 在這兩個作用中區域中都有額外的工作階段主機,但在不需要時解除配置,以降低成本。
  • 只在災害復原期間才佈建新的基礎結構,並允許受影響的使用者連線到新佈建的工作階段主機。 此方法需要使用基礎結構即程式碼工具來定期測試,以便在災害期間儘快部署新的基礎結構。

我們建議的災害復原方法如下:

  • 設定及部署跨多個可用性區域的 Azure 資源。

  • 在主動-主動或主動-被動組態中,設定及部署跨多個區域的 Azure 資源。 這些組態通常可在共用主機集區中找到。

  • 對於具有專用 VM 的個人主機集區,請使用 Azure Site Recovery 複寫 VM 到另一個區域。

  • 在次要地區中設定個別的「災害復原」主機集區。 在災害期間,您可以將使用者切換至次要區域。

我們將在下列各節中更詳細說明您可針對共用和個人主機集區使用的兩個主要方法。

共用主機集區的災害復原

在本節中,我們將討論使用主動-被動方法的共用 (或「集區式」) 主機集區。 主動-被動方法就是當您將現有資源分割成主要和次要區域時。 一般而言,貴組織會在主要 (或「作用中」) 區域中執行其所有工作,但在災害期間,若要切換至次要 (或「被動」) 區域,只要關閉主要區域中的資源 (如果您可這麼做,則視中斷的範圍而定) 並開啟次要區域中的資源。

下圖顯示次要區域中具有備援基礎結構的部署範例。 「備援」表示原始基礎結構的複本存在於其他區域,而且是部署中的標準,可為所有元件提供復原功能。 在單一 Microsoft Entra ID 下方,有兩個區域:美國西部和美國東部。 每個區域都有兩部執行多工作階段作業系統 (OS) 的工作階段主機、執行 Microsoft Entra Connect 的伺服器、Active Directory 網域控制站、適用於 FSLogix 設定檔的 Azure 檔案儲存體進階檔案共用、儲存體帳戶,以及虛擬網路 (VNET)。 在主要區域 (美國西部) 中,所有資源都會開啟。 在次要區域 (美國東部) 中,主機集區中的工作階段主機會關閉或處於清空模式,而 Microsoft Entra Connect 伺服器為暫存模式。 這兩個區域中的兩個 VNET 會經由對等互連來連線。

A diagram of a deployment using the recommended shared host pool disaster recovery strategy described in the previous paragraph.

在大部分情況下,如果元件失敗或主要區域無法使用,則客戶唯一需要執行的動作是開啟主機,或移除次要區域中的清空模式以啟用終端使用者連線。 此案例著重於減少停機時間。 不過,備援型災害復原方案可能會因為必須在次要區域中維護這些額外的元件,而花費更多成本。

此方案的潛在優點如下:

  • 從災害復原所花費的時間較少。 例如,您將花費較少的時間來佈建、設定、整合及驗證新部署的資源。
  • 不需要使用複雜的程序。
  • 在災害外部測試容錯移轉很容易。

可能的缺點如下所示:

  • 可能因為有更多基礎結構要維護而需要更多成本,例如儲存體帳戶、主機等等。
  • 您必須花更多時間來設定部署,以容納此方案。
  • 即使不需要,您也需要維護您所設定的額外基礎結構。

共用主機集區復原的重要資訊

使用此災害復原策略時,請務必記住下列事項:

  • 在許多區域讓多個工作階段主機上線,可能會影響使用者體驗。 受控網路負載平衡器不會考慮地理鄰近性,而是同等看待主機集區中的所有主機。

  • 在災害期間,使用者將會在次要地區中建立新的設定檔。 您應該將任何商務或任務關鍵性資料儲存在 OneDrive (使用已知的資料夾重新導向) 或 Sharepoint 中。 在這裡儲存資料可讓使用者快速存取其應用程式,僅稍微中斷用戶體驗。

  • 請確定您在主機集區內設定虛擬機器 (VM) 的方式完全相同。 此外,確定主機集區中的所有 VM 大小都相同。 如果您的 VM 不相同,受控網路負載平衡器會將使用者連線平均分散於所有可用的 VM。 相較於較大型的 VM,較小型的 VM 可能會比預期更早變成資源受限,因而產生負面的使用者體驗。

  • 區域可用性會影響資料或工作區監視。 如果區域無法使用,服務可能會在災害期間遺失所有過去的監視資料。 建議您使用自訂匯出或傾印過去的監視資料。

  • 建議您每個月至少更新一次工作階段主機。 這項建議適用於您延長期間保持關閉的工作階段主機。

  • 每六個月至少執行一次受控制的容錯移轉,以測試您的部署。 部分受控的容錯移轉可能表示次要位置會變成主要位置,直到下一個受控制的容錯移轉為止。 將次要位置變更為主要位置可讓使用者在實際災害期間擁有幾乎完全相同的設定檔。

下表列出主機集區災害復原策略的部署建議:

技術 建議
網路 在另一個區域中建立和部署次要虛擬網路,並設定與主要虛擬網路的 Azure 對等互連
工作階段主機 使用多重工作階段的 OS SKU 建立及部署 Azure 虛擬桌面共用主機集區,並包含來自其他可用性區域和另一個區域的 VM。
儲存體 使用進階層帳戶在多個區域中建立儲存體帳戶。
使用者設定檔資料 在多個區域中建立 SMB 儲存位置。
身分識別 相同目錄中的 Active Directory 網域控制站。

個人主機集區的災害復原

對於個人主機集區,災害復原策略應該牽涉到使用 Azure Site Recovery Services Vault 將資源複寫至次要區域。 如果主要區域在災害期間關閉,Azure Site Recovery 可以容錯移轉並開啟次要區域中的資源。

例如,假設我們有一個部署,其主要區域為美國西部,而次要區域為美國東部。 主要區域有一個個人主機集區,每個集區都有兩個工作階段主機。 每個工作階段主機都有自己的本機磁碟,其中包含使用者設定檔資料,以及未與任何項目配對的自有 VNET。 如果發生災害,您可以使用 Azure Site Recovery 容錯移轉至美國東部的次要區域,或容錯移轉至相同區域中的不同可用性區域。 不同於主要區域,次要區域沒有本機電腦或磁碟。 在容錯移轉期間,Azure Site Recovery 會從 Azure Site Recovery 保存庫取得複寫的資料,並將其用於建立兩個新的 VM,這兩個 VM 是原始工作階段主機的複本,包括本機磁碟和使用者設定檔資料。 次要區域有自己的獨立 VNET,因此主要區域中離線的 VNET 不會影響功能。

下圖顯示我們剛才描述的範例部署。

A diagram of a deployment using the recommended personal host pool disaster recovery strategy described in the previous paragraph.

此方案的優點包括整體成本較低,而且不需要維護即可修補或更新,因為資源只會在您需要時佈建。 不過,潛在的缺點是,相較於共用主機集區災害復原設定,您將花費更多時間來佈建、整合及驗證容錯移轉基礎結構。

個人主機集區復原的重要資訊

使用此災害復原策略時,請務必記住下列事項:

  • 主機集區 VM 可能需要在次要網站中運作,例如虛擬網路、子網路、網路安全性或 VPN,才能存取內部部署 Active Directory 等目錄。

    注意

    使用已加入 Microsoft Entra 的 VM 自動滿足其中一些需求。

  • 如果大規模災害影響多個客戶或租用戶,您可能會遇到資源的整合、效能或爭用問題。

  • 個人主機集區會使用一位使用者專用的 VM,這表示親和性負載平衡規則會將所有使用者工作階段導向回到特定 VM。 介於使用者與 VM 之間的此種一對一對應,表示如果 VM 關閉,使用者將無法登入,直到 VM 恢復上線或 VM 在災害復原完成後復原為止。

  • 個人主機集區中的 VM 會將使用者設定檔儲存在磁碟機 C 上,這表示不需要 FSLogix。

  • 區域可用性會影響資料或工作區監視。 如果區域無法使用,服務可能會在災害期間遺失所有過去的監視資料。 建議您使用自訂匯出或傾印過去的監視資料。

  • 建議您在使用個人主機集區組態時避免使用 FSLogix。

  • 容錯移轉區域中不保證虛擬機器佈建。

  • 每隔六個月至少執行一次受控制的容錯移轉容錯回復測試。

下表列出主機集區災害復原策略的部署建議:

技術 建議
網路 在另一個區域中建立和部署次要虛擬網路,以遵循 Azure Site Recovery 預設命名配置以外的自訂命名慣例或安全性需求。
工作階段主機 啟用和設定 VM 的 Azure Site Recovery。 您可以選擇性手動預先設置映像,或將 Azure Image Builder 服務使用於進行中佈建。
儲存體 建立 Azure 儲存體帳戶是儲存設定檔的選擇性作業。
使用者設定檔資料 使用者設定檔資料會儲存在磁碟機 C 上。
身分識別 相同目錄中跨多個區域的 Active Directory 網域控制站。

下一步

如需 Azure 中災害復原的深度資訊,請參閱下列文章: