為 VMware VM/實體伺服器設定大規模的災害復原
本文說明如何使用 Azure Site Recovery 服務,為實際執行環境中的大型 (> 1000) 內部部署 VMware VM 或實體伺服器設定災害復原。
定義您的 BCDR 策略
在商務持續性和災害復原 (BCDR) 策略中,您可以為商務應用程式和工作負載定義復原點目標 (RPO) 和復原時間目標 (RTO)。 RTO 會測量時間和服務等級的持續時間,商務應用程式或程序必須在此期間內可還原或使用,以避免發生持續性問題。
- Site Recovery 提供 VMware VM 和實體伺服器的連續複寫,以及 RTO 的 SLA。
- 當您規劃 VMware VM 的大規模災害復原,並找出所需的 Azure 資源時,您可以指定要用於容量計算的 RTO 值。
最佳作法
大規模災害復原的部分一般最佳做法。 本文件的下一節會更詳細地討論這些最佳做法。
- 識別目標需求:在設定災害復原之前,請先估計 Azure 中的容量和資源需求。
- 規劃 Site Recovery 元件:找出符合預估容量所需的 Site Recovery 元件 (設定伺服器、處理序伺服器)。
- 設定一或多個相應放大處理序伺服器:請勿使用預設在設定伺服器上執行的處理序伺服器。
- 執行最新的更新:Site Recovery 團隊會定期發行新版 Site Recovery 元件,請確保您執行的是最新版本。 為了滿足此要求,請追蹤新功能以掌握更新,並在更新發佈時啟用和安裝更新。
- 主動監視:當您啟動並執行災害復原時,您應該主動監視複寫機器的狀態和健全狀況,以及基礎結構資源。
- 災害復原演練:您應該定期執行流程執行演練。 這些不會影響您的實際執行環境,但可確保容錯移轉至 Azure 在需要時能如預期運作。
收集容量規劃資訊
收集內部部署環境的相關資訊,以協助您評估和預估目標 (Azure) 容量需求。
- 若是 VMware,請執行 VMware VM 的部署規劃工具來執行此作業。
- 若是實體伺服器,請手動收集資訊。
執行 VMware VM 的部署規劃工具
部署規劃工具可協助您收集 VMware 內部部署環境的相關資訊。
- 在代表 VM 典型流失的期間內執行部署規劃工具。 這會產生更精確的估計和建議。
- 建議您在設定伺服器電腦上執行部署規劃工具,因為規劃工具會計算其所在伺服器的輸送量。 深入了解如何測量輸送量。
- 如果您還沒有組態伺服器設定:
- 取得 Site Recovery 元件的概觀。
- 設定伺服器,以便在上面執行部署規劃工具。
然後執行規劃工具,如下所示:
- 深入了解部署規劃工具。 您可以從入口網站下載最新版本,或直接下載。
- 請參閱部署規劃工具的必要條件和最新更新,並下載並解壓縮工具。
- 在設定伺服器上執行部署規劃工具。
- 產生報表以摘要估計和建議。
- 分析報表建議和成本估計。
注意
根據預設,此工具設定為分析並產生最多 1000 個虛擬機器的報告。 您可以藉由增加 ASRDeploymentPlanner.exe.config 檔案中的 MaxVMsSupported 索引鍵值來變更此限制。
規劃目標 (Azure) 需求和容量
您可以使用收集到的估計和建議來規劃目標資源和容量。 如果您執行的是 VMware VM 的部署規劃工具,可以使用數個報告建議來協助您。
- 相容的 VM:使用此數字來識別準備好在 Azure 上進行災害復原的 VM 數目。 關於網路頻寬和 Azure 核心的建議會以這個數目為基礎。
- 必要的網路頻寬:記下相容 VM 差異複寫所需的頻寬。
- 當您執行規劃工具時,需要以分鐘為單位指定所需的 RPO。 這些建議會顯示符合 RPO 100% 和 90% 時間所需的頻寬。
- 網路頻寬建議會考慮規劃工具中設定伺服器和處理序伺服器總數所需的建議頻寬。
- 必要的 Azure 核心:請根據相容 VM 的數目,記下目標 Azure 區域中所需的核心數目。 如果您沒有足夠的核心,在容錯移轉 Site Recovery 將無法建立所需的 Azure VM。
- 建議的 VM 批次大小:建議的批次大小依預設能夠在 72 小時內完成批次初始複寫,同時滿足 100% 的 RPO。 可以修改小時的值。
您可以使用這些建議來規劃 Azure 資源、網路頻寬和 VM 批次處理。
規劃 Azure 訂用帳戶和配額
我們想要確保目標訂用帳戶中的可用配額足以處理容錯移轉。
Task | 詳細資料 | 動作 |
---|---|---|
檢查核心 | 如果可用配額中的核心未等於或超過容錯移轉時的總目標計數,則容錯移轉將會失敗。 | 針對 VMware VM,請確認目標訂用帳戶中擁有符合部署規劃工具核心建議的足夠核心。 針對實體伺服器,請確認 Azure 核心符合您的手動預估。 若要檢查配額,請在 Azure 入口網站 >[訂用帳戶]中,按一下 [使用量 + 配額]。 深入了解如何增加配額。 |
檢查容錯移轉限制 | 容錯移轉的數目不得超過 Site Recovery 容錯移轉限制。 | 如果容錯移轉超過限制,您可以新增訂用帳戶,並容錯移轉至多個訂用帳戶,或增加訂用帳戶的配額。 |
容錯移轉限制
這些限制表示在一小時內受 Site Recovery 支援的容錯移轉次數 (假設每部電腦有三個磁碟)。
符合的意義為何? 若要啟動 Azure VM,Azure 需要有一些處於開機啟動狀態的驅動程式,而像 DHCP 這樣的服務需要設定為自動啟動。
- 符合規範的電腦包含這些設定。
- 對於運行 Windows 的電腦,您可以主動檢查合規性,並視需要使其符合規範。 深入了解。
- Linux 機器只會在容錯移轉時進入合規性狀態。
符合 Azure 的電腦? | Azure VM 的限制 (受控磁碟容錯移轉) |
---|---|
Yes | 2000 |
No | 1000 |
- 限制會假設訂用帳戶的目標區域中有最少的其他作業正在進行中。
- 某些 Azure 區域較小,而且可能會有稍微更低的限制。
規劃基礎結構和 VM 連線能力
在容錯移轉至 Azure 之後,您需要工作負載在內部部署環境中運作,並讓使用者能夠存取在 Azure VM 上執行的工作負載。
規劃來源容量和需求
您必須擁有足夠的設定伺服器和擴增處理序伺服器,以滿足容量需求。 當您開始進行大規模部署時,請先從單一設定伺服器以及單一擴增處理序伺服器開始。 當您達到指定的限制時,請新增額外的伺服器。
注意
針對 VMware Vm,部署規劃工具會對您所需的設定和處理序伺服器提出一些建議。 建議您使用下列程序中包含的資料表,而不是遵循部署規劃工具的建議。
設定組態伺服器
組態伺服器容量會受到複寫的電腦數目所影響,而不會受到資料流失率的影響。 若要確認您是否需要額外的設定伺服器,請使用這些定義的 VM 限制。
CPU | 記憶體 | 快取磁碟 | 已複寫的電腦限制 |
---|---|---|---|
8 vCPU 2 個插槽 * 4 個核心 @ 2.5 GHz |
16 GB | 600 GB | 最多 550 台電腦 假設每部電腦各有三個 100 GB 的磁碟。 |
- 這些限制是取決於使用 OVF 範本設定的組態伺服器。
- 這些限制假設您不是使用預設在設定伺服器上執行的處理序伺服器。
如果您需要新增組態伺服器,請遵循下列指示:
當您設定伺服器時,請注意下列事項:
- 當您設定組態伺服器時,請務必考慮所在的訂用帳戶和保存庫,因為在安裝之後不應變更這些設定。 如果您需要變更保存庫,則必須解除組態服務器與保存庫的關聯,然後重新註冊。 這會停止複寫保存庫中的 VM。
- 如果您想要設定具有多張網路介面卡的組態伺服器,則應該在設定期間執行此動作。 在保存庫中註冊組態伺服器之後,您就無法執行此設定。
設定處理序伺服器
處理序伺服器容量會受到資料流失率的影響,而不是由已啟用複寫的機器數目所影響。
- 針對大型部署,您應該一律至少有一個擴增處理序伺服器。
- 若要確認您是否需要額外的伺服器,請使用下表。
- 建議您新增具有最高規格的伺服器。
CPU | 記憶體 | 快取磁碟 | 流失率 |
---|---|---|---|
12 個 vCPU 2 個插槽*6 個核心 @ 2.5 Ghz |
24 GB | 1 TB | 一天最多 2 TB |
按照下列指引設定處理序伺服器:
啟用大規模複寫
在規劃容量和部署所需的元件和基礎結構之後,請啟用大量 VM 的複寫。
將機器排序為批次。 您可以針對批次內的 VM 啟用複寫,然後繼續進行下一個批次。
- 針對 VMware VM,您可以使用部署規劃工具報告中的建議 VM 批次大小。
- 針對實體機器,建議您根據具有類似資料大小和數量的機器,以及可用的網路輸送量來判斷批次。 目標是要將最可能在相同時間內完成初始複寫的機器分為同一批次處理。
如果機器的磁碟流失率很高,或超過部署規劃工具中的限制,您可以從機器上移除不需要複寫的非重要檔案 (例如記錄傾印或暫存檔)。 針對 VMware VM,您可以將這些檔案移至不同的磁碟,然後從複寫中排除該磁碟。
在您啟用複寫之前,請先檢查機器是否符合複寫需求。
監視您的部署
在您開始第一批 VM 的複寫之後,請開始監視您的部署,如下所示:
- 指派災害復原管理員來監視複寫機器的健全狀況。
- 針對複寫專案和基礎結構監視事件。
- 針對擴增處理序伺服器監視其健康情況。
- 註冊以取得事件的電子郵件通知,以便輕鬆進行監視。
- 定期進行災害復原演練,以確保一切都能如預期般運作。
規劃大規模容錯移轉
在發生嚴重損壞的事件時,您可能需要將大量的機器/工作負載容錯移轉至 Azure。 請按照下列步驟為這類事件做好準備。
您可以預先準備進行容錯移轉,如下所示:
- 準備您的基礎結構和 VM,以便在容錯移轉後可繼續使用您的工作負載,並讓使用者存取 Azure VM。
- 注意本文件之前提到的容錯移轉限制。 請確保您的容錯移轉會落在這些限制範圍內。
- 定期執行災害復原演練。 演練有助於:
- 在容錯移轉前找出部署中的差距。
- 估計應用程式的端對端 RTO。
- 估計工作負載的端對端 RPO。
- 識別 IP 位址範圍的衝突。
- 當您執行演練時,建議不要使用實際執行網路進行演練,並應在每次演練之後清除測試容錯移轉。
若要執行大規模的容錯移轉,建議執行下列動作:
- 建立工作負載容錯移轉的復原方案。
- 每個復原方案都可以觸發最多 100 部機器的容錯移轉。
- 深入了解復原方案。
- 將 Azure 自動化 Runbook 指令碼新增至復原方案,將 Azure 上的任何手動工作自動化。 常見工作包括設定負載平衡器、更新 DNS 等等。 深入了解
- 在容錯移轉之前,請先準備 Windows 電腦以使其符合 Azure 環境。 符合的電腦其容錯移轉限制較高。 深入了解 Runbook。
- 使用 Start-AzRecoveryServicesAsrPlannedFailoverJob PowerShell Cmdlet 來觸發容錯移轉,以及復原方案。