Настройка аварийного восстановления в большом масштабе для виртуальных машин VMware или физических серверов

2025-04-08

В этой статье описывается, как настроить аварийное восстановление в Azure для большого числа (> 1000) локальных виртуальных машин VMware или физических серверов в рабочей среде с помощью службы Azure Site Recovery.

Определение стратегии BCDR

В рамках стратегии непрерывности бизнес-процессов и аварийного восстановления (BCDR) вы определяете целевые точки восстановления (RPO) и целевое время восстановления (RTO) для бизнес-приложений и рабочих нагрузок. RTO измеряет длительность и уровень обслуживания, в рамках которых бизнес-приложение или процесс должны быть восстановлены и доступны, чтобы избежать проблем с непрерывностью.

Site Recovery обеспечивает непрерывную репликацию для виртуальных машин VMware и физических серверов, а также соглашение об уровне обслуживания для RTO.
Планируя крупномасштабное аварийное восстановление виртуальных машин VMware и вычисляя необходимые ресурсы Azure, можно указать значение RTO, которое будет использоваться для вычислений производительности.

Лучшие практики

Некоторые общие рекомендации по крупномасштабному аварийному восстановлению. Эти рекомендации рассматриваются более подробно в следующих разделах документа.

Определите целевые требования: оцените производительность и потребности в ресурсах в Azure перед настройкой аварийного восстановления.
Спланируйте компоненты Site Recovery: определите, какие компоненты Site Recovery (сервер конфигурации, серверы обработки) должны соответствовать предполагаемой производительности.
Настройте один или несколько серверов масштабируемой обработки: не используйте сервер обработки, работающий по умолчанию на сервере конфигурации.
Установите последние обновления: команда Site Recovery выпускает новые версии компонентов Site Recovery на регулярной основе, и следует убедиться, что вы используете последние версии. Для этого следите за новыми обновлениями, а также включайте и устанавливайте обновления по мере их выпуска.
Выполняйте упреждающий мониторинг: при проведении аварийного восстановления необходимо заранее отслеживать состояние и работоспособность реплицированных компьютеров, а также ресурсы инфраструктуры.
Отработка аварийного восстановления: на регулярной основе следует выполнять отработку аварийного восстановления. Это не влияет на вашу рабочую среду, но помогает обеспечить, что при необходимости резервное переключение на Azure будет работать так, как ожидается.

Сбор сведений о планировании производственных мощностей

Соберите сведения о локальной среде, чтобы помочь оценить потребности в целевой производительности (Azure).

Для этого в VMware выполните Планировщик развертывания для виртуальных машин VMware.
Для физических серверов соберите сведения вручную.

Запуск Планировщика развертывания для виртуальных машин VMware

Планировщик развертывания помогает собирать сведения о локальной среде VMware.

Запустите Планировщик развертывания в течение периода, который представляет типичный цикл для виртуальных машин. При этом будут сформированы более точные оценки и рекомендации.
Рекомендуется запускать Планировщик развертывания на компьютере сервера конфигурации, так как планировщик вычисляет пропускную способность от сервера, на котором он работает. Дополнительные сведения см. в статье Измерение пропускной способности.
Если у вас еще нет настройки сервера конфигурации:
- Ознакомьтесь с обзором компонентов Site Recovery.
- Настройте сервер конфигурации, чтобы запустить на нем планировщик развертывания.

Затем запустите планировщик, как показано ниже:

Дополнительные сведения о планировщике развертывания. Вы можете скачать последнюю версию с портала или скачать ее напрямую.
Ознакомьтесь с предварительными требованиями и последними обновлениями для планировщика развертывания, скачайте и извлеките средство.
Запустите планировщик развертывания на сервере конфигурации.
Создайте отчет для сведения воедино оценок и рекомендаций.
Проанализируйте рекомендации по отчету и оценки затрат.

Примечание.

По умолчанию средство настроено для создания профилей и отчетов максимум для 1000 виртуальных машин. Это ограничение можно изменить, увеличив значение ключа MaxVMsSupported в файле ASRDeploymentPlanner.exe.config.

Планирование целевых требований и производительности (Azure)

Используя собранные оценки и рекомендации, вы можете спланировать целевые ресурсы и производительность. Если вы запускали Планировщик развертывания для виртуальных машин VMware, вы можете использовать ряд рекомендаций из отчетов, чтобы помочь вам.

Совместимые виртуальные машины: используйте это число для задания количества виртуальных машин, готовых к аварийному восстановлению в Azure. Рекомендации по пропускной способности сети и ядрам Azure основаны на этом числе.
Необходимая пропускная способность сети: обратите внимание на пропускную способность, необходимую для разностной репликации совместимых виртуальных машин.
- При запуске планировщика вы указываете требуемую RPO в минутах. В рекомендациях показана пропускная способность, необходимая для достижения целевой точки восстановления (RPO) в 100% и 90% случаев.
- В рекомендациях по пропускной способности сети учитывается пропускная способность, необходимая для общего числа серверов конфигурации и серверов обработки, рекомендуемых в планировщике.
Требуемые ядра Azure: обратите внимание на количество ядер в целевом регионе Azure в зависимости от числа совместимых виртуальных машин. Если у вас недостаточно ядер, в случае отработки отказа Site Recovery не сможет создать требуемые виртуальные машины Azure.
Рекомендуемый размер пакета виртуальной машины: рекомендуемый размер пакета зависит от возможности завершения начальной репликации для пакета в течение 72 часов по умолчанию, при этом устанавливается значение RPO, равное 100 %. Количество часов можно изменить.

Эти рекомендации можно использовать для планирования ресурсов Azure, пропускной способности сети и пакетной обработки виртуальных машин.

Планирование подписок и квот Azure

Мы хотим убедиться, что в целевой подписке достаточно доступных квот для обработки отказа.

Задача	Сведения	Действие
Проверка ядер	Если количество ядер в доступной квоте не равно общему количеству целевых объектов во время отработки отказа или превышает его, произойдет сбой отработки отказа.	Для виртуальных машин VMware проверьте, имеете ли вы достаточное количество ядер в целевой подписке, чтобы соответствовать рекомендации по ядрам Планировщика развертывания. Для физических серверов проверьте, соответствуют ли ядра Azure вашим оценкам, выполненным вручную. Чтобы проверить квоты, в Портале Azure > разделе >Подписка щелкните Использование + квоты. Дополнительные сведения об увеличении квот.
Проверьте ограничения переключения на резервную систему	Число переключений не должно превышать лимиты переключений Site Recovery.	Если количество резервирований превышает пределы, можно добавить подписки и переключиться на несколько подписок или увеличить квоту подписки.

Пределы переключения на резерв

Пределы указывают количество переключений после отказа, которые поддерживаются Site Recovery в течение одного часа, при условии, что на каждый компьютер приходится по три диска.

Что означает соответствие? Для запуска виртуальной машины Azure требуется, чтобы некоторые драйверы были в состоянии начальной загрузки, а службы, например DHCP, были настроены на автоматический запуск.

Компьютеры, которые соответствуют этим требованиям, уже будут иметь эти параметры.
Для компьютеров под Windows можно заранее проверить соответствие требованиям и при необходимости обеспечить совместимость. Подробнее.
Машины на Linux приводятся в соответствие только во время отказа.

Компьютер соответствует требованиям Azure?	Ограничения виртуальных машин Azure (отказоустойчивость управляемого диска)
Да	2000
Нет	1000

Ограничения предполагают, что в целевом регионе для подписки выполняется минимальное число других заданий.
Некоторые регионы Azure меньше и могут иметь немного меньшие ограничения.

Планирование инфраструктуры и подключения к виртуальной машине

После переключения после сбоя в Azure необходимо, чтобы рабочие нагрузки работали так же, как на локальных серверах, и обеспечить пользователям доступ к рабочим нагрузкам, работающим на виртуальных машинах Azure.

Дополнительные сведения о переходе на резервную копию локальной инфраструктуры Active Directory или DNS в облако Azure.
Узнайте больше о подготовке к подключению к виртуальным машинам Azure после отказа.

Планирование источниковых мощностей и требований

Важно иметь достаточно серверов конфигурации и масштабируемые серверы обработки для удовлетворения требований к производительности. Когда вы начинаете крупномасштабное развертывание, начните с одного сервера конфигурации и одного сервера обработки масштабирования. По мере достижения заданных ограничений добавьте дополнительные серверы.

Примечание.

Для виртуальных машин VMware Планировщик развертывания предоставляет некоторые рекомендации по конфигурации и серверам обработки. Мы рекомендуем использовать таблицы, входящие в следующие процедуры, а не следовать рекомендациям Планировщика развертывания.

Настройка сервера конфигурации

На производительность сервера конфигурации влияет количество компьютеров, на которых выполняется репликация, а не скорость оттока данных. Чтобы выяснить, требуются ли дополнительные серверы конфигурации, используйте указанные ограничения для виртуальных машин.

ЦП (Центральный процессор)	Память	Диск кэша	Ограничение на количество реплицированных машин
8 виртуальных ЦП 2 сокета по 4 ядра с частотой 2,5 ГГц	16 ГБ	600 ГБ	До 550 компьютеров Предполагается, что каждый компьютер содержит три диска объемом 100 ГБ каждый.

Эти ограничения основаны на настройке сервера конфигурации с помощью шаблона OVF.
Ограничения предполагают, что сервер обработки, выполняемый по умолчанию на сервере конфигурации, не используется.

Если необходимо добавить новый сервер конфигурации, выполните следующие инструкции.

Настройте сервер конфигурации для аварийного восстановления виртуальной машины VMware с помощью шаблона OVF.
Настройте сервер конфигурации вручную для физических серверов или для развертываний VMware, которые не могут использовать шаблон OVF.

При настройке сервера конфигурации обратите внимание на следующее.

При настройке сервера конфигурации важно учитывать подписку и хранилище, в котором он находится, так как они не должны изменяться после настройки. Если вам нужно изменить хранилище, необходимо отменить связь сервера конфигурации с хранилищем и повторно зарегистрировать его. Это приведет к остановке репликации виртуальных машин в хранилище.
Если вы хотите настроить сервер конфигурации с несколькими сетевыми адаптерами, это необходимо сделать во время настройки. Это невозможно сделать после регистрации сервера конфигурации в хранилище.

Настройка сервера обработки

Производительность сервера обработки зависит от оттока данных, а не от количества компьютеров, включенных для репликации.

Для крупных развертываний всегда должен быть хотя бы один сервер масштабируемости.
Чтобы выяснить, требуются ли дополнительные серверы, используйте следующую таблицу.
Рекомендуется добавить сервер с наилучшими характеристиками.

процессор	Память	Диск кэша	Коэффициент оттока
12 виртуальных ЦП 2 сокета по 6 ядер с частотой 2,5 ГГц	24 ГБ	1 TБ	До 2 ТБ в день

Настройте сервер обработки следующим образом.

Ознакомьтесь с предварительными требованиями.
Установите сервер на портале или из командной строки.
Настройте реплицированные компьютеры на использование нового сервера. Если у вас уже есть машины, которые реплицируются:
- На новый сервер обработки можно переместить всю рабочую нагрузку сервера обработки.
- Кроме того, можно переместить определенные виртуальные машины на новый сервер обработки.

Включение крупномасштабной репликации

После планирования емкости и развертывания необходимых компонентов и инфраструктуры включите репликацию для большого количества виртуальных машин.

Отсортируйте компьютеры по пакетам. Включите репликацию для виртуальных машин в пакете, а затем перейдите к следующему пакету.
- Для виртуальных машин VMware можно использовать рекомендуемый размер пакета виртуальной машины в отчете планировщика развертывания.
- Для физических машин рекомендуется организовывать пакеты на основе машин, которые похожи по размеру и объему данных, а также по доступной пропускной способности сети. Целью является объединение в пакеты компьютеров, которые, скорее всего, завершат начальную репликацию в течение одинакового времени.
Если нагрузка на диск для компьютера высока или превышает лимиты в системе Планировщика развертывания, можно переместить некритические файлы, которые не нужно реплицировать (например, дампы журналов или временные файлы), за пределы машины. Для виртуальных машин VMware можно переместить эти файлы на отдельный диск, а затем исключить этот диск из репликации.
Перед включением репликации убедитесь, что компьютеры соответствуют требованиям к репликации.
Настройте политику репликации для виртуальных машин VMware или физических серверов.
Включите репликацию для виртуальных машин VMware или физических серверов. При этом запускается начальная репликация для выбранных компьютеров.

Следите за своим развертыванием

После запуска репликации для первого пакета виртуальных машин запустите мониторинг развертывания следующим образом.

Назначьте администратора аварийного восстановления для наблюдения за состоянием работоспособности реплицированных компьютеров.
Выполняйте мониторинг событий для реплицированных элементов и инфраструктуры.
Контролируйте состояние серверов масштабируемого процесса.
Зарегистрируйтесь для получения уведомлений по электронной почте о событиях, чтобы упростить мониторинг.
Проводите регулярные учения по восстановлению после аварийных ситуаций, чтобы убедиться, что все работает как ожидается.

План крупномасштабных отказов

В случае чрезвычайной ситуации может потребоваться переключение на резерв большого количества компьютеров или нагрузок в Azure. Подготовьтесь к этому типу события, как показано ниже.

Вы можете заранее подготовиться к переключению на резервный режим следующим образом:

Подготовьте инфраструктуру и виртуальные машины, чтобы рабочие нагрузки были доступны после отработки отказа, чтобы пользователи могли получить доступ к виртуальным машинам Azure.
Обратите внимание на ограничения переключения на резерв, приведенные ранее в этом документе. Убедитесь, что резервное переключение будет находиться в пределах этих ограничений.
Регулярно проводите учения по аварийному восстановлению. Упражнения помогают:
- Найдите недочеты в развертывании перед переходом на резерв.
- Оценить полное время восстановления (RTO) для ваших приложений.
- Оцените RPO от начала до конца для ваших рабочих нагрузок.
- Выявить конфликты диапазона IP-адресов.
- При проведении учений рекомендуется не использовать продуктивные сети и очищать тестовые переключения после каждого учения.

Для выполнения крупномасштабного резервного переключения мы рекомендуем следующее.

Создайте планы восстановления для отработки отказа рабочей нагрузки.
- Каждый план восстановления может инициировать резервное переключение до 100 компьютеров.
- Узнайте подробнее о планах восстановления.
Добавьте скрипты Runbook службы автоматизации Azure в планы восстановления, чтобы автоматизировать задачи, выполняемые вручную в Azure. Типовые задачи включают в себя настройку подсистем балансировки нагрузки, обновление DNS и т. д. Подробнее
Перед отработкой отказа подготовьте компьютеры на Windows, чтобы они соответствовали среде Azure. Ограничения на отработку отказа выше для компьютеров, соответствующих стандартам. Дополнительные сведения о runbook.
Инициируйте плановую переброску с помощью командлета PowerShell Start-AzRecoveryServicesAsrPlannedFailoverJob вместе с планом восстановления.

Следующие шаги

Мониторинг восстановления сайта