Настройка аварийного восстановления в большом масштабе для виртуальных машин VMware или физических серверов

Статья
08/31/2023

В этой статье описывается, как настроить аварийное восстановление в Azure для большого числа (> 1000) локальных виртуальных машин VMware или физических серверов в рабочей среде с помощью службы Azure Site Recovery.

Определение стратегии BCDR

В рамках стратегии непрерывности бизнес-процессов и аварийного восстановления (BCDR) вы определяете целевые точки восстановления (RPO) и целевое время восстановления (RTO) для бизнес-приложений и рабочих нагрузок. RTO измеряет длительность и уровень обслуживания, в рамках которых бизнес-приложение или процесс должны быть восстановлены и доступны, чтобы избежать проблем с непрерывностью.

Site Recovery обеспечивает непрерывную репликацию для виртуальных машин VMware и физических серверов, а также соглашение об уровне обслуживания для RTO.
Планируя крупномасштабное аварийное восстановление виртуальных машин VMware и вычисляя необходимые ресурсы Azure, можно указать значение RTO, которое будет использоваться для вычислений производительности.

Сбор сведений о планировании ресурсов

Соберите сведения о локальной среде, чтобы помочь оценить потребности в целевой производительности (Azure).

Для этого в VMware выполните Планировщик развертывания для виртуальных машин VMware.
Для физических серверов соберите сведения вручную.

Запуск Планировщика развертывания для виртуальных машин VMware

Планировщик развертывания помогает собирать сведения о локальной среде VMware.

Запустите Планировщик развертывания в течение периода, который представляет типичный цикл для виртуальных машин. При этом будут сформированы более точные оценки и рекомендации.
Рекомендуется запускать Планировщик развертывания на компьютере сервера конфигурации, так как планировщик вычисляет пропускную способность от сервера, на котором он работает. Дополнительные сведения см. в статье Измерение пропускной способности.
Если у вас еще не настроен сервер конфигурации:
- Ознакомьтесь с обзором компонентов Site Recovery.
- Настройте сервер конфигурации, чтобы запустить на нем планировщик развертывания.

Затем запустите планировщик, как показано ниже:

Дополнительные сведения о планировщике развертывания. Вы можете скачать последнюю версию с портала или скачать ее напрямую.
Ознакомьтесь с предварительными требованиями и последними обновлениями для планировщика развертывания, скачайте и извлеките средство.
Запустите планировщик развертывания на сервере конфигурации.
Создайте отчет для сведения воедино оценок и рекомендаций.
Проанализируйте рекомендации по отчету и оценки затрат.

Примечание

По умолчанию средство настроено для создания профилей и отчетов максимум для 1000 виртуальных машин. Это ограничение можно изменить, увеличив значение ключа MaxVMsSupported в файле ASRDeploymentPlanner.exe.config.

Планирование целевых требований и производительности (Azure)

Используя собранные оценки и рекомендации, вы можете спланировать целевые ресурсы и производительность. При запуске Планировщика развертывания для виртуальных машин VMware можно использовать ряд рекомендаций по отчетам.

Совместимые виртуальные машины: используйте это число для задания количества виртуальных машин, готовых к аварийному восстановлению в Azure. Рекомендации по пропускной способности сети и ядрам Azure основаны на этом числе.
Необходимая пропускная способность сети: обратите внимание на пропускную способность, необходимую для разностной репликации совместимых виртуальных машин.
- При запуске планировщика вы указываете требуемую RPO в минутах. В рекомендациях показана пропускная способность, необходимая для удовлетворения этой RPO 100 % и 90 % времени.
- В рекомендациях по пропускной способности сети учитывается пропускная способность, необходимая для общего числа серверов конфигурации и серверов обработки, рекомендуемых в планировщике.
Требуемые ядра Azure: обратите внимание на количество ядер в целевом регионе Azure в зависимости от числа совместимых виртуальных машин. Если у вас недостаточно ядер, при отработке отказа Site Recovery не сможет создать необходимые виртуальные машины Azure.
Рекомендуемый размер пакета виртуальной машины: рекомендуемый размер пакета зависит от возможности завершения начальной репликации для пакета в течение 72 часов по умолчанию, при этом устанавливается значение RPO, равное 100 %. Количество часов можно изменить.

Эти рекомендации можно использовать для планирования ресурсов Azure, пропускной способности сети и пакетной обработки виртуальных машин.

Планирование подписок и квот Azure

Мы хотим убедиться, что для обработки отработки отказа достаточно доступных квот в целевой подписке.

Задача	Сведения	Действие
Проверка ядер	Если количество ядер в доступной квоте не равно общему количеству целевых объектов во время отработки отказа или превышает его, произойдет сбой отработки отказа.	Для виртуальных машин VMware убедитесь в наличии достаточного количества ядер в целевой подписке, чтобы соответствовать рекомендациям по ядрам Планировщика развертывания. Для физических серверов проверьте, соответствуют ли ядра Azure вашим оценкам, выполненным вручную. Чтобы проверить квоты, в разделе Портал Azure > >Подписка щелкните Использование + квоты. Дополнительные сведения об увеличении квот.
Проверка ограничений отработки отказа	Число отработок отказов не должно превышать пределы отработок отказов в Site Recovery.	Если количество отработок отказов превышает пределы, можно добавить подписки и выполнять отработку отказа на несколько подписок или увеличить квоту для подписки.

Пределы отработок отказов

Пределы указывают количество отработок отказов, которые поддерживаются Site Recovery в течение одного часа, при этом предполагается три диска на компьютер.

Что означает соответствие? Для запуска виртуальной машины Azure требуется, чтобы некоторые драйверы были в состоянии начальной загрузки, а службы, например DHCP, были настроены на автоматический запуск.

Компьютеры, которые соответствуют этим требованиям, уже будут иметь эти параметры.
Для компьютеров под Windows можно заранее проверить соответствие требованиям и при необходимости обеспечить совместимость. Подробнее.
Компьютеры на Linux приводятся в соответствие только во время отработки отказа.

Компьютер соответствует требованиям Azure?	Ограничения виртуальных машин Azure (отработка отказа управляемого диска)
Да	2000
Нет	1000

Ограничения предполагают, что в целевом регионе для подписки выполняется минимальное число других заданий.
Некоторые регионы Azure меньше и могут иметь немного меньшие ограничения.

Планирование инфраструктуры и подключения к виртуальной машине

После отработки отказа в Azure необходимо, чтобы рабочие нагрузки работали так же, как и локальные, и предоставить пользователям доступ к рабочим нагрузкам, работающим на виртуальных машинах Azure.

Дополнительные сведения об отработке отказа локальной инфраструктуры Active Directory или DNS в Azure.
Дополнительные сведения о подготовке к подключению к виртуальным машинам Azure после отработки отказа.

Планирование исходных ресурсов и требований

Важно иметь достаточно серверов конфигурации и масштабируемые серверы обработки для удовлетворения требований к производительности. Когда вы начинаете крупномасштабное развертывание, начните с одного сервера конфигурации и одного сервера обработки масштабирования. По мере достижения заданных ограничений добавьте дополнительные серверы.

Примечание

Для виртуальных машин VMware Планировщик развертывания предоставляет некоторые рекомендации по конфигурации и серверам обработки. Мы рекомендуем использовать таблицы, входящие в следующие процедуры, а не следовать рекомендациям Планировщика развертывания.

Настройка сервера конфигурации

На производительность сервера конфигурации влияет количество компьютеров, на которых выполняется репликация, а не скорость оттока данных. Чтобы выяснить, требуются ли дополнительные серверы конфигурации, используйте указанные ограничения для виртуальных машин.

ЦП	Память	Диск кэша	Ограничение на реплицированные компьютеры
8 виртуальных ЦП 2 сокета по 4 ядра с частотой 2,5 ГГц	16 ГБ	600 ГБ	До 550 компьютеров Предполагается, что каждый компьютер содержит три диска объемом 100 ГБ каждый.

Эти ограничения основаны на сервере конфигурации, настроенном с помощью шаблона OVF.
Ограничения предполагают, что сервер обработки, выполняемый по умолчанию на сервере конфигурации, не используется.

Если необходимо добавить новый сервер конфигурации, выполните следующие инструкции.

Настройте сервер конфигурации для аварийного восстановления виртуальной машины VMware с помощью шаблона OVF.
Настройте сервер конфигурации вручную для физических серверов или для развертываний VMware, которые не могут использовать шаблон OVF.

При настройке сервера конфигурации обратите внимание на следующее.

При настройке сервера конфигурации важно учитывать подписку и хранилище, в котором он находится, так как они не должны изменяться после настройки. Если вам нужно изменить хранилище, необходимо отменить связь сервера конфигурации с хранилищем и повторно зарегистрировать его. Это приведет к остановке репликации виртуальных машин в хранилище.
Если вы хотите настроить сервер конфигурации с несколькими сетевыми адаптерами, это необходимо сделать во время настройки. Это невозможно сделать после регистрации сервера конфигурации в хранилище.

Настройка сервера обработки

Производительность сервера обработки зависит от оттока данных, а не от количества компьютеров, включенных для репликации.

Для крупных развертываний всегда должен существовать хотя бы один сервер обработки масштабирования.
Чтобы выяснить, требуются ли дополнительные серверы, используйте следующую таблицу.
Рекомендуется добавить сервер с наилучшими характеристиками.

ЦП	Память	Диск кэша	Отток
12 виртуальных ЦП 2 сокета по 6 ядер с частотой 2,5 ГГц	24 ГБ	1 TБ	До 2 ТБ в день

Настройте сервер обработки следующим образом.

Ознакомьтесь с предварительными требованиями.
Установите сервер на портале или из командной строки.
Настройте реплицированные компьютеры на использование нового сервера. Если компьютеры уже реплицируются, выполните следующие действия.
- На новый сервер обработки можно переместить всю рабочую нагрузку сервера обработки.
- Кроме того, можно переместить определенные виртуальные машины на новый сервер обработки.

Включение крупномасштабной репликации

После планирования емкости и развертывания необходимых компонентов и инфраструктуры включите репликацию для большого количества виртуальных машин.

Отсортируйте компьютеры по пакетам. Включите репликацию для виртуальных машин в пакете, а затем перейдите к следующему пакету.
- Для виртуальных машин VMware можно использовать рекомендуемый размер пакета виртуальной машины в отчете планировщика развертывания.
- Для физических компьютеров рекомендуется указывать пакеты на основе компьютеров с одинаковым размером и объемом данных, а также с доступной пропускной способностью сети. Целью является объединение в пакеты компьютеров, которые, скорее всего, завершат начальную репликацию в течение одинакового времени.
Если интенсивное обновление диска для компьютера превышает предел в Планировщике развертывания, можно переместить некритические файлы, которые не нужно реплицировать (например, дампы журналов или временные файлы), с компьютера в другое место. Для виртуальных машин VMware можно переместить эти файлы на отдельный диск, а затем исключить этот диск из репликации.
Перед включением репликации убедитесь, что компьютеры соответствуют требованиям к репликации.
Настройте политику репликации для виртуальных машин VMware или физических серверов.
Включите репликацию для виртуальных машин VMware или физических серверов. При этом запускается начальная репликация для выбранных компьютеров.

Мониторинг развертывания

После запуска репликации для первого пакета виртуальных машин запустите мониторинг развертывания следующим образом.

Назначьте администратора аварийного восстановления для наблюдения за состоянием работоспособности реплицированных компьютеров.
Выполняйте мониторинг событий для реплицированных элементов и инфраструктуры.
Отслеживайте работоспособность серверов обработки масштабирования.
Зарегистрируйтесь для получения уведомлений по электронной почте о событиях, чтобы упростить мониторинг.
Выполните регулярную отработку аварийного восстановления, чтобы убедиться, что все работает правильно.

Планирование крупномасштабных отработок отказов

В случае аварии может потребоваться выполнить отработку отказа большого количества компьютеров или рабочих нагрузок в Azure. Подготовьтесь к этому типу события, как показано ниже.

Вы можете заранее подготовиться к отработке отказа следующим образом:

Подготовьте инфраструктуру и виртуальные машины, чтобы рабочие нагрузки были доступны после отработки отказа, чтобы пользователи могли получить доступ к виртуальным машинам Azure.
Обратите внимание на ограничения отработки отказа, приведенные ранее в этом документе. Убедитесь, что отработка отказа будет находиться в пределах этих ограничений.
Регулярно проводите отработку аварийного восстановления. Отработка помогает:
- Найти недочеты в развертывании перед отработкой отказа.
- Оценить сквозное RTO для ваших приложений.
- Оценить сквозную RPO для рабочих нагрузок.
- Выявить конфликты диапазона IP-адресов.
- При выполнении отработки рекомендуется не использовать рабочие сети для отработки и выполнять очистку после каждой отработки.

Для выполнения крупномасштабной отработки отказа рекомендуется выполнить следующее.

Создайте планы восстановления для отработки отказа рабочей нагрузки.
- Каждый план восстановления может активировать отработку отказа до 100 компьютеров.
- Узнайте подробнее о планах восстановления.
Добавьте скрипты Runbook службы автоматизации Azure в планы восстановления, чтобы автоматизировать задачи, выполняемые вручную в Azure. Типовые задачи включают в себя настройку подсистем балансировки нагрузки, обновление DNS и т. д. Дополнительные сведения
Перед отработкой отказа подготовьте компьютеры на Windows, чтобы они соответствовали среде Azure. Ограничения на отработку отказа выше для компьютеров, соответствующих требованиям. Дополнительные сведения о runbook.
Активируйте отработку отказа с помощью командлета PowerShell Start-AzRecoveryServicesAsrPlannedFailoverJob вместе с планом восстановления.

Следующие шаги

Мониторинг Site Recovery

Share via