Обзор Azure Site Recovery

10 мин

Azure Site Recovery — это не просто средство для восстановления после сбоя системы. Azure Site Recovery реплицирует рабочие нагрузки между основным и вторичным сайтом. Site Recovery также можно использовать для переноса виртуальных машин из локальной инфраструктуры в Azure.

Первой задачей для защиты рабочих нагрузок от землетрясения, например, является проверка текущего плана непрерывности бизнес-процессов и аварийного восстановления (BCDR). Необходимо определить различные цели и области восстановления для систем, которым требуется защита.

В этом модуле вы узнаете, как Azure Site Recovery может помочь достичь этих целей и сделать возможными переключение на резервный ресурс и восстановление ресурсов в случае аварии.

Непрерывность бизнес-процессов и аварийное восстановление

Потеря обслуживания может привести к нарушению работы сотрудников и пользователей. Каждая секунда недоступности систем приводит к потере дохода вашей компании. Ваша компания также может столкнуться с финансовыми штрафами за нарушение соглашений о доступности предоставляемых услуг.

Планы BCDR — это официальные документы, которые компании создают для покрытия области и действий, которые должны быть приняты при аварии или крупномасштабном сбое. Каждое отключение оценивается на основании его особенностей. Например, план BCDR вступает в действие, когда весь центр обработки данных теряет мощность.

В этом примере произошло землетрясение и повреждены линии связи, что делает центр обработки данных бесполезным и нуждающимся в ремонте. Авария такого масштаба может привести к сбою служб на несколько дней, а не часов, поэтому необходимо задействовать полный план по обеспечению непрерывности бизнеса и восстановлению после сбоев, чтобы восстановить предоставление услуг.

В рамках плана BCDR определите цели времени восстановления (ОСРВ) и цели точки восстановления (RPOS) для ваших приложений. Вместе эти две цели помогают определить максимальное количество часов, которые бизнес может обойтись без указанных услуг, и каким должен быть процесс восстановления данных. Давайте посмотрим ближе к каждому.

Иллюстрация, показывающая длительность (в часах) цели точки восстановления и целевого времени восстановления с момента аварии.

Цель времени восстановления

RTO — это мера максимального времени, в течение которого ваш бизнес может продолжать функционировать после аварии, прежде чем необходимо восстановить нормальное обслуживание, чтобы избежать неприемлемых последствий, вызванных нарушением непрерывности. Предположим, что ваш RTO составляет 12 часов, что означает, что операции могут продолжаться в течение 12 часов без функционирования основных служб бизнеса. Если время простоя увеличится, ваш бизнес может серьезно пострадать.

Цель точки восстановления

RPO — это мера максимального объема потери данных, приемлемого после аварии. Как правило, бизнес может решить выполнять резервное копирование каждые 24 часа, 12 часов или даже в режиме реального времени. При возникновении аварии всегда возникает некоторая потеря данных.

Например, если резервное копирование произошло в полночь каждые 24 часа, а авария произошла в 9:00, то девять часов данных будут потеряны. Если RPO вашей компании было 12 часов, это было бы нормально, потому что только девять часов прошло. Если бы RPO составлял четыре часа, возникла бы проблема и был бы нанесен ущерб бизнесу.

Что такое Azure Site Recovery?

Azure Site Recovery может внести свой вклад в план BCDR, так как он может реплицировать рабочие нагрузки с первичного сайта на дополнительный сайт. Если на первичном сайте возникает проблема, можно автоматически вызвать Site Recovery для репликации защищенных виртуальных машин в другое расположение. Переключение на резервный сервер может быть выполнено из локальной среды в Azure или из одного региона Azure в другой.

Ниже приведены некоторые важные функции Azure Site Recovery.

Централизованное управление: Репликация может быть настроена и управляема, а переключение на резервный ресурс и восстановление после сбоя можно выполнить, всё из портала Azure.
Репликация локальных виртуальных машин. При необходимости локальные виртуальные машины можно реплицировать в Azure или в дополнительный локальный центр обработки данных.
Репликация виртуальных машин Azure: виртуальные машины Azure можно реплицировать из одного региона в другой.
Согласованность приложений во время отработки отказа: С помощью точек восстановления и моментальных снимков, обеспечивающих согласованность с приложением, виртуальные машины всегда поддерживаются в согласованном состоянии во время репликации.
Гибкое переключение на резерв: переключение на резерв может выполняться по запросу в качестве теста или активироваться во время реальной аварийной ситуации. Тесты можно запускать для имитации сценария аварийного восстановления без прерывания работы вашей текущей службы.
Интеграция сети. Site Recovery может управлять сетевым управлением во время сценария репликации и аварийного восстановления. Зарезервированные IP-адреса и подсистемы балансировки нагрузки включены, чтобы виртуальные машины могли работать в новом расположении.

Настройка Azure Site Recovery

Схема архитектуры Azure Site Recovery.

Чтобы включить Azure Site Recovery, необходимо настроить несколько компонентов:

Сеть. Для использования реплицированных виртуальных машин требуется допустимая виртуальная сеть Azure.
Хранилище служб восстановления: хранилище в подписке Azure сохраняет перенесенные виртуальные машины при выполнении отработки отказа. Хранилище также содержит политику репликации, а также исходные и целевые местоположения для репликации и аварийного переключения.
Учетные данные. Учетные данные, используемые для Azure, должны иметь роли участника виртуальной машины и участника Site Recovery , чтобы разрешить разрешение на изменение виртуальной машины и хранилища, к которому подключен Site Recovery.
Сервер конфигурации: локальный сервер VMware выполняет несколько ролей во время процесса аварийного переключения и репликации. Вы получите его на портале Azure в качестве открытого устройства виртуальной машины (OVA) для простого развертывания. Сервер конфигурации включает следующее:
- Сервер обработки: этот сервер выступает в качестве шлюза для трафика репликации. Он кэширует, сжимает и шифрует трафик перед отправкой трафика через глобальную сеть в Azure. Процесс-сервер также устанавливает службу мобильности на все физические и виртуальные машины, предназначенные для переключения на резерв и репликации.
- Основной целевой сервер: этот компьютер обрабатывает процесс репликации данных во время отката восстановления из Azure.

Важный

Чтобы осуществить откат из Azure в локальную среду, необходимо, чтобы VMware vCenter с сервером конфигурации был доступен, даже если вы всего лишь реплицируете физические компьютеры в Azure. Нет возможности переключиться обратно на физические серверы.

Процесс репликации

Архитектура Azure Site Recovery.

После настройки необходимых задач репликация компьютеров может начаться. Они реплицируются в соответствии с политикой репликации. На начальных этапах первой копии данные сервера реплицируются в службу хранилища Azure. После завершения начальной репликации происходит вторая репликация. На этот раз изменения дельты виртуальной машины реплицируются в Azure.

Тестирование и мониторинг резервного переключения

После настройки среды для аварийного восстановления проверьте ее, чтобы убедиться, что конфигурация правильна и что все работает должным образом. Проверьте конфигурацию, проведя тренировку аварийного восстановления на изолированной виртуальной машине. Наилучшей практикой является использование изолированной сети для теста, чтобы рабочие сервисы не нарушались.

Первая задача при выполнении тестового восстановления — это проверить свойства тестовой виртуальной машины в разделе «Защищенные элементы» портала Azure. Последние точки восстановления отображаются на панели "Реплицированный элемент ". В разделе "Вычисления и сеть " при необходимости можно настроить имя виртуальной машины, группу ресурсов, размер целевого объекта, группу доступности и параметры диска.

Учения по восстановлению можно начать из раздела Параметры>Реплицированных элементов на портале Azure. Выберите целевую виртуальную машину и выберите пункт меню тестовой отработки отказа для последней обработанной точки восстановления. Выберите сеть Azure в том же меню. Чтобы запустить задание восстановления, нажмите кнопку "ОК " на экране выбора сети.

Состояние задания восстановления и реплицированной виртуальной машины осуществляется с помощью раздела "Обзор " хранилища служб восстановления. Реплицированные элементы имеют состояние:

Работоспособно: репликация работает нормально.
Предупреждение. Существует проблема, которая может повлиять на репликацию.
Критическое: обнаружена критическая ошибка репликации.

Если все работает хорошо, состояние реплицированной виртуальной машины установлено на успешно выполнено. Если тест не был выполнен, его статус устанавливается как Рекомендуется тестирование. Виртуальная машина также установлена на 'Рекомендуется тестирование', если последний тест был более шести месяцев назад.

Каковы ключевые шаги, необходимые для настройки Azure Site Recovery для защиты локальных виртуальных машин?

Централизованное управление, репликация локальных виртуальных машин, интеграция сети, согласованность приложений во время отработки отказа.

Сетевое взаимодействие, создайте хранилище служб восстановления, предоставьте правильные разрешения учетным данным, установите сервер конфигурации в вашем vCenter через OVA.

Защищенные элементы, реплицированный элемент, вычисления и сеть, используйте существующее хранилище служб восстановления, тестовый сценарий отказоустойчивости.

Как протестировать развертывание Azure Site Recovery?

Проведите учение по аварийному восстановлению для всех защищенных виртуальных машин в производственной сети.

Проведите учение по аварийному восстановлению для одной изолированной виртуальной машины в рабочей сети.

Запустите проверку аварийного восстановления для одной изолированной виртуальной машины в изолированной сети.

Вы должны ответить на все вопросы перед проверкой.