Аварийное восстановление с помощью средства создания моментальных снимков с согласованием для приложений Azure
В этой статье объясняется, как выполнить аварийное восстановление при использовании средства создания моментальных снимков с согласованием для приложений Azure, которое можно использовать с Azure NetApp Files.
Внимание
Эта операция применяется только к крупному экземпляру Azure.
Введение
На платформе крупных экземпляров Azure также может иметься сайт аварийного восстановления, настроенный в том месте, куда можно реплицировать моментальные снимки тома хранилища. Если моментальные снимки настроены правильно с помощью данной процедуры, можно выполнить аварийное восстановление на этом сайте. Этот документ разработан в качестве руководства по выполнению аварийного восстановления для этой процедуры настройки.
Необходимые условия для настройки аварийного восстановления
Перед планированием отработки отказа аварийного восстановления должны быть выполнены следующие предварительные требования.
- У вас есть узел аварийного восстановления, подготовленный на сайте аварийного восстановления. Имеются два варианта аварийного восстановления. Один из них — обычное, а другой — многоцелевое.
- Репликация хранилища работает. Команда Microsoft Operations автоматически выполняет настройку репликации хранилища во время подготовки аварийного восстановления. Вы можете отслеживать репликацию хранилища с помощью команды
azacsnap -c details --details replication
на сайте аварийного восстановления. - Вы подготовили и настроили моментальные снимки хранилища в основном расположении.
- У вас есть экземпляр HANA, установленный на сайте аварийного восстановления для основного экземпляра с тем же идентификатором безопасности, что и у основного экземпляра.
- Вы прочли и поняли процедуру отработки отказа аварийного восстановления, описанную в статье Крупные экземпляры SAP HANA: высокий уровень доступности и аварийное восстановление на Azure.
- Вы подготовили и настроили моментальные снимки хранилища в расположении аварийного восстановления.
- Файл конфигурации (например,
DR.json
) был создан с томами хранилища аварийного восстановления и связанными сведениями на сервере аварийного восстановления. - Вы выполнили действия на сайте аварийного восстановления, чтобы:
- Обеспечьте обмен данными с хранилищем.
- Обеспечить обмен данными с SAP HANA.
Настройка аварийного восстановления
Корпорация Майкрософт поддерживает репликацию на уровне хранилища для аварийного восстановления. Настроить аварийное восстановление можно двумя способами.
Одна из них — обычное, а другое — многоцелевое. При обычном аварийном восстановлении у вас есть выделенный экземпляр в расположении аварийного восстановления для отработки отказа. В сценарии с многоцелевым аварийным восстановлением у вас есть еще один экземпляр HANA для контроля качества или разработки, запущенный на крупном экземпляре HANA на сайте аварийного восстановления. Но вы также установили предварительно установленный экземпляр HANA, который находится в неактивном состоянии и имеет тот же идентификатор безопасности, что и экземпляр HANA, для которого требуется выполнить отработку отказа на крупный экземпляр HANA. Microsoft Operations настраивает среду для вас, включая репликацию хранилища на основе входных данных, указанных в форме запроса на обслуживание (SRF) во время подключения.
Внимание
Убедитесь, что выполнены все необходимые условия для настройки аварийного восстановления.
Мониторинг репликации данных с первичного сайта на сайт аварийного восстановления
Команда Microsoft Operations уже управляет каналом аварийного восстановления с первичного сайта на сайт аварийного восстановления и отслеживает его.
Вы можете отслеживать репликацию данных с сервера-источника на сервер аварийного восстановления с помощью команды создания моментальных снимков azacsnap -c details --details replication
.
Отработка отказа на сайт аварийного восстановления
Выполните команду отработки отказа на сайте аварийного восстановления (azacsnap -c restore --restore revertvolume
).
Внимание
Команда azacsnap -c restore --restore revertvolume
прерывает репликацию хранилища с рабочего сайта на сайт аварийного восстановления. Для повторной настройки репликации необходимо обратиться в Microsoft Operations. После повторного включения репликации все данные в хранилище аварийного восстановления для этого идентификатора безопасности будут инициализированы. Команда, выполняющая отработку отказа, предоставляет доступ к последнему реплицированному моментальному снимку хранилища. Если необходимо восстановить старую версию моментального снимка, отправьте запрос в службу поддержки, чтобы команда Operations могла предоставить более ранний моментальный снимок, восстановленный на сайте аварийного восстановления.
На высоком уровне следует выполнить шаги ниже для отработки отказа аварийного восстановления.
- Необходимо завершить работу экземпляра HANA на основном сайте. Это действие требуется только в том случае, если вы действительно выполняете отработку отказа на сайт аварийного восстановления, т. е. несогласованность данных отсутствует.
- Завершите работу экземпляра HANA на узле аварийного восстановления для рабочего идентификатора безопасности.
- Выполните команду
azacsnap -c restore --restore revertvolume
на узле аварийного восстановления с идентификатором безопасности для восстановления.- Команда закрывает канал репликации хранилища с основного сайта на сайт аварийного восстановления.
- Команда восстанавливает только тома /data и /logbackups, том /shared НЕ восстанавливается, а вместо него использует существующий том /shared для идентификатора безопасности в расположении аварийного восстановления.
- Подключение томов /data и /logbackups — обязательно добавьте их в файл fstab.
- Восстановите моментальный снимок HANA SYSTEMDB. HANA Studio показывает только последний моментальный снимок HANA, доступный в моментальном снимке хранилища, который был восстановлен в ходе выполнения команды
azacsnap -c restore --restore revertvolume
. - Восстановите базу данных клиента.
- Запустите экземпляр HANA на сайте аварийного восстановления для рабочего идентификатора безопасности (например, в этом случае — H80).
- Выполните тестирование.
Пример выполнения аварийного восстановления
В этом подразделе описаны подробные инструкции по отработке отказа на сайт аварийного восстановления.
Шаг 1. Получение сведений о томе для узла аварийного восстановления
Выполните команду df –h
, чтобы получить список файловых систем и связанных томов, на которые следует ссылаться после отработки отказа.
df -h
Filesystem Size Used Avail Use% Mounted on
devtmpfs 378G 8.0K 378G 1% /dev
tmpfs 569G 0 569G 0%
/dev/shm
tmpfs 378G 18M 378G 1% /run
tmpfs 378G 0 378G 0%
/sys/fs/cgroup
/dev/mapper/3600a098038304445622b4b584c575a66-part2 47G 20G 28G 42% /
/dev/mapper/3600a098038304445622b4b584c575a66-part1 979M 57M 856M 7% /boot
172.18.20.241:/hana_log_h80_mnt00003_t020_vol 512G 2.1G 510G 1% /hana/log/H80/mnt00003
172.18.20.241:/hana_log_h80_mnt00001_t020_vol 512G 5.5G 507G 2% /hana/log/H80/mnt00001
172.18.20.241:/hana_data_h80_mnt00003_t020_vol 1.2T 332M 1.2T 1% /hana/data/H80/mnt00003
172.18.20.241:/hana_log_h80_mnt00002_t020_vol 512G 2.1G 510G 1% /hana/log/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00002_t020_vol 1.2T 300M 1.2T 1% /hana/data/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00001_t020_vol 1.2T 6.4G 1.2T 1% /hana/data/H80/mnt00001
172.18.20.241:/hana_shared_h80_t020_vol/usr_sap_node1 2.7T 11G 2.7T 1% /usr/sap/H80
tmpfs 76G 0 76G 0% /run/user/0
172.18.20.241:/hana_shared_h80_t020_vol 2.7T 11G 2.7T 1% /hana/shared
172.18.20.241:/hana_data_h80_mnt00001_t020_xdp 1.2T 6.4G 1.2T 1% /hana/data/H80/mnt00001
172.18.20.241:/hana_data_h80_mnt00002_t020_xdp 1.2T 300M 1.2T 1% /hana/data/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00003_t020_xdp 1.2T 332M 1.2T 1% /hana/data/H80/mnt00003
172.18.20.241:/hana_log_backups_h80_t020_xdp 512G 15G 498G 3% /hana/logbackups/H80_T250
Шаг 2. Завершение работы HANA на основном сайте
Если выполняется полная отработка отказа рабочих нагрузок рабочей нагрузки и можно подключиться к основному рабочему сайту, то завершите работу экземпляров SAP HANA, которые отправляются на сайт аварийного восстановления.
Например, в следующем примере показано, как можно завершить работу SAP HANA, если войти в качестве привилегированного пользователя. Замените <идентификатор безопасности> SAP HANA.
su - <sid>adm
HDB stop
Шаг 3. Завершение работы HANA на сайте аварийного восстановления
Прежде чем восстанавливать тома, важно завершить работу SAP HANA на сайте аварийного восстановления.
Например, в следующем примере показано, как можно завершить работу SAP HANA, если войти в качестве привилегированного пользователя. Замените <идентификатор безопасности> SAP HANA.
su - <sid>adm
HDB stop
Внимание
Перед восстановлением томов убедитесь, что экземпляры HANA на сайте аварийного восстановления отключены.
Шаг 4. Восстановление томов
azacsnap -c restore --restore revertvolume --dbsid H80
Выходные данные команды отработки отказа аварийного восстановления.
azacsnap --configfile DR.json -c restore --restore revertvolume --dbsid H80
* This program is designed for those customers who have previously installed the
Production HANA instance in the Disaster Recovery Location either as a
stand-alone instance or as part of a multi-purpose environment.
* This program should be executed from the Disaster Recovery location otherwise
unintended consequences may result.
* This program is intended to allow the customer to complete a Disaster Recovery
failover.
* Any other restore points must be handled by Microsoft Operations.
* All volumes ('data' and 'other') are reverted to their most recent snapshot.
* The SnapMirror replication relationship between Prod and DR will be broken.
CAUTION: a failback will be required after running this command and failback
might not be a quick process and will require multiple steps in coordination
with Microsoft Operations.
Do you wish to continue? (y/n) [n]: y
Checking state of HLI volumes for SID 'H80'
Configured volumes (Data and Other) are not quiesced for revert, will retry in 00:00:10 seconds
Volumes All Ok to Revert = True
Reverting volume 'hana_data_h80_mnt00001_t020_xdp' to snapshot 'H80_HANA_DATA_30MIN.2020-09-16_0330.0'
DR.json Data Volume #1 'hana_data_h80_mnt00001_t020_xdp' assigning to mountpoint 'mnt00001'
Reverting volume 'hana_log_backups_h80_t020_xdp01' to snapshot 'H80_HANA_LOGS_3MIN_X9.2020-09-16_0339.recent'
DR.json Other Volume #1 'hana_log_backups_h80_t020_xdp01' assigning to mountpoint '01'
HLI Volume revert completed for SID 'H80'
Displaying Mount Points by Volume as follows:
10.50.251.34:/hana_data_h80_mnt00001_t020_xdp /hana/data/H80/mnt00001 nfs rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0
10.50.251.36:/hana_log_backups_h80_t020_xdp01 /hana/log_backups/H80/01 nfs rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0
********************* HANA DR Restore Steps **********************************
* Please complete the following steps to recover your HANA database: *
* 1. Ensure ALL the target mount points exist to mount the snapshot clones. *
* e.g. mkdir /hana/logbackups/H99_SOURCE *
* 2. Add Mount Point Details from 'Displaying Mount Points by Volume' as *
* output above into /etc/fstab of DR Server. *
* 3. Mount newly added filesystems. *
* 4. Perform HANA Snapshot Recovery using HANA Studio. *
********************************************************************************
Примечание.
Чтобы завершить подготовку хранилища для отработки отказа аварийного восстановления, необходимо выполнить действия в конце окна консоли.
Шаг 5. Отключение ненужных файловых систем
Выполните команду umount
, чтобы отключить ненужные файловые системы или тома.
umount <Mount point>
Отключите точки подключения резервного копирования данных и журналов. В сценарии горизонтального масштабирования может быть несколько точке подключения к данным.
Шаг 6. Настройка точек подключения
Измените файл /etc/fstab
, чтобы закомментировать записи и резервные копии журналов основного идентификатора безопасности (в этом примере это SID = H80) и добавить новые записи точек подключения, созданные на основе томов аварийного восстановления основного сайта. Новые записи точек подключения приведены в выходных данных команды.
Закомментируйте существующие точки подключения, работающие на сайте аварийного восстановления, с помощью символа
#
:#172.18.20.241:/hana_data_h80_mnt00001_t020_vol /hana/data/H80/mnt00001 nfs rw,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0 #172.18.20.241:/hana_log_backups_h80_t020 /hana/logbackups/H80 nfs rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0
Добавьте следующие строки в
/etc/fstab
это должны быть те же выходные данные команды
10.50.251.34:/hana_data_h80_mnt00001_t020_xdp /hana/data/H80/mnt00001 nfs rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0 10.50.251.36:/hana_log_backups_h80_t020_xdp01 /hana/log_backups/H80/01 nfs rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0
Шаг 7. Подключение томов восстановления
Выполните команду mount –a
, чтобы подключить все точки подключения.
mount -a
Теперь при выполнении df –h
вы должны увидеть подключенные тома *_dp
.
df -h
Filesystem Size Used Avail Use% Mounted on
devtmpfs 378G 8.0K 378G 1% /dev
tmpfs 569G 0 569G 0% /dev/shm
tmpfs 378G 18M 378G 1% /run
tmpfs 378G 0 378G 0% /sys/fs/cgroup
/dev/mapper/3600a098038304445622b4b584c575a66-part2 47G 20G 28G 42% /
/dev/mapper/3600a098038304445622b4b584c575a66-part1 979M 57M 856M 7% /boot
172.18.20.241:/hana_log_h80_mnt00003_t020_vol 512G 2.1G 510G 1% /hana/log/H80/mnt00003
172.18.20.241:/hana_log_h80_mnt00001_t020_vol 512G 5.5G 507G 2% /hana/log/H80/mnt00001
172.18.20.241:/hana_data_h80_mnt00003_t020_vol 1.2T 332M 1.2T 1% /hana/data/H80/mnt00003
172.18.20.241:/hana_log_h80_mnt00002_t020_vol 512G 2.1G 510G 1% /hana/log/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00002_t020_vol 1.2T 300M 1.2T 1% /hana/data/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00001_t020_vol 1.2T 6.4G 1.2T 1% /hana/data/H80/mnt00001
172.18.20.241:/hana_shared_h80_t020_vol/usr_sap_node1 2.7T 11G 2.7T 1% /usr/sap/H80
tmpfs 76G 0 76G 0% /run/user/0
172.18.20.241:/hana_shared_h80_t020_vol 2.7T 11G 2.7T 1% /hana/shared
172.18.20.241:/hana_data_h80_mnt00001_t020_xdp 1.2T 6.4G 1.2T 1% /hana/data/H80/mnt00001
172.18.20.241:/hana_data_h80_mnt00002_t020_xdp 1.2T 300M 1.2T 1% /hana/data/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00003_t020_xdp 1.2T 332M 1.2T 1% /hana/data/H80/mnt00003
172.18.20.241:/hana_log_backups_h80_t020_xdp 512G 15G 498G 3% /hana/logbackups/H80_T250
Шаг 8. Восстановление SYSTEMDB
В HANA Studio щелкните правой кнопкой мыши экземпляр SYSTEMDB и выберите пункт "Резервное копирование и восстановление", а затем "Восстановить системную базу данных".
Ознакомьтесь с руководством по восстановлению базы данных из моментального снимка, в частности SYSTEMDB.
Шаг 9. Восстановление базы данных клиента
В HANA Studio щелкните правой кнопкой мыши экземпляр SYSTEMDB и выберите пункт "Резервное копирование и восстановление", а затем "Восстановить базу данных клиента".
Ознакомьтесь с руководством по восстановлению базы данных из моментального снимка, в частности баз данных клиента.
Выполнение azacsnap -c backup
на сайте аварийного восстановления
Если на сайте аварийного восстановления выполняются резервные копии на основе моментальных снимков, то имя сервера HANA, настроенное в файле конфигурации azacsnap
на сайте аварийного восстановления, должно совпадать с именем рабочего сервера.
Внимание
При запуске azacsnap -c backup
можно создавать моментальные снимки хранилища на сайте аварийного восстановления, которые не реплицируются автоматически на другой сайт. Необходимо взаимодействие с Microsoft Operations для лучшего понимания процедуры возврата файлов и данных на исходный рабочий сайт.