Рекомендации по разработке стратегии аварийного восстановления

2024-05-16

Применимо к этой рекомендации Power Platform контрольного списка надежности, хорошо продуманной архитектуры:

Внедряйте структурированные, протестированные и документированные планы обеспечения непрерывности бизнес-процессов и аварийного восстановления (BCDR), соответствующие целям восстановления. Планы должны охватывать все компоненты и систему в целом.

В этом руководстве описаны рекомендации по разработке надежной стратегии аварийного восстановления рабочей нагрузки. Чтобы достичь внутренних целей по уровню обслуживания (SLO) или даже соглашения об уровнях обслуживания (SLA), которые вы гарантируете своим клиентам, вам необходимо иметь надежную и надежную стратегию аварийного восстановления. Сбои и другие серьезные проблемы должны быть ожидаемы. Ваша подготовка к реагированию на эти инциденты определяет, насколько ваши клиенты могут доверять вашей компании в плане надежного предоставления услуг. Стратегия аварийного восстановления является основой подготовки к крупным инцидентам.

Определения

Термин	Определение
Отработка отказа	Автоматическое и/или ручное перемещение трафика производственной нагрузки из недоступного региона в незатронутый регион.
Восстановление размещения	Автоматическое и/или ручное перемещение трафика производственной нагрузки из региона обхода отказа обратно в основной регион.

Ключевые стратегии проектирования

Это руководство предполагает, что вы уже выполнили следующие задачи в рамках планирования надежности:

Идентификация критических и некритических потоков.
Выполнение анализ типов отказа (FMA) для ваших потоков.
Определение целей надежности.
Разработка надежной стратегии тестирования.

Надежная архитектура рабочих нагрузок является основой надежной стратегии аварийного восстановления (DR). Учитывайте показатель надежности на каждом этапе создания рабочей нагрузки, чтобы убедиться в наличии необходимых компонентов для эффективного восстановления, прежде чем приступать к планированию стратегии аварийного восстановления. Этот базовый принцип гарантирует, что цели надежности вашей рабочей нагрузки, такие как целевое время восстановления (RTO) и целевая точка восстановления (RPO), будут практичными и достижимыми.

Составьте план аварийного восстановления

Ключом к надежной стратегии аварийного восстановления рабочей нагрузки является план аварийного восстановления. Ваш план должен быть динамичным документом, который регулярно пересматривается и обновляется по мере изменения среды. Регулярно (например, каждые шесть месяцев) делитесь планом с соответствующими группами (операционными и технологическими специалистами, а также заинтересованными сторонами). Храните его в высокодоступном и безопасном хранилище данных, например в OneDrive.

Следуйте этим рекомендациям для разработки плана аварийного восстановления:

Четко определите, что представляет собой аварийная ситуация, которая требует активации плана аварийного восстановления.

Аварии – это масштабные проблемы. Это могут быть региональные сбои, перебои в работе таких служб, как Microsoft Entra ID или Azure DNS, а также серьезные вредоносные атаки, такие как атаки с использованием программ-шантажистов или атаки DDoS.

Включите в свой план аварийного восстановления примеры типов отказов, которые не считаются аварийными ситуациями, например недоступность или сбой одного ресурса, чтобы операторы по ошибке не вызывали эскалацию плана аварийного восстановления.
Создайте план аварийного восстановления на основе документации по анализу типов отказов. Убедитесь, что ваш план аварийного восстановления фиксирует типы отказов и стратегии устранения для сбоев, которые определяются как чрезвычайные ситуации. Если требуются обновления, обновите и план аварийного восстановления, и документы по анализу типов отказов одновременно, чтобы они были актуальными при изменении среды, или когда при тестировании обнаруживается непредвиденное поведение.
Четко определите роли и обязанности внутри группы по рабочей нагрузке и все связанные внешние роли в вашей организации. Если чрезвычайная ситуация вызван отказом внешней службы, например Microsoft Entra ID, убедитесь, что у вас определена роль, которая отвечает за связь с внешней стороной и может делиться обновлениями с группой по рабочей нагрузке. Роли должны быть следующие:
- Сторона, ответственная за объявление о чрезвычайной ситуации
- Сторона, ответственная за объявление о закрытии инцидента
- Операционные роли
- Роли по тестированию и проверке
- Роли внутренних и внешних коммуникаций
- Ведущие роли в ретроспективном анализе и анализе первопричин (RCA)
Определите пути эскалации, которым должна следовать группа по рабочей нагрузке, чтобы обеспечить передачу статуса восстановления заинтересованным лицам.
Включите предписанный порядок, в котором компоненты рабочей нагрузки должны быть восстановлены, чтобы гарантировать минимальные последствия. Например, сначала восстановите базы данных и перезапустите облачные потоки, а потом восстановите приложения.
- Подробно опишите процедуру восстановления каждого компонента в виде пошагового руководства. Если возможно, приложите снимки экрана и необходимые условия для выполнения процедуры. Например, перечислите необходимые сценарии или учетные данные, которые необходимо собрать.
- Определите обязанности вашей команды и обязанности вашего поставщика облачной среды. Например, Microsoft отвечает за восстановление PaaS (платформа как услуга), но вы отвечаете за восстановление данных и применение вашей конфигурации к службе.
- Прежде чем приступить к восстановлению, выявите основную первопричину инцидента и примите меры по ее устранению. Например, если причиной инцидента является проблема безопасности, устраните эту проблему, прежде чем восстанавливать затронутые системы в среде отработки отказа.
Если вам необходимо повторно развернуть приложение в среде отработки отказа, используйте инструменты для максимально возможной автоматизации процесса развертывания. Убедитесь, что ваши конвейеры Azure Pipelines предварительно развернуты и правильно настроены в средах отработки отказа, чтобы вы могли немедленно начать развертывания. Используйте автоматизированные комплексные развертывания с возможностью ручного утверждения, где это необходимо, чтобы обеспечить согласованный и эффективный процесс развертывания. Если этап процесса развертывания требует вмешательства вручную, задокументируйте действия, выполняемые вручную. Четко определите роли и обязанности.
Автоматизируйте как можно большую часть процедуры. Используйте логику повторов, чтобы не тратить время на сценарии, которые застревают на невыполненной задаче. Поскольку вы запускаете эти сценарии только в экстренных случаях, нужно избежать ситуаций, когда неправильно разработанные сценарии наносят больший ущерб или замедляют процесс восстановления.

Заметка

Автоматизация создает риски. Обученные операторы должны внимательно следить за автоматизированными процессами и вмешиваться, если в каком-либо процессе возникают проблемы. Чтобы свести к минимуму риск того, что автоматизация отреагирует на ложные срабатывания, тщательно выполняйте тренировочные упражнения по аварийному восстановлению. Проверьте все этапы плана. Имитируйте обнаружение аварийного сбоя, чтобы генерировать оповещения, а затем полностью проходит всю процедуру восстановления.

Проводите тренировочные упражнения по аварийному восстановлению

Практика тестирования аварийного восстановления необходима для составления хорошего плана аварийного восстановления. Во многих отраслях существуют системы обеспечения соответствия требованиям, которые требуют выполнения регулярных тренировочных упражнений по аварийному восстановлению. Независимо от вашей отрасли, частые тренировочные упражнения по аварийному восстановлению имеют решающее значение для достижения успеха.

Следуйте этим рекомендациям для успешного выполнения тренировочных упражнений по практической отработке плана аварийного восстановления:

Выполняйте по крайней мере одну производственную отработку плана аварийного восстановления в год. Упражнения в формате имитации (не на производстве) позволяют убедиться, что участвующие стороны знакомы со своими ролями и обязанностями. Эти упражнения также помогают операторам лучше ознакомиться с процессами восстановления. Но только практическая отработка на производстве позволяет действительно проверить жизнеспособность плана аварийного восстановления и показателей RTO и RPO. Используйте свои производственные упражнения для определения времени процессов восстановления компонентов и потоков, чтобы гарантировать достижимость целевых показателей RTO и RPO, определенных для вашей рабочей нагрузки. Для функций, которые находятся вне вашего контроля, таких как сбои Microsoft Entra ID, убедитесь, что целевые значения RTO и RPO для потоков, в которых задействованы эти функции, учитывают возможные задержки, находящиеся вне вашего контроля.
Используйте имитационные упражнения, чтобы обучить новых операторов процессам и процедурам аварийного восстановления. Старшим операторам следует уделять время обучению новых операторов, чтобы те могли выполнять свою роль, и следить за возможностями улучшения. Если новый оператор проявляет нерешительность или испытывает проблемы на каком-либо этапе процедуры, просмотрите эту процедуру, чтобы убедиться, что она понятно написана.

Возможности при отработке отказа

Microsoft Бизнес-приложения обеспечивают непрерывность бизнеса и возможности аварийного восстановления (BCDR) для всех производственных сред в Dynamics 365 и Power Platform приложений программного обеспечения как услуги (SAAS). Узнайте, как Microsoft обеспечить устойчивость ваших производственных данных во время региональных сбоев.

Контрольный список надежности

Обратитесь к полному набору рекомендаций.

Контрольный список надежности

Поделиться через

Рекомендации по разработке стратегии аварийного восстановления

Ключевые стратегии проектирования

Составьте план аварийного восстановления

Проводите тренировочные упражнения по аварийному восстановлению

Рекомендации

Возможности при отработке отказа

Контрольный список надежности

Обратная связь

Дополнительные ресурсы