Поделиться через


Контрольный список для проверки проектирования для обеспечения надежности

В этом контрольном списке представлен набор рекомендаций, которые вы можете использовать для оценки стратегий восстановления надежности, устойчивости и аварийного восстановления в архитектуре. Чтобы обеспечить надежность, определите оптимальную инфраструктуру и проект приложения для рабочей нагрузки. Принимать эти решения на основе бизнес-требований, сопоставленных с целевыми метриками доступности и возможности восстановления.

Чтобы реализовать надежную структуру, тщательно продумайте точки принятия решений в проекте и помните о том, как эти решения влияют на рабочую нагрузку. Этот контрольный список и сопутствующие руководства предоставляют ресурсы, которые помогут вам принять эти решения. Сделайте надежность рабочей нагрузки центральным фактором на протяжении всего проектирования, разработки и жизненного цикла эксплуатации рабочей нагрузки.

Контрольный список

Подходите к проектированию с акцентом на надежность, чтобы гарантировать, что вы разрабатываете рабочую нагрузку, которая является устойчивой, управляемой и повторяемой. Если вы не включаете методики обеспечения надежности и учитываете компромиссы, ваша конструкция потенциально подвержена риску. Тщательно продумайте все моменты, описанные в контрольном списке, чтобы привить уверенность в успехе вашей системы.

  Код Рекомендация
RE:01 Проектируйте рабочую нагрузку в соответствии с бизнес-целями и избегайте ненужных сложностей или издержек. Используйте практический и сбалансированный подход для принятия решений по проектированию, которые обеспечивают желаемые результаты. Обязайте свой проект необходимыми потребностями, чтобы уменьшить неэффективность и потенциальные проблемы.
RE:02 Определите и оцените потоки пользователей и системы. Используйте шкалу важности на основе бизнес-требований, чтобы приоритизировать потоки.
RE:03 Используйте анализ режима сбоя (FMA) для выявления и определения приоритетов потенциальных сбоев в компонентах решения. Выполните FMA, чтобы оценить риск и влияние каждого режима сбоя. Определите, как рабочая нагрузка реагирует и восстанавливается.
RE:04 Определите целевые показатели надежности и восстановления для компонентов, потоков и общего решения. Визуализация целей для переговоров, достижения консенсуса, установки ожиданий и стимулирования действий для достижения идеального состояния. Используйте определенные целевые объекты для создания модели работоспособности. Модель работоспособности определяет, как выглядят состояния работоспособности, понижения и неработоспособности.
RE:05
RE:05
RE:05
Добавьте избыточность на разных уровнях, особенно для критически важных потоков. Применяйте избыточность к уровням вычислений, данных, сети и другим уровням инфраструктуры в соответствии с определенными целевыми показателями надежности.
RE:06
RE:06
Реализуйте своевременную и надежную стратегию масштабирования на уровне приложений, данных и инфраструктуры.
RE:07
RE:07
RE:07
Повысьте устойчивость и возможность восстановления рабочей нагрузки, реализовав меры самосохранения и самовосстановления. Встраивайте возможности в решение с помощью шаблонов надежности на основе инфраструктуры и шаблонов программного проектирования для обработки сбоев компонентов и временных ошибок. Создайте в системе возможности для обнаружения сбоев компонентов решения и автоматического запуска корректирующих действий, пока рабочая нагрузка продолжает работать с полной или ограниченной функциональностью.
RE:08 Протестируйте сценарии устойчивости и доступности, применяя принципы проектирования хаоса в тестовой и рабочей средах. Используйте тестирование, чтобы убедиться, что ваши стратегии корректного снижения производительности и масштабирования эффективны, выполняя активные неисправности и имитированное нагрузочное тестирование.
RE:09 Реализуйте структурированные, протестированные и задокументированные планы непрерывности бизнес-процессов и аварийного восстановления (BCDR), которые соответствуют целевым объектам восстановления. Планы должны охватывать все компоненты и систему в целом.
RE:10 Измерение и моделирование сигналов о работоспособности решения. Непрерывный сбор данных о времени доступности и других данных о надежности из всей рабочей нагрузки, а также из отдельных компонентов и ключевых потоков.

Дальнейшие действия

Мы рекомендуем ознакомиться с компромиссами надежности, чтобы изучить другие понятия.