Контрольный список для проверки проектирования для обеспечения надежности
В этом контрольном списке представлен набор рекомендаций, которые вы можете использовать для оценки стратегий восстановления надежности, устойчивости и аварийного восстановления в архитектуре. Чтобы обеспечить надежность, определите оптимальную инфраструктуру и проект приложения для рабочей нагрузки. Принимать эти решения на основе бизнес-требований, сопоставленных с целевыми метриками доступности и возможности восстановления.
Чтобы реализовать надежную структуру, тщательно продумайте точки принятия решений в проекте и помните о том, как эти решения влияют на рабочую нагрузку. Этот контрольный список и сопутствующие руководства предоставляют ресурсы, которые помогут вам принять эти решения. Сделайте надежность рабочей нагрузки центральным фактором на протяжении всего проектирования, разработки и жизненного цикла эксплуатации рабочей нагрузки.
Контрольный список
Подходите к проектированию с акцентом на надежность, чтобы гарантировать, что вы разрабатываете рабочую нагрузку, которая является устойчивой, управляемой и повторяемой. Если вы не включаете методики обеспечения надежности и учитываете компромиссы, ваша конструкция потенциально подвержена риску. Тщательно продумайте все моменты, описанные в контрольном списке, чтобы привить уверенность в успехе вашей системы.
Код | Рекомендация | |
---|---|---|
☐ | RE:01 | Проектируйте рабочую нагрузку в соответствии с бизнес-целями и избегайте ненужных сложностей или издержек. Используйте практический и сбалансированный подход для принятия решений по проектированию, которые обеспечивают желаемые результаты. Обязайте свой проект необходимыми потребностями, чтобы уменьшить неэффективность и потенциальные проблемы. |
☐ | RE:02 | Определите и оцените потоки пользователей и системы. Используйте шкалу важности на основе бизнес-требований, чтобы приоритизировать потоки. |
☐ | RE:03 | Используйте анализ режима сбоя (FMA) для выявления и определения приоритетов потенциальных сбоев в компонентах решения. Выполните FMA, чтобы оценить риск и влияние каждого режима сбоя. Определите, как рабочая нагрузка реагирует и восстанавливается. |
☐ | RE:04 | Определите целевые показатели надежности и восстановления для компонентов, потоков и общего решения. Визуализация целей для переговоров, достижения консенсуса, установки ожиданий и стимулирования действий для достижения идеального состояния. Используйте определенные целевые объекты для создания модели работоспособности. Модель работоспособности определяет, как выглядят состояния работоспособности, понижения и неработоспособности. |
☐ |
RE:05 RE:05 RE:05 |
Добавьте избыточность на разных уровнях, особенно для критически важных потоков. Применяйте избыточность к уровням вычислений, данных, сети и другим уровням инфраструктуры в соответствии с определенными целевыми показателями надежности. |
☐ |
RE:06 RE:06 |
Реализуйте своевременную и надежную стратегию масштабирования на уровне приложений, данных и инфраструктуры. |
☐ |
RE:07 RE:07 RE:07 |
Повысьте устойчивость и возможность восстановления рабочей нагрузки, реализовав меры самосохранения и самовосстановления. Встраивайте возможности в решение с помощью шаблонов надежности на основе инфраструктуры и шаблонов программного проектирования для обработки сбоев компонентов и временных ошибок. Создайте в системе возможности для обнаружения сбоев компонентов решения и автоматического запуска корректирующих действий, пока рабочая нагрузка продолжает работать с полной или ограниченной функциональностью. |
☐ | RE:08 | Протестируйте сценарии устойчивости и доступности, применяя принципы проектирования хаоса в тестовой и рабочей средах. Используйте тестирование, чтобы убедиться, что ваши стратегии корректного снижения производительности и масштабирования эффективны, выполняя активные неисправности и имитированное нагрузочное тестирование. |
☐ | RE:09 | Реализуйте структурированные, протестированные и задокументированные планы непрерывности бизнес-процессов и аварийного восстановления (BCDR), которые соответствуют целевым объектам восстановления. Планы должны охватывать все компоненты и систему в целом. |
☐ | RE:10 | Измерение и моделирование сигналов о работоспособности решения. Непрерывный сбор данных о времени доступности и других данных о надежности из всей рабочей нагрузки, а также из отдельных компонентов и ключевых потоков. |
Дальнейшие действия
Мы рекомендуем ознакомиться с компромиссами надежности, чтобы изучить другие понятия.