Контрольный список рекомендаций по надежности
В этом контрольном списке представлен набор рекомендаций, которые можно использовать для оценки надежности, отказоустойчивости и стратегий восстановления после сбоев в проекте вашей архитектуры. Чтобы обеспечить надежность, определите лучшую инфраструктуру и архитектуру приложений для вашей рабочей нагрузки. Принимайте эти решения на основе потребностей вашего бизнеса, которые сопоставлены с целевыми показателями доступности и возможностями восстановления.
Чтобы реализовать надежный проект, тщательно продумайте точки принятия решений в своей архитектуре и проанализируйте, как эти решения влияют на вашу рабочую нагрузку. Этот контрольный список и прилагаемые к нему руководства предлагают ресурсы, которые помогут вам принять эти решения. Сделайте надежность рабочей нагрузки центральным фактором на каждом этапе проектирования, разработки и эксплуатации жизненного цикла рабочей нагрузки.
Контрольный список
При проектировании уделяйте особое внимание надежности, чтобы обеспечить отказоустойчивость, управляемость и повторяемость рабочей нагрузки. Если вы не учтете практики обеспечения надежности и возможные компромиссы, ваше проектное решение может оказаться под угрозой. Внимательно рассмотрите все пункты, включенные в контрольный список, чтобы гарантировать успешность вашей системы.
Код | Рекомендации | |
---|---|---|
☐ | РЕ:01 | Планируйте свою рабочую нагрузку так, чтобы она соответствовала бизнес-целям, избегая ненужного усложнения или накладных расходов. Используйте практичный и сбалансированный подход для принятия проектных решений, обеспечивающих желаемые результаты. Ограничьте свой дизайн необходимым, чтобы снизить неэффективность и потенциальные проблемы. |
☐ | РЕ:02 | Определите и оцените потоки пользователей и системы. Используйте шкалу критичности, основанную на требованиях вашего бизнеса, чтобы расставить приоритеты для потоков. |
☐ | РЕ:03 | Используйте анализ типов отказов (FMA) для выявления и определения приоритетности потенциальных сбоев в компонентах вашего решения. Выполните анализ типов отказов, чтобы оценить риск и влияние каждого типа отказа. Определите, как рабочая нагрузка реагирует и восстанавливается. |
☐ | РЕ:04 | Определите целевые показатели надежности и восстановления для компонентов, потоков и общего решения. Визуализируйте цели, чтобы вести переговоры, достигать консенсуса, формировать ожидания и стимулировать действия для достижения идеального состояния. Используйте определенные цели для построения модели работоспособности. Модель работоспособности определяет, как выглядят различные состояния: работоспособное, неработоспособное и ухудшенное. |
☐ | РЕ:05 РЕ:05 |
Повысьте устойчивость своей рабочей нагрузки, внедрив обработку ошибок и временных сбоев. Встройте в решение возможности обработки сбоев компонентов и временных ошибок. |
☐ | РЕ:06 | Протестируйте сценарии устойчивости и доступности, применяя принципы хаос-инжиниринга в своих тестовых и производственных средах. Используйте тестирование, чтобы убедиться в эффективности стратегий постепенной деградации, выполняя активные сбои и моделируя нагрузочное тестирование. |
☐ | РЕ:07 | Внедрите структурированные, протестированные и документированные планы обеспечения непрерывности бизнеса и восстановления после сбоев (BCDR), соответствующие целям восстановления. Планы должны охватывать все компоненты и систему в целом. |
☐ | РЕ:08 | Измерьте и опубликуйте показатели работоспособности решения. Постоянно собирайте данные о времени безотказной работы и другие данные о надежности по всей рабочей нагрузке, а также по отдельным компонентам и ключевым потокам. |