Поделиться через


Контрольный список рекомендаций по надежности

В этом контрольном списке представлен набор рекомендаций, которые можно использовать для оценки надежности, отказоустойчивости и стратегий восстановления после сбоев в проекте вашей архитектуры. Чтобы обеспечить надежность, определите лучшую инфраструктуру и архитектуру приложений для вашей рабочей нагрузки. Принимайте эти решения на основе потребностей вашего бизнеса, которые сопоставлены с целевыми показателями доступности и возможностями восстановления.

Чтобы реализовать надежный проект, тщательно продумайте точки принятия решений в своей архитектуре и проанализируйте, как эти решения влияют на вашу рабочую нагрузку. Этот контрольный список и прилагаемые к нему руководства предлагают ресурсы, которые помогут вам принять эти решения. Сделайте надежность рабочей нагрузки центральным фактором на каждом этапе проектирования, разработки и эксплуатации жизненного цикла рабочей нагрузки.

Контрольный список

При проектировании уделяйте особое внимание надежности, чтобы обеспечить отказоустойчивость, управляемость и повторяемость рабочей нагрузки. Если вы не учтете практики обеспечения надежности и возможные компромиссы, ваше проектное решение может оказаться под угрозой. Внимательно рассмотрите все пункты, включенные в контрольный список, чтобы гарантировать успешность вашей системы.

  Код Рекомендации
РЕ:01 Планируйте свою рабочую нагрузку так, чтобы она соответствовала бизнес-целям, избегая ненужного усложнения или накладных расходов. Используйте практичный и сбалансированный подход для принятия проектных решений, обеспечивающих желаемые результаты. Ограничьте свой дизайн необходимым, чтобы снизить неэффективность и потенциальные проблемы.
РЕ:02 Определите и оцените потоки пользователей и системы. Используйте шкалу критичности, основанную на требованиях вашего бизнеса, чтобы расставить приоритеты для потоков.
РЕ:03 Используйте анализ типов отказов (FMA) для выявления и определения приоритетности потенциальных сбоев в компонентах вашего решения. Выполните анализ типов отказов, чтобы оценить риск и влияние каждого типа отказа. Определите, как рабочая нагрузка реагирует и восстанавливается.
РЕ:04 Определите целевые показатели надежности и восстановления для компонентов, потоков и общего решения. Визуализируйте цели, чтобы вести переговоры, достигать консенсуса, формировать ожидания и стимулировать действия для достижения идеального состояния. Используйте определенные цели для построения модели работоспособности. Модель работоспособности определяет, как выглядят различные состояния: работоспособное, неработоспособное и ухудшенное.
РЕ:05
РЕ:05
Повысьте устойчивость своей рабочей нагрузки, внедрив обработку ошибок и временных сбоев. Встройте в решение возможности обработки сбоев компонентов и временных ошибок.
РЕ:06 Протестируйте сценарии устойчивости и доступности, применяя принципы хаос-инжиниринга в своих тестовых и производственных средах. Используйте тестирование, чтобы убедиться в эффективности стратегий постепенной деградации, выполняя активные сбои и моделируя нагрузочное тестирование.
РЕ:07 Внедрите структурированные, протестированные и документированные планы обеспечения непрерывности бизнеса и восстановления после сбоев (BCDR), соответствующие целям восстановления. Планы должны охватывать все компоненты и систему в целом.
РЕ:08 Измерьте и опубликуйте показатели работоспособности решения. Постоянно собирайте данные о времени безотказной работы и другие данные о надежности по всей рабочей нагрузке, а также по отдельным компонентам и ключевым потокам.

Следующие шаги