Lista kontrolna przeglądu projektu dotycząca niezawodności

Ta lista kontrolna przedstawia zestaw zaleceń do oceny niezawodności, odporności i strategii odzyskiwania po awarii w projekcie architektury. Aby zapewnić niezawodność, zidentyfikuj najlepszą infrastrukturę i projekt aplikacji dla obciążenia. Podejmij te decyzje na podstawie wymagań biznesowych mapowanych na metryki docelowe dostępności i możliwości odzyskiwania.

Aby zaimplementować niezawodny projekt, należy dokładnie wziąć pod uwagę punkty decyzyjne w projekcie i wiedzieć, jak te decyzje wpływają na obciążenie. Ta lista kontrolna i towarzyszące przewodniki zawierają zasoby ułatwiające podejmowanie tych decyzji. Spraw, aby niezawodność obciążenia stanowiła kluczową uwagę podczas projektowania, programowania i cyklu życia operacji obciążeń.

Lista kontrolna

Podejście do projektu z naciskiem na niezawodność, aby ułatwić projektowanie obciążenia, które jest odporne, możliwe do zarządzania i powtarzalne. Jeśli nie uwzględnisz praktyk dotyczących niezawodności i rozważ kompromisy, projekt jest potencjalnie zagrożony. Dokładnie rozważ wszystkie punkty uwzględnione na liście kontrolnej, aby zaszczepić zaufanie do sukcesu systemu.

  Kod Zalecenie
RE:01 Zaprojektuj obciążenie tak, aby było zgodne z celami biznesowymi i uniknąć niepotrzebnej złożoności lub nakładu pracy. Użyj praktycznego i zrównoważonego podejścia do podejmowania decyzji projektowych, które dostarczają pożądanych wyników. Zawierać projekt w celu zmniejszenia nieefektywności i potencjalnych problemów.
RE:02 Identyfikowanie i ocenianie przepływów użytkownika i systemu. Użyj skali krytycznej na podstawie wymagań biznesowych, aby określić priorytety przepływów.
RE:03 Użyj analizy trybu awarii (FMA), aby zidentyfikować i określić priorytety potencjalnych awarii w składnikach rozwiązania. Wykonaj funkcję FMA, aby pomóc ocenić ryzyko i wpływ poszczególnych trybów awarii. Określ sposób reagowania i odzyskiwania obciążenia.
RE:04 Zdefiniuj cele dotyczące niezawodności i odzyskiwania dla składników, przepływów i ogólnego rozwiązania. Wizualizuj cele do negocjowania, uzyskiwania konsensusu, ustawiania oczekiwań i prowadzenia działań w celu osiągnięcia idealnego stanu. Użyj zdefiniowanych celów, aby skompilować model kondycji. Model kondycji określa, jak wyglądają stany dobrej kondycji, obniżonej wydajności i złej kondycji.
RE:05
RE:05
RE:05
Dodaj nadmiarowość na różnych poziomach, szczególnie w przypadku przepływów krytycznych. Zastosuj nadmiarowość do warstw obliczeniowych, danych, sieci i innych warstw infrastruktury zgodnie z określonymi celami niezawodności.
RE:06
RE:06
Zaimplementuj strategię terminowego i niezawodnego skalowania na poziomie aplikacji, danych i infrastruktury.
RE:07
RE:07
RE:07
Wzmacnianie odporności i możliwości odzyskiwania obciążenia przez zaimplementowanie środków samozachowawczych i samonaprawiania. Tworzenie możliwości w rozwiązaniu przy użyciu wzorców niezawodności opartych na infrastrukturze i wzorców projektowych opartych na oprogramowaniu w celu obsługi błędów składników i błędów przejściowych. Twórz funkcje w systemie w celu wykrywania awarii składników rozwiązania i automatycznego inicjowania akcji naprawczej, podczas gdy obciążenie nadal działa w pełnej lub zmniejszonej funkcjonalności.
RE:08 Przetestuj scenariusze odporności i dostępności, stosując zasady inżynierii chaosu w środowiskach testowych i produkcyjnych. Użyj testów, aby upewnić się, że implementacja i strategie skalowania degradacji są skuteczne, wykonując aktywne nieprawidłowe działanie i symulowane testowanie obciążenia.
RE:09 Zaimplementuj plany ciągłości działania i odzyskiwania po awarii (BCDR), które są zgodne z celami odzyskiwania, zaimplementuj plany ustrukturyzowane, przetestowane i udokumentowane. Plany muszą obejmować wszystkie składniki i system jako całość.
RE:10 Mierzenie i modelowanie sygnałów kondycji rozwiązania. Ciągłe przechwytywanie czasu pracy i innych danych niezawodności z całego obciążenia, a także z poszczególnych składników i kluczowych przepływów.

Następne kroki

Zalecamy zapoznanie się z kompromisami dotyczącymi niezawodności, aby zapoznać się z innymi pojęciami.