Kontrolní seznam pro kontrolu návrhu pro spolehlivost

Tento kontrolní seznam obsahuje sadu doporučení, která můžete použít k vyhodnocení strategií spolehlivosti, odolnosti a zotavení po selhání v návrhu architektury. Abyste zajistili spolehlivost, identifikujte nejlepší infrastrukturu a návrh aplikací pro vaše úlohy. Tato rozhodnutí můžete provádět na základě vašich obchodních požadavků, které jsou namapované na cílové metriky dostupnosti a obnovitelnosti.

Pokud chcete implementovat spolehlivý návrh, důkladně zvažte rozhodovací body v návrhu a mějte na paměti, jak tato rozhodnutí ovlivňují vaše úlohy. Tento kontrolní seznam a doprovodné příručky poskytují zdroje informací, které vám pomůžou při rozhodování. Zajištění spolehlivosti úloh jako ústředního faktoru v průběhu návrhu, vývoje a životního cyklu provozu úloh.

Kontrolní seznam

Přistupujte ke svému návrhu se zaměřením na spolehlivost, abyste mohli navrhnout úlohu, která je odolná, spravovatelná a opakovatelná. Pokud nezahrnete postupy spolehlivosti a zvažujete kompromisy, je váš návrh potenciálně ohrožen. Pečlivě zvažte všechny body uvedené v kontrolním seznamu, abyste vštípili důvěru v úspěch vašeho systému.

  Kód Doporučení
RE:01 Navrhněte úlohu tak, aby odpovídala obchodním cílům a vyhnula se zbytečné složitosti nebo režijním nákladům. Při rozhodování o návrhu použijte praktický a vyvážený přístup, který zajistí požadované výsledky. Omezte svůj návrh tak, aby se snížila neefektivita a potenciální problémy.
RE:02 Identifikujte a ohodnoťte toky uživatelů a systémů. K určení priorit toků použijte měřítko důležitosti na základě vašich obchodních požadavků.
RE:03 Pomocí analýzy režimu selhání (FMA) identifikujte potenciální selhání v komponentách řešení a určete jejich prioritu. Proveďte FMA, abyste mohli vyhodnotit riziko a dopad jednotlivých režimů selhání. Určete, jak úloha reaguje a jak se obnoví.
RE:04 Definujte cíle spolehlivosti a obnovení pro komponenty, toky a celkové řešení. Vizualizujte cíle pro vyjednávání, získání konsensu, nastavení očekávání a řízení akcí k dosažení ideálního stavu. K sestavení modelu stavu použijte definované cíle. Model stavu definuje, jak vypadá stav v pořádku, degradovaný stav a stav, který není v pořádku.
RE:05
RE:05
RE:05
Přidejte redundanci na různých úrovních, zejména pro kritické toky. Použijte redundanci na výpočetní, datové, síťové a další úrovně infrastruktury v souladu s určenými cíli spolehlivosti.
RE:06
RE:06
Implementujte včasnou a spolehlivou strategii škálování na úrovni aplikace, dat a infrastruktury.
RE:07
RE:07
RE:07
Posílení odolnosti a obnovitelnosti úloh implementací sebezáchovy a samoopravných opatření Zabudujte do řešení funkce pomocí vzorců spolehlivosti založených na infrastruktuře a softwarových vzorů návrhu pro zpracování selhání komponent a přechodných chyb. Zabudujte do systému funkce, které detekují selhání součástí řešení a automaticky zahájí nápravnou akci, zatímco úloha bude dál fungovat s plnou nebo omezenou funkčností.
RE:08 Otestujte scénáře odolnosti a dostupnosti použitím principů techniky chaosu v testovacím a produkčním prostředí. Pomocí testování zajistíte, že vaše strategie řádné implementace snížení výkonu a škálování jsou efektivní díky provádění aktivních chybných funkcí a simulovaného zátěžového testování.
RE:09 Implementujte strukturované, otestované a zdokumentované plány provozní kontinuity a zotavení po havárii (BCDR), které jsou v souladu s cíli obnovení. Plány musí zahrnovat všechny komponenty a systém jako celek.
RE:10 Změřte a modelujte signály stavu řešení. Nepřetržitě zachytává data o době provozu a další spolehlivosti z celé úlohy a také z jednotlivých komponent a klíčových toků.

Další kroky

Doporučujeme, abyste si prostudovali kompromisy spolehlivosti a prozkoumali další koncepty.