Kontrolní seznam pro kontrolu návrhu pro spolehlivost
Tento kontrolní seznam obsahuje sadu doporučení, která můžete použít k vyhodnocení strategií spolehlivosti, odolnosti a zotavení po selhání v návrhu architektury. Abyste zajistili spolehlivost, identifikujte nejlepší infrastrukturu a návrh aplikací pro vaše úlohy. Tato rozhodnutí můžete provádět na základě vašich obchodních požadavků, které jsou namapované na cílové metriky dostupnosti a obnovitelnosti.
Pokud chcete implementovat spolehlivý návrh, důkladně zvažte rozhodovací body v návrhu a mějte na paměti, jak tato rozhodnutí ovlivňují vaše úlohy. Tento kontrolní seznam a doprovodné příručky poskytují zdroje informací, které vám pomůžou při rozhodování. Zajištění spolehlivosti úloh jako ústředního faktoru v průběhu návrhu, vývoje a životního cyklu provozu úloh.
Kontrolní seznam
Přistupujte ke svému návrhu se zaměřením na spolehlivost, abyste mohli navrhnout úlohu, která je odolná, spravovatelná a opakovatelná. Pokud nezahrnete postupy spolehlivosti a zvažujete kompromisy, je váš návrh potenciálně ohrožen. Pečlivě zvažte všechny body uvedené v kontrolním seznamu, abyste vštípili důvěru v úspěch vašeho systému.
Kód | Doporučení | |
---|---|---|
☐ | RE:01 | Navrhněte úlohu tak, aby odpovídala obchodním cílům a vyhnula se zbytečné složitosti nebo režijním nákladům. Při rozhodování o návrhu použijte praktický a vyvážený přístup, který zajistí požadované výsledky. Omezte svůj návrh tak, aby se snížila neefektivita a potenciální problémy. |
☐ | RE:02 | Identifikujte a ohodnoťte toky uživatelů a systémů. K určení priorit toků použijte měřítko důležitosti na základě vašich obchodních požadavků. |
☐ | RE:03 | Pomocí analýzy režimu selhání (FMA) identifikujte potenciální selhání v komponentách řešení a určete jejich prioritu. Proveďte FMA, abyste mohli vyhodnotit riziko a dopad jednotlivých režimů selhání. Určete, jak úloha reaguje a jak se obnoví. |
☐ | RE:04 | Definujte cíle spolehlivosti a obnovení pro komponenty, toky a celkové řešení. Vizualizujte cíle pro vyjednávání, získání konsensu, nastavení očekávání a řízení akcí k dosažení ideálního stavu. K sestavení modelu stavu použijte definované cíle. Model stavu definuje, jak vypadá stav v pořádku, degradovaný stav a stav, který není v pořádku. |
☐ |
RE:05 RE:05 RE:05 |
Přidejte redundanci na různých úrovních, zejména pro kritické toky. Použijte redundanci na výpočetní, datové, síťové a další úrovně infrastruktury v souladu s určenými cíli spolehlivosti. |
☐ |
RE:06 RE:06 |
Implementujte včasnou a spolehlivou strategii škálování na úrovni aplikace, dat a infrastruktury. |
☐ |
RE:07 RE:07 RE:07 |
Posílení odolnosti a obnovitelnosti úloh implementací sebezáchovy a samoopravných opatření Zabudujte do řešení funkce pomocí vzorců spolehlivosti založených na infrastruktuře a softwarových vzorů návrhu pro zpracování selhání komponent a přechodných chyb. Zabudujte do systému funkce, které detekují selhání součástí řešení a automaticky zahájí nápravnou akci, zatímco úloha bude dál fungovat s plnou nebo omezenou funkčností. |
☐ | RE:08 | Otestujte scénáře odolnosti a dostupnosti použitím principů techniky chaosu v testovacím a produkčním prostředí. Pomocí testování zajistíte, že vaše strategie řádné implementace snížení výkonu a škálování jsou efektivní díky provádění aktivních chybných funkcí a simulovaného zátěžového testování. |
☐ | RE:09 | Implementujte strukturované, otestované a zdokumentované plány provozní kontinuity a zotavení po havárii (BCDR), které jsou v souladu s cíli obnovení. Plány musí zahrnovat všechny komponenty a systém jako celek. |
☐ | RE:10 | Změřte a modelujte signály stavu řešení. Nepřetržitě zachytává data o době provozu a další spolehlivosti z celé úlohy a také z jednotlivých komponent a klíčových toků. |
Další kroky
Doporučujeme, abyste si prostudovali kompromisy spolehlivosti a prozkoumali další koncepty.