Kontrolní seznam pro kontrolu návrhu pro spolehlivost

Článek
03/26/2024

Tento kontrolní seznam obsahuje sadu doporučení, která můžete použít k vyhodnocení strategií spolehlivosti, odolnosti a zotavení po selhání v návrhu architektury. Abyste zajistili spolehlivost, identifikujte nejlepší infrastrukturu a návrh aplikací pro vaše úlohy. Tato rozhodnutí můžete provádět na základě vašich obchodních požadavků, které jsou namapované na cílové metriky dostupnosti a obnovitelnosti.

Pokud chcete implementovat spolehlivý návrh, důkladně zvažte rozhodovací body v návrhu a mějte na paměti, jak tato rozhodnutí ovlivňují vaše úlohy. Tento kontrolní seznam a doprovodné příručky poskytují zdroje informací, které vám pomůžou při rozhodování. Zajištění spolehlivosti úloh jako ústředního faktoru v průběhu návrhu, vývoje a životního cyklu provozu úloh.

Kontrolní seznam

Přistupujte ke svému návrhu se zaměřením na spolehlivost, abyste mohli navrhnout úlohu, která je odolná, spravovatelná a opakovatelná. Pokud nezahrnete postupy spolehlivosti a zvažujete kompromisy, je váš návrh potenciálně ohrožen. Pečlivě zvažte všechny body uvedené v kontrolním seznamu, abyste vštípili důvěru v úspěch vašeho systému.

	Kód	Doporučení
☐	RE:01	Navrhněte úlohu tak, aby odpovídala obchodním cílům a vyhnula se zbytečné složitosti nebo režijním nákladům. Při rozhodování o návrhu použijte praktický a vyvážený přístup, který zajistí požadované výsledky. Omezte svůj návrh tak, aby se snížila neefektivita a potenciální problémy.
☐	RE:02	Identifikujte a ohodnoťte toky uživatelů a systémů. K určení priorit toků použijte měřítko důležitosti na základě vašich obchodních požadavků.
☐	RE:03	Pomocí analýzy režimu selhání (FMA) identifikujte potenciální selhání v komponentách řešení a určete jejich prioritu. Proveďte FMA, abyste mohli vyhodnotit riziko a dopad jednotlivých režimů selhání. Určete, jak úloha reaguje a jak se obnoví.
☐	RE:04	Definujte cíle spolehlivosti a obnovení pro komponenty, toky a celkové řešení. Vizualizujte cíle pro vyjednávání, získání konsensu, nastavení očekávání a řízení akcí k dosažení ideálního stavu. K sestavení modelu stavu použijte definované cíle. Model stavu definuje, jak vypadá stav v pořádku, degradovaný stav a stav, který není v pořádku.
☐	RE:05 RE:05 RE:05	Přidejte redundanci na různých úrovních, zejména pro kritické toky. Použijte redundanci na výpočetní, datové, síťové a další úrovně infrastruktury v souladu s určenými cíli spolehlivosti.
☐	RE:06 RE:06	Implementujte včasnou a spolehlivou strategii škálování na úrovni aplikace, dat a infrastruktury.
☐	RE:07 RE:07 RE:07	Posílení odolnosti a obnovitelnosti úloh implementací sebezáchovy a samoopravných opatření Zabudujte do řešení funkce pomocí vzorců spolehlivosti založených na infrastruktuře a softwarových vzorů návrhu pro zpracování selhání komponent a přechodných chyb. Zabudujte do systému funkce, které detekují selhání součástí řešení a automaticky zahájí nápravnou akci, zatímco úloha bude dál fungovat s plnou nebo omezenou funkčností.
☐	RE:08	Otestujte scénáře odolnosti a dostupnosti použitím principů techniky chaosu v testovacím a produkčním prostředí. Pomocí testování zajistíte, že vaše strategie řádné implementace snížení výkonu a škálování jsou efektivní díky provádění aktivních chybných funkcí a simulovaného zátěžového testování.
☐	RE:09	Implementujte strukturované, otestované a zdokumentované plány provozní kontinuity a zotavení po havárii (BCDR), které jsou v souladu s cíli obnovení. Plány musí zahrnovat všechny komponenty a systém jako celek.
☐	RE:10	Změřte a modelujte signály stavu řešení. Nepřetržitě zachytává data o době provozu a další spolehlivosti z celé úlohy a také z jednotlivých komponent a klíčových toků.

Další kroky

Doporučujeme, abyste si prostudovali kompromisy spolehlivosti a prozkoumali další koncepty.

Kompromisy spolehlivosti

Sdílet prostřednictvím

Kontrolní seznam pro kontrolu návrhu pro spolehlivost

Kontrolní seznam

Další kroky

Váš názor

Další materiály