Elenco di controllo per la revisione della progettazione per l'affidabilità

Questo elenco di controllo presenta un set di raccomandazioni da usare per valutare le strategie di affidabilità, resilienza e ripristino degli errori nella progettazione dell'architettura. Per garantire l'affidabilità, identificare l'infrastruttura e la progettazione delle applicazioni migliori per il carico di lavoro. Prendere queste decisioni in base ai requisiti aziendali che sono mappati sugli obiettivi di disponibilità e recuperabilità.

Per implementare una progettazione affidabile, prendere in considerazione attentamente i punti decisionali nella progettazione e tenere presente il modo in cui tali decisioni influiscono sul carico di lavoro. Questo elenco di controllo e le guide associate forniscono risorse che consentono di prendere queste decisioni. Rendere l'affidabilità del carico di lavoro una considerazione centrale durante tutto il ciclo di vita della progettazione, sviluppo e operazione del carico di lavoro.

Lista di controllo

Approccio alla progettazione con particolare attenzione all'affidabilità per garantire la progettazione di un carico di lavoro resiliente, gestibile e ripetibile. Se non si includono procedure di affidabilità e si considerino i compromessi, la progettazione è potenzialmente a rischio. Considerare attentamente tutti i punti trattati nell'elenco di controllo per infondere fiducia nel successo del sistema.

  Codice Raccomandazione
RE:01 Concentrarsi sulla progettazione del carico di lavoro sulla semplicità e l'efficienza. Usare un approccio pratico per evitare complessità non necessarie durante il raggiungimento degli obiettivi e dei requisiti aziendali.
RE:02 Identificare e valutare i flussi utente e di sistema. Usare una scala di criticità secondo i requisiti aziendali per prioritizzare i flussi.
RE:03 Usare l'analisi della modalità di errore (FMA) per identificare potenziali errori nel carico di lavoro. Identificare le dipendenze e i punti di errore e sviluppare strategie di mitigazione per tali errori.
RE:04 Definire obiettivi di affidabilità e ripristino per il carico di lavoro. Usare gli obiettivi per informare la progettazione e come base del modello di salute.
RE:05 Aggiungere ridondanza a livelli diversi, in particolare per i flussi critici, per soddisfare gli obiettivi di affidabilità. Prendere in considerazione componenti dell'infrastruttura ridondanti, ad esempio calcolo e rete, e più istanze della soluzione.
RE:06 Implementare una strategia di scalabilità tempestiva e affidabile a livello di applicazione, dati e infrastruttura. Basare la strategia di ridimensionamento sui modelli di utilizzo effettivi o stimati e ridurre al minimo l'intervento manuale.
RE:07 Rafforzare la resilienza del carico di lavoro implementando misure di auto-conservazione e riparazione automatica. Usare funzionalità predefinite e modelli cloud ben consolidati per consentire al carico di lavoro di rimanere funzionanti durante e ripristinare gli eventi imprevisti.
RE:08 Testare la resilienza e gli scenari di disponibilità applicando i principi di chaos engineering. Assicurarsi che la vostra implementazione di degradazione graduale e le strategie di ridimensionamento siano efficaci eseguendo test di malfunzionamento attivo e test di carico simulati.
RE:09 Implementare piani di ripristino di emergenza strutturati, testati e documentati che si allineano alle destinazioni di ripristino. I piani devono coprire tutti i componenti e il sistema nel suo complesso.
RE:10 Misurare e monitorare continuamente l'integrità del sistema usando indicatori di tempo di attività e affidabilità tra componenti e flussi critici. Assicurarsi che questi dati vengano conservati e accessibili per supportare il rilevamento tempestivo, la risposta e l'analisi post-evento imprevisto.

Passaggi successivi

È consigliabile esaminare i compromessi relativi all'affidabilità per esplorare altri concetti.