Elenco di controllo per la revisione della progettazione per l'eccellenza operativa

Questo elenco di controllo presenta un set di raccomandazioni che consentono di creare una cultura di eccellenza operativa. Iniziare con un approccio DevOps per integrare le specializzazioni da più discipline. Questo approccio crea una pratica rigorosa di progettazione e sviluppo. Questo approccio porta a distribuzioni ripetibili, affidabili e sicure dell'infrastruttura e del codice.

Assegnare priorità all'intervento umano in aree che ne beneficiano e incorporare l'automazione in altre aree. L'osservazione serve l'eccellenza operativa monitorando gli eventi di integrità e anche per convalidare la progettazione e l'implementazione del carico di lavoro corrente per informare lo sviluppo di prodotti futuri.

Se non si considerano compromessi e raccomandazioni per l'eccellenza operativa, il carico di lavoro potrebbe essere a rischio. Considerare attentamente i punti trattati nell'elenco di controllo seguente per infondere fiducia nel successo del tuo design.

Elenco di controllo

  Codice Recommendation
OE:01 Determinare le specializzazioni dei membri del team del carico di lavoro e integrarle in un set affidabile di procedure per progettare , sviluppare, distribuire e gestire il carico di lavoro per specificare. I membri del team devono avere chiarezza nei processi decisionali e nelle responsabilità, valore di miglioramento continuo e ottimizzazione e adottare una cultura senza colpa che incorpora l'apprendimento continuo.
OE:02 Formalizzare la modalità di esecuzione della routine, in base alle esigenze e alle attività operative di emergenza usando documentazione, elenchi di controllo o automazione. Cercare coerenza e stimabilità per i processi del team e i risultati finali adottando procedure e approcci leader del settore, ad esempio un approccio di spostamento a sinistra .
OE:03 Formalizzare i processi di ideazione e pianificazione del software. Disegnare dagli standard aziendali e del settore stabiliti. Usare un backlog comune, con priorità e specifiche sufficientemente dettagliate. In base ai risultati, aumentare i miglioramenti continui nel processo di pianificazione.
OE:04
OE:04
OE:04
Ottimizzare i processi di sviluppo software e di garanzia della qualità seguendo le procedure comprovate del settore per lo sviluppo e i test. Per la designazione di ruoli non ambigui, standardizzare le procedure tra i componenti, ad esempio strumenti, controllo del codice sorgente, modelli di progettazione dell'applicazione, documentazione e guide di stile.
OE:05 Preparare le risorse e le relative configurazioni usando un approccio di infrastruttura standardizzata come codice (IaC). Come altri codici, progettare IaC con stili coerenti, modularizzazione appropriata e garanzia di qualità. Preferire un approccio dichiarativo quando possibile.
OE:06 Creare una catena di fornitura del carico di lavoro che guida le modifiche proposte tramite pipeline prevedibili e automatizzate. I test delle pipeline e la promozione di tali modifiche in ambienti. Ottimizzare una catena di fornitura per rendere il carico di lavoro affidabile, sicuro, conveniente e efficiente.
OE:07
OE:07
Progettare e implementare un sistema di monitoraggio per convalidare le scelte di progettazione e informare le future decisioni di progettazione e business. Questo sistema acquisisce ed espone i dati di telemetria, le metriche e i log operativi che emettono dall'infrastruttura e dal codice del carico di lavoro.
OE:08 Sviluppare una pratica efficace per le operazioni di emergenza. Assicurarsi che il carico di lavoro genera segnali di integrità significativi nell'infrastruttura e nel codice. Raccogliere i dati risultanti e usarli per generare avvisi azioni che applicano risposte di emergenza tramite dashboard e query. Definire chiaramente le responsabilità umane, ad esempio rotazioni su chiamata, gestione degli eventi imprevisti, accesso alle risorse di emergenza e esecuzione di postmortems.
OE:09 Automatizzare tutte le attività che non beneficiano delle informazioni dettagliate e dell'adattabilità dell'intervento umano, sono altamente procedurali e hanno una durata elevata che restituisce un ritorno sugli investimenti di automazione. Quando possibile, scegliere il software off-the-shelf per l'automazione rispetto alle implementazioni personalizzate. Considerare tutte le operazioni di automazione uguali ai componenti del carico di lavoro e applicare i pilastri Well-Architected Framework alla progettazione e all'implementazione.
OE:10 Progettare e implementare l'automazione in anticipo per le operazioni quali problemi relativi al ciclo di vita, bootstrapping e applicazione di governance e guardrail di conformità. Non provare a aggiornare l'automazione in un secondo momento. Scegliere le funzionalità di automazione fornite dalla piattaforma.
OE:11 Definire chiaramente le procedure di distribuzione sicure del carico di lavoro. Enfatizzare gli ideali dei metodi di rilascio piccoli, incrementali e qualitativi. Usare modelli di distribuzione moderni e tecniche di esposizione progressiva per controllare il rischio. Account per distribuzioni di routine e emergenza, o hotfix, distribuzioni.
OE:12 Implementare una strategia di mitigazione degli errori di distribuzione che risolve problemi imprevisti di implementazione intermedia con il ripristino rapido. Combinare più approcci, ad esempio il rollback, la disabilitazione delle funzionalità o l'uso delle funzionalità native del modello di distribuzione.

Passaggi successivi

È consigliabile esaminare i compromessi di Eccellenza operativa per esplorare altri concetti.