Operazioni del carico di lavoro nella gestione cloud

Alcuni carichi di lavoro sono fondamentali per il successo dell'azienda. Per questi carichi di lavoro, una baseline di gestione non è sufficiente per soddisfare gli impegni aziendali richiesti per la gestione cloud. Le operazioni della piattaforma potrebbero anche non essere sufficienti per soddisfare gli impegni aziendali. Questo subset di carichi di lavoro molto importante richiede un'attenzione particolare sul funzionamento del carico di lavoro e sulla modalità di supporto.

In cambio, l'investimento nelle operazioni del carico di lavoro può comportare un miglioramento delle prestazioni, una riduzione del rischio di interruzione aziendale e un ripristino più rapido in caso di errori di sistema. Questo articolo descrive un approccio all'investimento nelle operazioni continue di questi carichi di lavoro ad alta priorità per promuovere il miglioramento degli impegni aziendali.

Quando investire nelle operazioni del carico di lavoro

Il principio Pareto (noto anche come regola 80/20) indica che l'80% degli effetti deriva dal 20% delle cause. Quando i portfolio IT possono crescere in modo organico nel tempo, questa regola viene spesso illustrata in una revisione del portfolio IT. A seconda dell'effetto che richiede un investimento, la causa può variare, ma il principio generale si rivela essere vero:

  • L'80% degli errori di sistema tende a essere il risultato del 20% di errori o bug comuni.
  • L'80% del valore aziendale tende a derivare dal 20% dei carichi di lavoro in un portfolio.
  • L'80% delle attività di migrazione al cloud deriva dal 20% dei carichi di lavoro spostati.
  • L'80% delle attività di gestione del cloud supporterà il 20% degli eventi imprevisti o dei ticket di problemi del servizio.
  • L'80% dell'impatto aziendale deriva da un'interruzione del servizio dal 20% dei sistemi interessati dall'interruzione.

Le operazioni del carico di lavoro devono essere applicate solo quando la strategia di adozione del cloud, i risultati aziendali e le metriche operative sono ben compresi. Si tratta di un cambio di paradigma rispetto alla visualizzazione classica dell'IT. In genere, il personale IT presuppone che tutti i carichi di lavoro sperimentino lo stesso livello di supporto e richiedano livelli di priorità simili.

Prima di investire in operazioni approfondite sui carichi di lavoro, sia l'IT che l'azienda devono comprendere le motivazioni aziendali e le aspettative di un maggiore investimento nella gestione del cloud.

Partire dai dati

Le operazioni del carico di lavoro richiedono una conoscenza approfondita delle prestazioni del carico di lavoro e dei requisiti di supporto. Prima di investire nelle operazioni del carico di lavoro, il team deve disporre di dati dettagliati sulle dipendenze del carico di lavoro, sulle prestazioni delle applicazioni, sulla diagnostica del database, sulla telemetria delle macchine virtuali e sulla cronologia degli eventi imprevisti.

Questi dati forniscono le informazioni dettagliate che guidano le decisioni relative alle operazioni del carico di lavoro.

Osservazione continua

I dati iniziali e i dati di telemetria in corso possono aiutare a formulare e testare le ipotesi sulle prestazioni di un carico di lavoro. Tuttavia, le operazioni dei carichi di lavoro in corso sono alla base di un'osservazione continua ed estesa delle prestazioni del carico di lavoro, con particolare attenzione alle prestazioni delle applicazioni e dei dati.

Testare l'automazione

A livello di applicazione, i primi requisiti delle operazioni del carico di lavoro sono un investimento in test approfonditi. Per qualsiasi applicazione supportata tramite le operazioni del carico di lavoro, è necessario stabilire ed eseguire regolarmente un piano di test per eseguire test funzionali e di scalabilità tra le applicazioni.

I normali dati di telemetria di test possono fornire una convalida immediata di varie ipotesi sul funzionamento del carico di lavoro. Il miglioramento dei modelli operativi e architetturali può essere eseguito e testato. I delta risultanti forniscono un'analisi di impatto chiara per guidare gli investimenti continui.

Informazioni sulle versioni

Una conoscenza chiara dei cicli e delle pipeline di versione è fondamentale per le operazioni del carico di lavoro.

Una conoscenza approfondita dei cicli può aiutare a prepararsi a potenziali interruzioni e consentire al team di risolvere in modo proattivo eventuali versioni che potrebbero produrre un effetto negativo sulle operazioni. Questa conoscenza consente inoltre al team di gestione del cloud di collaborare con i team di adozione per migliorare continuamente la qualità del prodotto e risolvere eventuali bug che potrebbero influire sulla stabilità.

Ancora più importante, una conoscenza delle pipeline di versione può migliorare significativamente l'obiettivo del punto di ripristino (RPO) di un carico di lavoro. In molti scenari, il percorso più rapido e accurato per il ripristino di un'applicazione è una pipeline di versione. Per i livelli dell'applicazione che cambiano solo quando si verifica una nuova versione, può essere opportuno investire maggiormente nell'ottimizzazione della pipeline rispetto al ripristino dell'applicazione dai processi di backup tradizionali.

Anche se una pipeline di distribuzione può essere il percorso più veloce per il ripristino, può anche essere il percorso di correzione più veloce. Quando un'applicazione ha una pipeline di versione veloce, efficiente e affidabile, il team di gestione del cloud ha la possibilità di automatizzare la distribuzione in un nuovo host come forma di correzione automatizzata.

Potrebbero essere disponibili molti altri meccanismi più veloci ed efficaci per la correzione e il ripristino. Tuttavia, quando l'uso di una pipeline esistente può soddisfare gli impegni aziendali e sfruttare gli investimenti DevOps esistenti, la pipeline esistente potrebbe essere un'alternativa valida.

Comunicare chiaramente le modifiche al carico di lavoro

Il cambiamento di qualsiasi carico di lavoro è tra i principali rischi per le operazioni del carico di lavoro. Per qualsiasi carico di lavoro nel livello operativo del carico di lavoro di gestione cloud, il team di gestione del cloud deve essere strettamente allineato con i team di adozione del cloud per comprendere le modifiche provenienti da ogni versione. Questo investimento nella comprensione proattiva avrà un impatto diretto e positivo sulla stabilità operativa.

Migliorare i risultati

Gli investimenti in dati e comunicazioni in un carico di lavoro generano suggerimenti per migliorare le operazioni in corso in una delle tre aree seguenti:

  • Risoluzione del debito tecnico
  • Correzione automatica
  • Miglioramento della progettazione dei sistemi

Risoluzione del debito tecnico

I piani di operazioni dei carichi di lavoro migliori richiedono comunque una correzione. Mentre il team di gestione del cloud cerca di rimanere connesso per comprendere le attività di adozione e le versioni, allo stesso modo il team deve condividere regolarmente i requisiti di correzione per garantire che il debito tecnico e i bug siano una priorità costante per i team di sviluppo.

Correzione automatica

Applicando il principio Pareto, si può dire che l'80% dell'impatto negativo sull'azienda deriva probabilmente dal 20% degli eventi imprevisti del servizio. Quando questi eventi imprevisti non possono essere affrontati nei normali cicli di sviluppo, gli investimenti nell'automazione della correzione possono ridurre significativamente le interruzioni aziendali.

Miglioramento della progettazione dei sistemi

Nei casi di risoluzione del debito tecnico e correzione automatizzata, gli errori di sistema sono la causa comune della maggior parte delle interruzioni del sistema. È possibile avere il massimo impatto sulle operazioni complessive del carico di lavoro aderendo ad alcuni principi di progettazione:

  • Scalabilità: la capacità di un sistema di gestire carichi elevati.
  • Disponibilità: la percentuale di tempo in cui il sistema funziona ed è in esecuzione.
  • Resilienza: la capacità di un sistema di correggere gli errori e continuare a funzionare.
  • Gestione: processi operativi che mantengono un sistema in esecuzione in produzione.
  • Sicurezza: protezione delle applicazioni e dei dati dalle minacce.

Per migliorare le operazioni complessive, Microsoft Azure Well-Architected Framework offre un approccio alla valutazione di carichi di lavoro specifici per il rispetto di questi elementi fondamentali. Applicare tali elementi sia alle operazioni della piattaforma che alle operazioni del carico di lavoro.

Passaggi successivi

Con una conoscenza completa della metodologia Gestione all'interno del Cloud Adoption Framework, è ora possibile implementare i principi di gestione del cloud. Informazioni su come rendere questa metodologia utilizzabile all'interno dell'ambiente operativo.