Raccogliere i dati di monitoraggio corretti

L'osservazione dell'integrità e della disponibilità della soluzione cloud consente di comprendere i segnali previsti nei sistemi in modo da determinare quali dati raccogliere.

Questo articolo fa parte di una serie della guida al monitoraggio del cloud.

Considerazioni sulla raccolta dati

Porre queste domande per stabilire criteri per una configurazione di monitoraggio:

  • Composizione del servizio: qual è la composizione dei servizi? Queste dipendenze sono attualmente monitorate? In tal caso, sono coinvolti più strumenti e c'è l'opportunità di consolidare senza introdurre rischi aggiuntivi?

  • Definire stati di errore prevedibili: questi segnali sono i sintomi dell'errore, non la causa. Gli strumenti di monitoraggio usano metriche e log per l'analisi avanzata della diagnostica e della causa radice.

  • Contratto di servizio: qual è il contratto di servizio del servizio e come verrà misurata e segnalata?

  • Progettazione del dashboard del servizio: che aspetto dovrebbe avere il dashboard del servizio quando si esaminano gli eventi imprevisti? Quale aspetto dovrebbe avere il dashboard per il proprietario del servizio e il team che supporta il servizio?

  • Metriche delle risorse: quali metriche delle risorse vengono generate dalla soluzione da monitorare?

  • Ricerca log: in che modo il proprietario del servizio, i team di supporto e altri membri del personale eseguono ricerche nei log?

  • Coinvolgimento degli stakeholder: includere il proprietario del servizio di monitoraggio, il responsabile delle operazioni IT e altri stakeholder durante la fase di pianificazione. Continuare a coinvolgerli in tutti i cicli di sviluppo e rilascio delle soluzioni di monitoraggio.

  • Dati sensibili: quali dati sensibili è consigliabile evitare di raccogliere per le applicazioni che non si desidera esporre agli operatori?

Le risposte a queste domande e i criteri adottati per la generazione di avvisi determinano il modo in cui si userà la piattaforma di monitoraggio.

Valutare i segnali di monitoraggio necessari

Se si distribuiscono nuovi carichi di lavoro con una nuova soluzione di monitoraggio o si esegue la migrazione da una piattaforma di monitoraggio esistente o da un set di strumenti di monitoraggio, la valutazione dei segnali di monitoraggio necessari è essenziale. La progettazione attenta dei segnali necessari aiuta a favorire i risultati previsti e riduce il rumore.

Tenere presente quanto segue:

  • Praticabile: tenere presente che i dati di monitoraggio devono essere utili per ridurre il rumore e i falsi positivi.
  • Ottimizzato: ottimizzare i dati raccolti per offrire una visualizzazione olistica dell'integrità complessiva del servizio.
  • Strumentazione degli eventi imprevisti: la strumentazione definita per identificare gli eventi imprevisti effettivi deve essere il più semplice, prevedibile e affidabile possibile.

Sviluppare una configurazione di monitoraggio

In genere, il proprietario di un servizio di monitoraggio e il team rispettano un set standard di attività per creare una configurazione di monitoraggio. Queste attività includono le fasi di pianificazione, il test e la convalida in un ambiente non di produzione e la distribuzione nell'ambiente di produzione.

Per sviluppare configurazioni di monitoraggio, il team si basa sulle modalità di errore note, sui risultati dei test da errori simulati e sull'esperienza di vari utenti all'interno dell'organizzazione, ad esempio il service desk, il personale operativo, i tecnici e gli sviluppatori.

Queste configurazioni sono progettate presupponendo che il servizio esista già, sia in fase di migrazione al cloud e che non sia stato ristrutturato. Per garantire che vengano raggiunti risultati di qualità a livello di servizio, il monitoraggio dell'integrità e della disponibilità di questi servizi nelle prime fasi del processo di sviluppo è essenziale. Se il monitoraggio della progettazione del servizio o dell'applicazione viene considerato solo un afterthought, è probabile che i risultati siano meno riusciti.

Per consentire una risoluzione più rapida dell'evento imprevisto, prendere in considerazione i consigli seguenti:

  • Dashboard dei singoli componenti: definire un dashboard per ogni componente del servizio per identificare rapidamente eventuali problemi noti in qualsiasi area specifica delle applicazioni e dell'infrastruttura.

  • Usare le metriche: usare i segnali delle metriche integrati nei vari componenti per diagnosticare e identificare le risoluzioni o le soluzioni alternative se non è possibile identificare una causa radice.

  • Abilitare le personalizzazioni del dashboard: progettare i dashboard in modo da poter eseguire facilmente il drill-down dei dati dai dashboard di monitoraggio. Assicurarsi di supportare la personalizzazione delle visualizzazioni in modo dinamico, consentendo un semplice filtro e risoluzione dei problemi.

L'adozione di questo set di principi guida consente di fornire informazioni dettagliate quasi in tempo reale e una migliore gestione del servizio.

Passaggi successivi