Introduction

Effectué

Le cloud computing a eu pour résultat des solutions logicielles plus fiables et plus disponibles que jamais. La fiabilité et la disponibilité n’existent cependant pas par hasard. Elles sont le fruit d’une conception minutieuse et elles doivent être assurées par une supervision constante qui avertit les administrateurs quand des problèmes se produisent (ou de préférence avant qu’ils se produisent). La supervision est aussi importante dans les solutions critiques déployées dans le cloud que les solutions elles-mêmes. Sans elle, vous ne savez pas si une solution répond aux besoins de ses utilisateurs.

La supervision prend de nombreuses formes. Elle peut être aussi simple qu’un composant logiciel qui effectue périodiquement un test ping sur une application en cours d’exécution pour s’assurer qu’elle est toujours en fonctionnement. Elle peut également être plus complexe, effectuant le suivi de métriques clés comme les temps d’attente des demandes (le temps pendant lequel une demande attend dans une file d’attente avant d’être traitée par le système) et l’utilisation du processeur. La supervision peut déclencher des actions comme l’augmentation du nombre de machines virtuelles pour gérer une augmentation des charges de travail ou la notification à un administrateur d’une condition qui justifie une attention particulière. Comme il n’est pas raisonnable de s’attendre à ce que des opérateurs humains surveillent les systèmes 24 h sur 24 et 7 jours sur 7, la supervision est automatisée via des logiciels. Ces logiciels peut provenir de tiers ou de la plateforme cloud elle-même.

Ce module traite de la supervision du comportement des systèmes informatiques, qui concerne à la fois l’infrastructure de ces systèmes et les applications qu’ils hébergent. Nous commençons par plaider en faveur de la supervision automatisée, puis nous examinons certaines des plateformes APM (Application Performance Monitoring, Supervision des performances des applications) les plus courantes. Ensuite, nous abordons le sujet des métriques, qui sont les mesures clés qu’une plateforme de supervision doit suivre, et comment ces métriques sont mises en œuvre pour garantir l’intégrité du système, et améliorer son efficacité et sa robustesse. Enfin, nous abordons le concept de planification de la remédiation, qui définit comment les problèmes de performances sont résolus et atténués.

Objectifs d’apprentissage

  • Expliquer l’argument principal en faveur d’une supervision et d’une surveillance continues et cohérentes dans les systèmes informatiques basés sur le cloud
  • Décrire les trois types de mesures quantitatives qui jouent un rôle dans la supervision
  • Comprendre les mécanismes des plateformes de supervision qui utilisent des agents pour collecter et retourner des informations
  • Comprendre les mécanismes des plateformes de supervision qui s’appuient sur des sources d’informations préexistantes, comme les journaux des services, pour analyser les performances
  • Comprendre les métriques les plus bénéfiques pour la supervision
  • Découvrir comment les mesures sont utilisées pour évaluer les niveaux de performances
  • Décrire la justification de la gestion des problèmes sous forme de tickets
  • Décrire les indicateurs de performance clés et en quoi ils diffèrent des métriques
  • Présenter le concept de « remédiation quotidienne »

Prérequis

  • Comprendre ce qu’est le cloud computing, y compris les modèles de service cloud et les fournisseurs de cloud courants
  • Reconnaître les modèles de services cloud comme IaaS, PaaS et SaaS et les différencier
  • Être familier avec les différents types de coûts informatiques des organisations comme CapEx et OpEx
  • Comprendre le fonctionnement du provisionnement de ressources cloud