Monitoring du cloud et réponse

Article
07/13/2023

Cet article fait partie d’une série du guide de supervision cloud.

La réponse est le résultat de la définition d’une ou plusieurs actions basées sur des décisions pilotées par les données provenant du monitoring, qui permettent aux consommateurs de service de :

Rendez-le exploitable : utilisez des configurations de surveillance bien réglées pour créer des signaux actionnables.
Surveillance continue : appliquez la supervision tout au long des activités d’incident et de résolution des problèmes pour permettre de mieux diagnostiquer les problèmes.
Automatiser : configurez l’investigation, le diagnostic, la résolution, la récupération et la correction automatiques en fonction des signaux identifiés.

Le principe de l’importance s’applique ici. Cela permet d’utiliser le flux de processus ou la stratégie d’action pour régler et optimiser les alertes, les notifications et les synthèses de rapport. La surveillance du cloud est bien plus qu’une notification aux humains que quelque chose ne va pas. Il s’agit également de fournir des signaux aux systèmes et aux services pour qu’ils réagissent.

La surveillance joue un rôle essentiel dans un large éventail de scénarios :

Permettre un comportement dynamique des services : contrôlez dynamiquement les systèmes et les services pour qu’ils réagissent en fonction de la surveillance des données et éliminent automatiquement les incidents.
Évaluer en continu les signaux : informez et fournissez en permanence des données de télémétrie pour les processus dynamiques, la conformité, la mise à l’échelle automatique et les visualisations.
Actions organisationnelles : Aider l’organisation informatique à agir sur le changement et à le gérer.

Génération d’alertes

L’automatisation remplace les processus de gestion des services plus coûteux dans le paysage cloud moderne, éliminant ainsi davantage d’incidents. Les alertes jouent un rôle crucial dans la sensibilisation, mais doivent être actionnables pour éviter la fatigue ou le bruit des alertes.

La définition d’alertes permet de garantir de manière proactive que les services et les systèmes restent sains, réactifs, fiables et sécurisés. Garantir les performances, respecter les objectifs de niveau de service (SLO), la disponibilité et la confidentialité nécessite une stratégie d’alerte appropriée. Faire remonter une alerte n’est pas crucial pour l’observabilité et à ce jour, cela ne doit pas être considéré comme la première ligne de défense. Au lieu de cela, l’automatisation devrait jouer un rôle essentiel ici.

Traditionnellement, la surveillance signifiait déclencher une alerte sur laquelle quelqu’un pouvait agir, ce qui implique un processus entièrement réactif. Cette approche doit être révisée conformément aux pratiques modernes de gestion des services ou d’opérations cloud. Cette approche suit de près le parcours de gestion des incidents ITIL traditionnel, qui ne correspond pas aux objectifs d’efficacité du cloud via l’agilité, les coûts minimes et l’optimisation.

Une approche moderne devrait avoir une fréquence de conditions détectées bien plus informatives et automatisées, par exemple :

Condition détectée	Action primitive	Action moderne
Métrique de performance - utilisation élevée de la mémoire. Menace de sécurité - activité réseau suspecte détectée. Erreur de disponibilité - les demandes de stockage d’objets blob Azure échouent.	Alerter et notifier, webhook, notification push, playbook, mise à l’échelle automatique	Interroger les journaux des requêtes pour identifier le composant incriminé et déclencher une automatisation pour corriger le problème lié à ce composant.

Voici une liste de ressources pertinentes sur les fonctionnalités d’alerte et d’automatisation d’Azure :

Supervision d’un cloud hybride

Par rapport aux plateformes de monitoring et aux outils associés qui étaient disponibles par le passé, le cloud computing offre les avantages suivants :

Plus de flexibilité pour concevoir les options de réponse.
Des méthodes plus faciles pour développer et activer des réponses automatisées.
Les protocoles cloud ou les méthodes d’API s’intègrent plus facilement aux systèmes de gestion des travaux, y compris DevOps.

Considérez aussi les modes suivants pour la plage des actions automatisées, qu’il s’agisse de l’investigation, de l’enrichissement, du routage, de l’affectation, de la correction, de la récupération ou de la résolution :

Méthode d’orchestration	Description
Entièrement automatisée	Les actions sont effectuées automatiquement. L’automatisation complète doit faire ses preuves en matière de fiabilité, d’efficacité et de durabilité là où son utilité n’est pas limitée dans la durée et s’avère sûre. L’automatisation complète libère vos ressources pour leur permettre de se concentrer davantage sur vos initiatives stratégiques.
Semi-automatisé	L’approbation est nécessaire pour toutes les actions de correction.
Manuel	Un opérateur sélectionne un exemple d’automatisation ou un playbook dans une bibliothèque organisée.

Les alertes dépendent de données instrumentées basées sur des événements de sécurité, des métriques de performances, des informations de disponibilité et des journaux. Les actions pilotées par les données résultent de l’analyse de perspectives holistiques et de bout en bout de chaque ressource supervisée en agrégeant et en traitant différents types de données collectées pour déterminer l’impact et l’action de réponse à entreprendre.

Pour en savoir plus sur l’automatisation basée sur les alertes de métriques et les événements de sécurité, poursuivez votre lecture avec ces ressources :

Bien démarrer avec la mise à l’échelle automatique dans Azure en utilisant Azure Monitor.

Rentabilité

Comme pour les autres disciplines d’observabilité, l’équipe doit comprendre et prendre conscience des implications en matière de coûts et comment les types de réponses définis pour la prise en charge de la gestion moderne des incidents contribuent à contrôler les coûts. Si l’objectif central est de réduire le temps moyen de récupération (MTTR) en répondant rapidement à un problème pour le résoudre, vous devez constamment évaluer le coût et l’impact potentiels sur les flux informatiques ou les revenus de l’entreprise.

Chaque incident signalé a un coût. Supposez que l’organisation investit dans l’orchestration pour automatiser une réponse. Dans ce cas, vous devez évaluer le rapport coûts-bénéfice et l’impact des coûts liés à l’augmentation de la consommation du service cloud pour utiliser ces services ou fonctionnalités qui permettent l’automatisation.

Automatisation

L’automatisation du cloud offre des avantages significatifs pour le monitoring de la sécurité et de l’intégrité. La rapidité, la flexibilité et la précision sont trois archétypes que l’automatisation du cloud apporte aux opérations de réponse. On appelle souvent cela « orchestration », et le cloud Microsoft offre plusieurs services.

Par exemple :

Une menace pilotée par l’identité est détectée à partir d’un ou plusieurs journaux, déclenchant une alerte.
L’automatisation est immédiatement déclenchée pour rassembler plus d’informations et mettre en corrélation davantage de journaux afin d’enrichir l’alerte.
Un opérateur agit en sélectionnant la bonne automatisation dans une bibliothèque, par exemple la désactivation d’un compte d’utilisateur.

L’exemple ou le cas d’utilisation peut être entièrement automatisé.

Le rôle de l’automatisation fournit ensuite une sorte de playbook qui réduit les coûts et fait gagner du temps :

Aucun incident de sécurité n’a été nécessaire pour suivre le long chemin de l’investigation, du diagnostic, de la résolution et de la récupération.
Le cycle qui va de la détection à la correction peut durer seulement quelques secondes ou minutes, et non pas plusieurs heures.

Ensuite, votre équipe doit créer une liste ou une bibliothèque d’exemples d’automatisation qui peut être utilisée de manière flexible, soit à partir d’informations brutes trouvées sur des sites web publics, soit sélectionnées et stockées en interne dans un référentiel avec contrôle de code source.

Pour plus d’informations sur l’automatisation basée sur l’identité ou sur les événements de sécurité, voici une liste de suggestions de lecture :

Stratégie d’alerte réussie

On ne peut pas régler un problème quand on ne sait pas qu’il existe.

Déclencher des alertes sur ce qui est important est critique. Ceci est sous-entendu par la collecte et la mesure des métriques et des journaux appropriés. Vous avez également besoin d’un outil de supervision capable de stocker, d’agréger, de visualiser, d’analyser et de produire une réponse automatique quand certaines conditions sont remplies. Vous ne pouvez améliorer l’observabilité de vos services et de vos applications que si vous avez une parfaite compréhension de leur composition. Vous mappez cette composition dans une configuration de supervision détaillée à appliquer par la plateforme de supervision. Cette configuration inclut les états de défaillance prévisibles (les symptômes qui ne sont pas la cause de la défaillance) pour lesquels les alertes sont justifiées.

Alertes d'informations

Dans certaines circonstances, certaines alertes peuvent être informationnelles. Nous pouvons les utiliser pour en savoir plus sur le comportement de nos systèmes. Par exemple, vous souhaiterez peut-être obtenir ces alertes d’information :

Une machine virtuelle a été arrêtée : Une machine virtuelle a été automatiquement arrêtée pour réduire les gaspillages et contrôler les coûts suite à une faible utilisation planifiée ou détectée.

Dans le premier exemple, l’orchestration a été utilisée à partir d’une fonctionnalité de planification native et par la plateforme de supervision qui a détecté la condition d’utilisation. Au lieu que la seule action soit une notification ou une remontée de l’alerte, elle vous informe de l’action effectuée et pourquoi.
Ressources inactives : Des ressources IaaS ou PaaS sont inactives sur une longue période ou ne sont pas provisionnées selon les recommandations d’Azure Advisor.

Dans cet exemple, l’orchestration peut servir à gérer ces activités liées à l’infrastructure basées sur la logique métier ou le flux de travail de processus ITSM. Des réponses et des actions beaucoup plus rapides sont nécessaires aujourd’hui. Avec le cloud, les alertes sont moins destinées aux humains mais plus pour déclencher une réponse automatisée ou une orchestration continue dans le cadre d’un flux de valeur automatisé.

Considérations relatives à la stratégie d’alerte

Gardez à l’esprit que l’apprentissage est essentiel et, lorsqu’elles sont conçues correctement, les alertes d’information peuvent vous donner de nombreux aperçus sur votre écosystème et votre intégrité cloud.

Tenez compte des principes suivants pour déterminer si un symptôme est un candidat approprié pour une alerte :

Actionable: Le problème est-il important ? Cela reflète-t-il un problème réel dans l’intégrité de votre application ? Par exemple, vous souhaiterez peut-être envoyer une alerte lorsque l’utilisation du processeur est trop élevée sur une période prolongée pour une ressource ou qu’une requête SQL provoque systématiquement des problèmes de performances, mais vous ne souhaitez peut-être pas envoyer une alerte lorsque le processeur atteint des pics sur une courte période. Rendre les choses actionnables pour réduire les faux positifs et éviter la fatigue des alertes.
Urgence: La question a-t-elle besoin d’une attention urgente ? Si oui, l’équipe responsable doit être immédiatement notifiée.
Impact au niveau du client :Les utilisateurs du service ou de l’application sont-ils affectés par le problème ?
Impact sur les systèmes dépendants : Existe-t-il des alertes provenant de dépendances interdépendantes et qui peuvent être corrélées pour éviter de notifier différentes équipes travaillant toutes sur le même problème ?

Avec ces considérations initiales, vous pouvez commencer à développer votre configuration de supervision. Vous pouvez tester et valider les hypothèses dans différents environnements. Par exemple, évaluez en continu ces considérations et questions dans les environnements de non-production et de production. L’amélioration continue est la clé d’une réponse réussie aux signaux de surveillance.

Lors de l’évaluation continue de ce qui fonctionne, envisagez de vous poser ces questions pour vous aider à mieux faire connaître l’efficacité de votre réponse de surveillance :

Volume d’alerte : Avez-vous un volume d’alertes élevé ? Existe-t-il de nombreuses alertes non actionnables qui auraient pu être évitées ?
Problèmes non détectés : Obtenez-vous des rapports ou des tickets d’utilisateurs qui rencontrent des problèmes et qui n’ont pas été interceptés par la configuration de la surveillance ?
Faux positifs : Recevez-vous des alertes ou des signaux mal indiqués ?
Alerte ou événement : Avez-vous vraiment besoin d’envoyer une alerte, ou certaines des alertes déclenchées peuvent-elles simplement être des événements marqués dans le système ? Si les signaux s’affichent lorsque vous la recherchez, au lieu d’envoyer une alerte, cela suffit-il pour éviter la fatigue des alertes et les notifications non actionnables ?

Consultez la vue d’ensemble des plateformes de supervision de cette série d’articles pour mieux comprendre les fonctionnalités des solutions de supervision Microsoft.

Étapes suivantes

Préparation aux compétences pour la supervision du cloud