Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Concevoir une application pour équiper l’équipe des opérations
Le passage au cloud a fondamentalement changé le rôle de l’équipe des opérations. Ils ne sont plus responsables de la gestion du matériel et de l’infrastructure qui héberge l’application. Toutefois, les opérations restent cruciales pour l’exécution d’une application cloud réussie. Les fonctions clés sont les suivantes :
- Déploiement.
- Supervision.
- Escalade.
- Réponse aux incidents.
- Audit de sécurité.
La journalisation et le suivi robustes sont particulièrement importants dans les applications cloud. Incluez l’équipe des opérations dans la conception et la planification pour s’assurer qu’elles reçoivent les données et les insights dont ils ont besoin pour réussir.
Recommandations
Rendre toutes les choses observables. Une fois qu’une solution est déployée et opérationnelle, les journaux et les traces sont vos principales sources d'information sur le système. Le traçage permet d’enregistrer un chemin via le système. Utilisez le suivi pour identifier les goulots d’étranglement, les problèmes de performances et les points d’échec. La journalisation capture des événements individuels tels que les modifications d’état de l’application, les erreurs et les exceptions. Activez la journalisation en production, ou vous pouvez perdre des informations cruciales quand vous en avez besoin le plus.
Instrument de surveillance. La supervision fournit des insights sur les performances d’une application, notamment la disponibilité, l’efficacité et l’intégrité du système. Par exemple, il indique si vous respectez votre accord de niveau de service. La surveillance se produit pendant l’opération normale du système et doit être aussi proche du temps réel que possible. Cette approche permet de s’assurer que le personnel des opérations peut réagir rapidement aux problèmes. Dans l’idéal, la surveillance efficace permet d’éviter les problèmes avant qu’ils ne se transforment en défaillances critiques. Pour plus d’informations, consultez Surveillance et diagnostics.
Instrument pour l’analyse de la cause racine. L’analyse de la cause racine est le processus de recherche de la cause sous-jacente des défaillances. Elle a lieu après un échec.
Utilisez le suivi distribué. Utilisez un système de suivi distribué conçu pour la concurrence, la synchronisation et l’échelle cloud. Les traces doivent inclure un ID de corrélation qui circule entre les limites de service. Une seule opération peut inclure des appels à plusieurs services d’application. En cas d’échec d’une opération, l’ID de corrélation permet d’identifier la cause de l’échec.
Normaliser les journaux de log et les indicateurs. L’équipe chargée des opérations doit regrouper les journaux provenant des différents services de votre solution. Si chaque service utilise son propre format de journalisation, il devient difficile ou impossible de récupérer des informations utiles. Définissez un schéma commun qui inclut des champs tels que l’ID de corrélation, le nom de l’événement et l’adresse IP de l’expéditeur. Les services individuels peuvent dériver des schémas personnalisés qui héritent du schéma de base et peuvent contenir des champs supplémentaires.
Automatisez les tâches de gestion, notamment l’approvisionnement, le déploiement et la surveillance. L’automatisation d’une tâche rend la tâche reproductible et moins sujette à une erreur humaine.
Traitez la configuration comme du code. Stockez les fichiers de configuration dans un système de contrôle de version afin que vous puissiez suivre et versionr vos modifications et restaurer les modifications si nécessaire.