Comprendre la surveillance de la disponibilité et la planification de la capacité

Effectué

Même les services en ligne les plus fiables nécessitent des ressources adéquates pour s’exécuter efficacement. Cela est particulièrement vrai dans les situations d’urgence où une demande inattendue élevée peut avoir un impact sur la disponibilité de Microsoft Online Services. Microsoft utilise une surveillance étendue de la disponibilité et une planification fréquente de la capacité pour s’assurer que nos services restent disponibles pour nos clients, même dans les situations d’urgence.

Surveillance de la disponibilité

Microsoft implémente une surveillance complète de la disponibilité pour s’assurer que tous nos services en ligne disposent des ressources nécessaires pour s’exécuter de manière optimale. Les équipes de service emploient l’analyse automatisée des journaux et de la télémétrie pour avertir les responsables des appels. Par exemple, les équipes de service surveillent l’utilisation des processeurs et de la mémoire pour les pics susceptibles de menacer l’état d’intégrité du service. En plus de la surveillance de la disponibilité générale, les équipes de service sélectionnent également les métriques de disponibilité appropriées en fonction de la nature de leur service. Par exemple, SharePoint Online (SPO) gère les principales fonctionnalités clientes, telles que la disponibilité de la page d’accueil et la possibilité de charger et de télécharger des documents.

Dans de nombreux cas, nos services répondent automatiquement aux problèmes qui menacent la disponibilité en fournissant des ressources supplémentaires ou en redirigeant le trafic vers des composants de service non affectés. Les ingénieurs d’équipe de service répondent aux alertes en cherchant et en résolvant les problèmes sous-jacents. Les problèmes de disponibilité qui indiquent un incident de sécurité potentiel sont transmis à l’équipe de réponse de sécurité spécifique à la charge de travail pour être résolus à l’aide du processus de réponse aux incidents de sécurité.

Planification de la capacité

La planification de la capacité aide les équipes de service à allouer les ressources nécessaires pour prendre en charge la disponibilité de Microsoft Online Services. Une planification régulière de la capacité est requise dans le cadre du programme ERCM de Microsoft, qui garantit une capacité cohérente pour les basculements. Les équipes de service examinent les données relatives à la capacité lors des examens trimestriels, et lors des situations d'urgence qui justifient un examen supplémentaire de la capacité.

Les données brutes pour la planification de la capacité sont conservées par chaque équipe de service et incluent des métriques telles que le traitement du système, la mémoire et la capacité matérielle. Les évaluations planifiées utilisent un modèle de la capacité actuelle du système et testent celles-ci en cas d’urgence. Si le modèle indique des écarts de capacité, les modifications proposées à la capacité du système sont soumises au leadership des équipes de maintenance pour examen. Les modifications approuvées sont incorporées dans un nouveau modèle avant leur implémentation par les ingénieurs d’équipe de service.

Dans le cadre de la planification de la capacité, chaque équipe de service désigne un responsable de projet de capacité (PM), responsable de la collecte des données de performances et de la gestion de modèles précis de capacité système. Outre la coordination des révisions trimestrielles de la capacité, la capacité de responsable de la capacité sert de point de contact principal pour les alertes de surveillance de disponibilité automatisées. La capacité responsable permet de s’assurer que les membres du service approprié reçoivent une notification afin de résoudre les problèmes de disponibilité.

Si vous souhaitez en savoir plus