Fiabilité dans Microsoft Community Training
Microsoft Community Training est une solution cloud basée sur Azure qui peut fournir à grande échelle des programmes de formation complets, de grande qualité et très efficaces. Avec Community Training, les organisations de toutes tailles et de tous types peuvent exécuter des programmes de formation à grande échelle pour leurs communautés internes et externes. Les communautés peuvent comprendre des travailleurs de première ligne, des effectifs élargis, un écosystème de partenaires, un réseau de bénévoles et des bénéficiaires de programmes.
Cet article décrit la prise en charge de la fiabilité dans Community Training et couvre la résilience régionale avec zones de disponibilité et récupération d'urgence et continuité d’activité. Pour obtenir une vue d’ensemble plus détaillée d’un principe de fiabilité dans Azure, consultez fiabilité Azure.
Prise en charge des zones de disponibilité
Les zones de disponibilité Azure sont au moins trois groupes physiquement distincts de centres de données dans chaque région Azure. Les centres de données de chaque zone sont équipés d’une infrastructure réseau, de refroidissement et d’alimentation indépendante. En cas de défaillance de zone locale, les zones de disponibilité sont conçues de telle sorte que si une zone est affectée, les services, la capacité et la haute disponibilité de la région sont pris en charge par les deux autres zones.
Les défaillances sont aussi bien des défaillances logicielles et matérielles que des événements de type tremblements de terre, inondations et incendies. La tolérance aux défaillances est obtenue par la redondance et l’isolation logique des services Azure. Pour obtenir des informations détaillées sur les zones de disponibilité dans Azure, consultez Régions et zones de disponibilité.
Les services Azure compatibles avec les zones de disponibilité sont conçus pour fournir le niveau approprié de fiabilité et de flexibilité. Ils peuvent être configurés de deux façons. Un service peut être redondant interzone, avec une réplication automatique entre les zones, ou zonal, avec des instances épinglées à une zone spécifique. Vous pouvez également combiner ces approches. Pour plus d’informations sur l’architecture zonale et redondante interzone, consultez Recommandations relatives à l’utilisation de zones de disponibilité et de régions.
Community Training utilise des zones de disponibilité Azure pour fournir une haute disponibilité et une tolérance de panne dans une région Azure. La formation communautaire offre un soutien à la zone de disponibilité du plan de contrôle et du plan de données :
Le plan de contrôle est redondant interzone dans les régions primaires de disponibilité.
Le plan de données peut être zonal ou redondant interzone, selon ce que vous choisissez pour vos besoins. Cependant, il est fortement recommandé d'opter pour un déploiement redondant par zone afin d'éviter les pertes de données et de maintenir la disponibilité du service en cas d'interruption d'une zone.
Prérequis
Les zones de disponibilité sont prises en charge pour les SKU Community Training suivants :
- Standard (échelle inférieure des utilisateurs)
- Premium (échelle élevée des utilisateurs)
La formation communautaire n’est prise en charge que dans les régions jumelées. Chaque région secondaire est déployée selon une configuration zonale. Le tableau suivant présente toutes les régions qui prennent en charge les zones de disponibilité pour la formation communautaire, ainsi que la région à laquelle elles sont rattachées.
Région primaire | Région jumelée |
---|---|
RoyaumeUniSud | UKWest |
AustralieEst | AustralieSud-Est |
USAEst | WestUS |
USAEst2 | CentralUS |
NorthEurope | WestEurope |
WestUS3 | USAEst |
SwedenCentral | SuèdeSud |
Prise en charge du basculement zonal
Community Training utilise de nombreux services Azure dépendants, tels que App service et Azure SQL. Lorsque vous choisissez un déploiement redondant par zone, Community Training crée également des offres redondantes par zone de ces ressources de service Azure sous-jacentes. Si une zone tombe en panne, toutes les ressources, y compris les ressources dépendantes, basculent vers l'une des zones saines.
Créer une ressource avec la zone de disponibilité activée
Community Training assure la configuration des zones de disponibilité uniquement au moment de la création de l'instance. Si vous souhaitez modifier la configuration de votre zone de disponibilité après la création de l'instance, vous devrez créer une nouvelle instance. Pour savoir comment créer votre instance de formation communautaire, consultez Créer une formation communautaire.
Expérience en cas de panne de zone
Instances zonales. Lors d'une panne à l'échelle de la zone, la formation communautaire peut subir une interruption totale ou partielle du service. L’étendue de la disponibilité dépend de divers facteurs, par exemple si l’ensemble du centre de données est hors service ou si un service de dépendance spécifique n’est plus disponible dans cette zone.
Redondance interzone. Lors d’une panne à l’échelle de la zone, vous ne devriez pas subir d’impact sur les ressources provisionnées. Toutefois, vous devez vous préparer à une brève interruption de la communication avec ces ressources. Dans une situation d’interruption de zone, les clients reçoivent généralement des codes d’erreur 409, ainsi que la logique de nouvelle tentative tente de rétablir les connexions à intervalles appropriés. Les nouvelles requêtes sont dirigées vers des nœuds sains sans impact sur l’utilisateur. Pendant les pannes à l’échelle de la zone, les utilisateurs sont en mesure de créer de nouvelles ressources et de mettre à l’échelle les ressources existantes.
Récupération d'urgence et continuité d’activité
La récupération d’urgence (DR) consiste à récupérer après des évènements à fort impact, comme des catastrophes naturelles ou des échecs de déploiements, qui entraînent un temps d’arrêt et une perte de données. Quelle qu’en soit la cause, la meilleure solution en cas de sinistre est d’avoir un plan de DR bien défini et testé, et une conception d’application qui prend activement en charge la DR. Avant de commencer à réfléchir à la création de votre plan de récupération d’urgence, consultez Suggestions pour la conception d’une stratégie de récupération d’urgence.
En ce qui concerne la récupération d’urgence (DR), Microsoft utilise le modèle de responsabilité partagée. Dans un modèle de responsabilité partagée, Microsoft garantit que l’infrastructure de référence et les services de plateforme sont disponibles. En même temps, de nombreux services Azure ne répliquent pas automatiquement les données ou reviennent d’une région défaillante pour effectuer une réplication croisée vers une autre région activée. Pour ces services, vous êtes responsable de la configuration d’un plan de récupération d’urgence qui fonctionne pour votre charge de travail. La plupart des services qui s’exécutent sur des offres PaaS (Platform as a Service) Azure fournissent des fonctionnalités et des conseils pour prendre en charge la récupération d’urgence et vous pouvez utiliser fonctionnalités spécifiques au service pour prendre en charge la récupération rapide pour vous aider à développer votre plan de récupération d’urgence.
L'équipe de Microsoft Community Training gère l'ensemble de la procédure de reprise après sinistre pour Community Training. La récupération d’urgence n’est pas active ni active-passive, mais est plutôt basée sur la récupération à partir de la sauvegarde disponible la plus récente des services Azure. L’équipe Community Training crée manuellement toutes les ressources dans la région jumelée à partir de sauvegardes de données.
Remarque
La récupération d'urgence de Community Training n’est prise en charge que dans les régions jumelées.
Récupération d’urgence dans la zone géographique multi-région
Dans une catastrophe régionale, le plan de contrôle est basculé manuellement vers la région jumelée. Il faut s’attendre à une certaine dégradation du service dans le temps avant que le basculement ne soit terminé. Une fois le basculement effectué, seules les opérations en lecture seule sont prises en charge jusqu’à ce que la région d’urgence soit de nouveau en ligne. Le service est automatiquement rétabli dans la région d’origine une fois qu’il est de nouveau en ligne et toutes les opérations reprennent. L’objectif de point de récupération (RPO) devrait être de 10 minutes ; l’objectif de temps de récupération (RTO), de 24 heures.
Pour le plan de données, Community Training offre la récupération d’urgence managée par Microsoft. Pour utiliser la récupération d’urgence managée, vous devez activer la récupération d’urgence lors de la création d’une instance Community Training dans Azure. Une fois que vous avez activé la récupération d’urgence, Microsoft maintient la sauvegarde du stockage et de la base de données dans la région jumelée. L’objectif de point de récupération (RPO) devrait être de 12 heures ; l’objectif de temps de récupération (RTO), de 48 heures.
Remarque
Le RTO dépend de la taille de la base de données et du stockage, de la latence entre la région jumelée. Capacité de la base de données ou de la machine virtuelle de stockage (SKU). Le RPO dépend des ressources Azure sous-jacentes, comme Azure SQL et stockage Azure. Pour plus d’informations sur le RTO et le RPO, consultez Vue d’ensemble de la récupération d'urgence.
Détection, notification et gestion des pannes
Lorsqu'un contrôle de santé de Community Training détecte une panne de n'importe quel service, et dans n'importe quelle région, Microsoft vous demande votre accord pour le basculement vers la région jumelée. Microsoft vous informe des fonctionnalités disponibles au cours de la procédure de récupération d’urgence. Une fois que Microsoft a reçu votre accord, l'équipe de formation communautaire peut lancer la procédure de récupération d'urgence.
Important
Les apprenants ne pourront pas utiliser les fonctions audio/vidéo tant que la région primaire ne sera pas opérationnelle. Il est recommandé que vous évitiez les opérations de chargement multimédia jusqu’à ce que le site principal soit opérationnel.
Capacité et résilience proactive de la récupération d’urgence
Microsoft et ses clients opèrent selon le modèle de responsabilité partagée. Une fois qu’une région est en panne, non seulement l’instance Community Training est migrée vers la région jumelée, mais également toutes les charges de travail produit et client sont également migrées vers une région jumelée. Cette procédure peut entraîner une pénurie de ressources dans la région ou le centre de données jumelé. Par conséquent, la disponibilité de la récupération d’urgence dépend de la capacité disponible des ressources Azure sous-jacentes.