Fiabilité dans Azure Traffic Manager

Article
11/05/2024

Cet article contient la prise en charge de la reprise d’activité inter-régions et de la continuité d’activité pour Azure Traffic Manager.

Récupération d’urgence et continuité d’activité inter-région

La récupération d’urgence (DR) consiste à récupérer après des évènements à fort impact, comme des catastrophes naturelles ou des échecs de déploiements, qui entraînent un temps d’arrêt et une perte de données. Quelle qu’en soit la cause, la meilleure solution en cas de sinistre est d’avoir un plan de DR bien défini et testé, et une conception d’application qui prend activement en charge la DR. Avant de commencer à réfléchir à la création de votre plan de récupération d’urgence, consultez Suggestions pour la conception d’une stratégie de récupération d’urgence.

En ce qui concerne la récupération d’urgence (DR), Microsoft utilise le modèle de responsabilité partagée. Dans un modèle de responsabilité partagée, Microsoft garantit que l’infrastructure de référence et les services de plateforme sont disponibles. En même temps, de nombreux services Azure ne répliquent pas automatiquement les données ou reviennent d’une région défaillante pour effectuer une réplication croisée vers une autre région activée. Pour ces services, vous êtes responsable de la configuration d’un plan de récupération d’urgence qui fonctionne pour votre charge de travail. La plupart des services qui s’exécutent sur des offres PaaS (Platform as a Service) Azure fournissent des fonctionnalités et des conseils pour prendre en charge la récupération d’urgence et vous pouvez utiliser fonctionnalités spécifiques au service pour prendre en charge la récupération rapide pour vous aider à développer votre plan de récupération d’urgence.

Azure Traffic Manager est un équilibreur de charge de trafic basé sur DNS qui vous permet de distribuer le trafic à vos applications publiques dans les régions Azure globales. Traffic Manager fournit également à vos points de terminaison publics une haute disponibilité et une réactivité rapide.

Traffic Manager utilise le système DNS pour diriger les requêtes des clients vers le point de terminaison de service approprié, en fonction de la méthode de routage du trafic. Traffic Manager fournit également une supervision de l’intégrité pour chaque point de terminaison. Le point de terminaison peut être tout service côté Internet hébergé dans ou en dehors d’Azure. Traffic Manager fournit un large éventail de méthodes de routage du trafic et d’option de surveillance des points de terminaison pour répondre aux besoins variés des applications et aux divers modèles de basculement automatique. Traffic Manager est résilient aux défaillances, notamment à l’échec d’une région Azure entière.

Récupération d’urgence dans la zone géographique multi-région

DNS est l’un des mécanismes les plus efficaces pour détourner le trafic. DNS est efficace, car il est souvent global et externe au centre de données. DNS est également à l’abri de toute défaillance au niveau régional ou au niveau de la zone de disponibilité (AZ).

Deux aspects techniques sont à prendre en considération lors de la configuration de votre architecture de récupération d’urgence :

Utiliser un mécanisme de déploiement pour répliquer les instances, les données et les configurations entre les environnements primaire et de secours. Ce type de récupération d’urgence est possible en mode natif par le biais d’Azure Site Recovery voir la Documentation d’Azure Site Recovery via des appliances/services de partenaires Microsoft Azure comme Veritas ou NetApp.
Développer une solution afin de transférer le trafic réseau/web du site principal vers le site de secours. Ce type de récupération d’urgence peut être mis en œuvre via Azure DNS, Azure Traffic Manager (DNS) ou des équilibreurs de charge globale tiers.

Cet article est axé spécifiquement sur la planification de la récupération d’urgence Azure Traffic Manager.

Détection, notification et gestion des pannes

Lors d’un incident, le point de terminaison principal est interrogé et l’état passe à détérioré. Le site de récupération d’urgence reste Online. Par défaut, Traffic Manager envoie tout le trafic vers le point de terminaison principal (priorité la plus élevée). Si le point de terminaison principal apparaît détérioré, Traffic Manager achemine le trafic au deuxième point de terminaison tant qu’il reste sain. Il est possible de configurer davantage de points de terminaison dans Traffic Manager, qui peuvent servir de points de terminaison de basculement supplémentaires ou d’équilibreurs de charge qui partagent la charge entre les points de terminaison.

Configurer la reprise d’activité et la détection des pannes

Lorsque vous avez des architectures complexes et plusieurs ensembles de ressources capables d’exécuter la même fonction, vous pouvez configurer Azure Traffic Manager (basé sur DNS) pour vérifier l’intégrité de vos ressources et acheminer le trafic de la ressource défectueuse vers la ressource saine.

Dans l’exemple suivant, la région principale et la région secondaire ont un déploiement complet. Ce déploiement inclut les services cloud et une base de données synchronisée.

Diagramme d’un basculement automatique à l’aide d’Azure Traffic Manager.

Figure - Basculement automatique à l’aide d’Azure Traffic Manager

Toutefois, seule la région primaire traite activement les requêtes réseau des utilisateurs. La région secondaire devient active uniquement lorsque la région primaire subit une interruption de service. Dans ce cas, toutes les nouvelles requêtes réseau effectuent le routage vers la région secondaire. La sauvegarde de la base de données étant quasiment instantanée, les deux équilibreurs de charge ont des adresses IP dont l’intégrité peut être vérifiée, et les instances sont toujours opérationnelles. Cette topologie permet de choisir un RTO faible et un basculement sans intervention manuelle. La région de basculement secondaire doit être opérationnelle dès que la région primaire rencontre une défaillance.

Ce scénario est idéal pour l’utilisation d’Azure Traffic Manager qui dispose de sondes intégrées pour différents types de contrôles d’intégrité, y compris http / https et TCP. Azure Traffic Manager est également doté d’un moteur de règle qui peut être configuré de manière à basculer en cas de défaillance, comme décrit ci-dessous. Prenons la solution suivante utilisant Traffic Manager :

Le client a le point de terminaison Région 1 appelé prod.contoso.com ayant l’adresse IP statique 100.168.124.44, et un point de terminaison Région 2 appelé dr.contoso.com ayant l’adresse IP statique 100.168.124.43.
Chacun de ces environnements est exposé via une propriété d’accès public telle qu’un équilibreur de charge. L’équilibreur de charge peut être configuré de manière à avoir un point de terminaison DNS ou un nom de domaine complet (FQDN), comme indiqué ci-dessus.
Toutes les instances de la Région 2 sont répliquées quasiment en temps réel avec la Région 1. De plus, les images des machines sont à jour et toutes les données logicielles/de configuration sont corrigées et alignées avec la Région 1.
La mise à l’échelle automatique est configurée à l’avance.

Pour configurer le basculement avec Azure Traffic Manager :

Créer un nouveau profil Azure Traffic Manager : Créez un profil Azure Traffic Manager avec le nom contoso123 et sélectionnez la méthode de routage « Priorité ». Si vous voulez associer un groupe de ressources préexistant, vous pouvez en sélectionner un ou encore créer un nouveau groupe de ressources.

Figure : Créer un profil Traffic Manager
Création des points de terminaison dans le profil Traffic Manager

Au cours de cette étape, vous créez des points de terminaison qui pointent vers les sites de production et de récupération d’urgence. Ici, choisissez Type comme point de terminaison externe, mais si la ressource est hébergée dans Azure, vous pouvez également sélectionner Point de terminaison Azure. Si vous choisissez Point de terminaison Azure, sélectionnez une Ressource cible qui soit Service d’application ou Adresse IP publique allouée par Azure. La priorité est définie sur 1 car il s’agit du service principal pour la Région 1. De la même manière, créez le point de terminaison de récupération d’urgence dans Traffic Manager.

Figure - Création de points de terminaison de récupération d’urgence
Configuration du contrôle d’intégrité et vérification du basculement

Au cours de cette étape, vous définissez la durée de vie du DNS sur 10 secondes, une durée respectée par la plupart des programmes de résolution récursifs sur Internet. Cette configuration signifie qu’aucun programme de résolution DNS ne mettra en cache les informations pendant plus de 10 secondes.

Pour les paramètres de surveillance du point de terminaison, le chemin d’accès est défini au / ou à la racine, mais vous pouvez personnaliser les paramètres du point de terminaison pour évaluer un chemin d’accès, par exemple, prod.contoso.com/index.

Dans l’exemple ci-dessous, https est défini comme protocole de détection. Vous pouvez cependant choisir http ou tcp. Le choix du protocole dépend de l’application finale. L’intervalle de sondage est défini sur 10 secondes, ce qui permet une détection rapide. La nouvelle tentative est définie sur 3. Par conséquent, Traffic Manager bascule vers le deuxième point de terminaison si trois intervalles consécutifs enregistrent une défaillance.

La formule suivante définit la durée totale d’un basculement automatisé :

Time for failover = TTL + Retry * Probing interval

Dans ce cas, la valeur est 10 + 3 * 10 = 40 secondes (Max).

Si Nouvelle tentative est défini sur 1 et Durée de vie sur 10 secondes, la durée du basculement sera 10 + 1 * 10 = 20 secondes.

Définissez une valeur de Nouvelle tentative supérieure à 1 pour éliminer les risques de défaillances dues à des faux positifs ou à des spots réseau mineurs.

Figure - Configuration du contrôle d’intégrité et vérification du basculement

Étapes suivantes

Fiabilité dans Azure
En savoir plus sur Azure Traffic Manager.
En savoir plus sur Azure DNS

Partager via