Fiabilité dans Azure Traffic Manager

Cet article contient des recommandations spécifiques en matière de fiabilité pour Azure Traffic Manager ainsi que la prise en charge de la récupération d’urgence et continuité d’activité inter-région pour Azure Traffic Manager.

Pour obtenir une vue d’ensemble plus détaillée de la fiabilité dans Azure, consultez fiabilité d’Azure.

Recommandations en matière de fiabilité

Cette section contient des recommandations pour atteindre la résilience et la disponibilité. Chaque recommandation appartient à l’une des deux catégories suivantes :

  • Les éléments d’intégrité couvrent des domaines tels que les éléments de configuration et le bon fonctionnement des principaux composants de votre charge de travail Azure, tels que les paramètres de configuration des ressources Azure, les dépendances vis-à-vis d’autres services, etc.

  • Les éléments de risque couvrent des domaines tels que les exigences de disponibilité et de reprise d’activité, les tests, le monitoring, le déploiement et d’autres éléments qui, s’ils ne sont pas résolus, augmentent les risques de problèmes dans l’environnement.

Matrice de priorité des recommandations de fiabilité

Chaque recommandation est marquée conformément à la matrice de priorité suivante :

Image Priority Description
Élevé Correctif immédiat nécessaire.
Moyenne Corriger dans les 3 à 6 mois.
Faible Doit être examiné.

Résumé des recommandations en matière de fiabilité

Category Priorité Recommandation
Disponibilité L’état du moniteur Traffic Manager doit être « En ligne »
Les profils Traffic Manager doivent avoir plusieurs points de terminaison
Efficacité du système La valeur TTL des profils utilisateur doit être de 60 secondes
Récupération d'urgence Configurer au moins un point de terminaison dans une autre région
Vérifier que le point de terminaison est configuré sur « Tout (international) » pour les profils géographiques

Disponibilité

L’état du moniteur Traffic Manager doit être « En ligne »

L’état du moniteur doit être « En ligne » pour fournir un basculement pour la charge de travail de l’application. Si le statut de l’intégrité de votre Traffic Manager est Dégradé, le statut d’un ou plusieurs points de terminaison peut également être Dégradé.

Pour plus d’informations sur la surveillance du point de terminaison de Traffic Manager, consultez Surveillance du point de terminaison de Traffic Manager.

Pour résoudre les problèmes liés à l’état détérioré d’Azure Traffic Manager, consultez Résolution des problèmes liés à l’état détérioré d’Azure Traffic Manager.

Les profils Traffic Manager doivent avoir plusieurs points de terminaison

Lors de la configuration d’Azure Traffic Manager, vous devez approvisionner au minimum deux points de terminaison pour basculer la charge de travail vers une autre instance.

Pour en savoir plus sur les types de points de terminaison Traffic Manager, consultez Points de terminaison Traffic Manager.

Efficacité du système

La valeur TTL des profils utilisateur doit être de 60 secondes

La durée de vie (TTL) affecte l’âge de la réponse qu’obtient un client quand il envoie une demande à Azure Traffic Manager. Une valeur TTL faible signifie que les clients sont routés plus rapidement vers un point de terminaison fonctionnel en cas de basculement. Configurez votre TTL sur 60 secondes pour router le trafic vers un point de terminaison sain le plus rapidement possible.

Pour plus d’informations sur la configuration de la TTL du DNS, consultez Configurer la durée de vie du DNS.

Récupération d’urgence

Configurer au moins un point de terminaison dans une autre région

Les profils doivent avoir plusieurs points de terminaison pour assurer la disponibilité si l’un des points de terminaison échoue. Nous vous recommandons également de placer les points de terminaison dans des régions différentes.

Pour en savoir plus sur les types de points de terminaison Traffic Manager, consultez Points de terminaison Traffic Manager.

Vérifier que le point de terminaison est configuré sur « Tout (international) » pour les profils géographiques

Pour le routage géographique, le trafic est routé vers les points de terminaison selon des zones définies. En cas d’échec d’une région, il n’y a pas de basculement prédéfini. Le fait d’avoir un point de terminaison où le regroupement régional est configuré sur « Tout (international) » pour les profils géographiques permet d’éviter les trous noirs dans le trafic et garantit la disponibilité du trafic.

Pour savoir comment ajouter et configurer un point de terminaison, consultez Ajouter, désactiver, activer, supprimer ou déplacer des points de terminaison.

Récupération d’urgence et continuité d’activité inter-région

La récupération d’urgence (DR) consiste à récupérer après des évènements à fort impact, comme des catastrophes naturelles ou des échecs de déploiements, qui entraînent un temps d’arrêt et une perte de données. Quelle qu’en soit la cause, la meilleure solution en cas de sinistre est d’avoir un plan de DR bien défini et testé, et une conception d’application qui prend activement en charge la DR. Avant de commencer à réfléchir à la création de votre plan de récupération d’urgence, consultez Suggestions pour la conception d’une stratégie de récupération d’urgence.

En ce qui concerne la récupération d’urgence (DR), Microsoft utilise le modèle de responsabilité partagée. Dans un modèle de responsabilité partagée, Microsoft garantit que l’infrastructure de référence et les services de plateforme sont disponibles. En même temps, de nombreux services Azure ne répliquent pas automatiquement les données ou reviennent d’une région défaillante pour effectuer une réplication croisée vers une autre région activée. Pour ces services, vous êtes responsable de la configuration d’un plan de récupération d’urgence qui fonctionne pour votre charge de travail. La plupart des services qui s’exécutent sur des offres PaaS (Platform as a Service) Azure fournissent des fonctionnalités et des conseils pour prendre en charge la récupération d’urgence et vous pouvez utiliser fonctionnalités spécifiques au service pour prendre en charge la récupération rapide pour vous aider à développer votre plan de récupération d’urgence.

Azure Traffic Manager est un équilibreur de charge de trafic basé sur DNS qui vous permet de distribuer le trafic à vos applications publiques dans les régions Azure globales. Traffic Manager fournit également à vos points de terminaison publics une haute disponibilité et une réactivité rapide.

Traffic Manager utilise le système DNS pour diriger les requêtes des clients vers le point de terminaison de service approprié, en fonction de la méthode de routage du trafic. Traffic Manager fournit également une supervision de l’intégrité pour chaque point de terminaison. Le point de terminaison peut être tout service côté Internet hébergé dans ou en dehors d’Azure. Traffic Manager fournit un large éventail de méthodes de routage du trafic et d’option de surveillance des points de terminaison pour répondre aux besoins variés des applications et aux divers modèles de basculement automatique. Traffic Manager est résilient aux défaillances, notamment à l’échec d’une région Azure entière.

Récupération d’urgence dans la zone géographique multi-région

DNS est l’un des mécanismes les plus efficaces pour détourner le trafic. DNS est efficace, car il est souvent global et externe au centre de données. DNS est également à l’abri de toute défaillance au niveau régional ou au niveau de la zone de disponibilité (AZ).

Deux aspects techniques sont à prendre en considération lors de la configuration de votre architecture de récupération d’urgence :

  • Utiliser un mécanisme de déploiement pour répliquer les instances, les données et les configurations entre les environnements primaire et de secours. Ce type de récupération d’urgence est possible en mode natif par le biais d’Azure Site Recovery voir la Documentation d’Azure Site Recovery via des appliances/services de partenaires Microsoft Azure comme Veritas ou NetApp.

  • Développer une solution afin de transférer le trafic réseau/web du site principal vers le site de secours. Ce type de récupération d’urgence peut être mis en œuvre via Azure DNS, Azure Traffic Manager (DNS) ou des équilibreurs de charge globale tiers.

Cet article est axé spécifiquement sur la planification de la récupération d’urgence Azure Traffic Manager.

Détection, notification et gestion des pannes

Lors d’un incident, le point de terminaison principal est interrogé et l’état passe à détérioré. Le site de récupération d’urgence reste Online. Par défaut, Traffic Manager envoie tout le trafic vers le point de terminaison principal (priorité la plus élevée). Si le point de terminaison principal apparaît détérioré, Traffic Manager achemine le trafic au deuxième point de terminaison tant qu’il reste sain. Il est possible de configurer davantage de points de terminaison dans Traffic Manager, qui peuvent servir de points de terminaison de basculement supplémentaires ou d’équilibreurs de charge qui partagent la charge entre les points de terminaison.

Configurer la reprise d’activité et la détection des pannes

Lorsque vous avez des architectures complexes et plusieurs ensembles de ressources capables d’exécuter la même fonction, vous pouvez configurer Azure Traffic Manager (basé sur DNS) pour vérifier l’intégrité de vos ressources et acheminer le trafic de la ressource défectueuse vers la ressource saine.

Dans l’exemple suivant, la région principale et la région secondaire ont un déploiement complet. Ce déploiement inclut les services cloud et une base de données synchronisée.

Diagram of automatic failover using Azure Traffic Manager.

Figure - Basculement automatique à l’aide d’Azure Traffic Manager

Toutefois, seule la région primaire traite activement les requêtes réseau des utilisateurs. La région secondaire devient active uniquement lorsque la région primaire subit une interruption de service. Dans ce cas, toutes les nouvelles requêtes réseau effectuent le routage vers la région secondaire. La sauvegarde de la base de données étant quasiment instantanée, les deux équilibreurs de charge ont des adresses IP dont l’intégrité peut être vérifiée, et les instances sont toujours opérationnelles. Cette topologie permet de choisir un RTO faible et un basculement sans intervention manuelle. La région de basculement secondaire doit être opérationnelle dès que la région primaire rencontre une défaillance.

Ce scénario est idéal pour l’utilisation d’Azure Traffic Manager qui dispose de sondes intégrées pour différents types de contrôles d’intégrité, y compris http / https et TCP. Azure Traffic Manager est également doté d’un moteur de règle qui peut être configuré de manière à basculer en cas de défaillance, comme décrit ci-dessous. Prenons la solution suivante utilisant Traffic Manager :

  • Le client a le point de terminaison Région 1 appelé prod.contoso.com ayant l’adresse IP statique 100.168.124.44, et un point de terminaison Région 2 appelé dr.contoso.com ayant l’adresse IP statique 100.168.124.43.
  • Chacun de ces environnements est exposé via une propriété d’accès public telle qu’un équilibreur de charge. L’équilibreur de charge peut être configuré de manière à avoir un point de terminaison DNS ou un nom de domaine complet (FQDN), comme indiqué ci-dessus.
  • Toutes les instances de la Région 2 sont répliquées quasiment en temps réel avec la Région 1. De plus, les images des machines sont à jour et toutes les données logicielles/de configuration sont corrigées et alignées avec la Région 1.
  • La mise à l’échelle automatique est configurée à l’avance.

Pour configurer le basculement avec Azure Traffic Manager :

  1. Créer un nouveau profil Azure Traffic Manager : Créez un profil Azure Traffic Manager avec le nom contoso123 et sélectionnez la méthode de routage « Priorité ». Si vous voulez associer un groupe de ressources préexistant, vous pouvez en sélectionner un ou encore créer un nouveau groupe de ressources.

    Screenshot of creating Traffic Manager profile.

    Figure : Créer un profil Traffic Manager

  2. Création des points de terminaison dans le profil Traffic Manager

    Au cours de cette étape, vous créez des points de terminaison qui pointent vers les sites de production et de récupération d’urgence. Ici, choisissez Type comme point de terminaison externe, mais si la ressource est hébergée dans Azure, vous pouvez également sélectionner Point de terminaison Azure. Si vous choisissez Point de terminaison Azure, sélectionnez une Ressource cible qui soit Service d’application ou Adresse IP publique allouée par Azure. La priorité est définie sur 1 car il s’agit du service principal pour la Région 1. De la même manière, créez le point de terminaison de récupération d’urgence dans Traffic Manager.

    Screenshot of creating disaster recovery endpoints.

    Figure - Création de points de terminaison de récupération d’urgence

  3. Configuration du contrôle d’intégrité et vérification du basculement

    Au cours de cette étape, vous définissez la durée de vie du DNS sur 10 secondes, une durée respectée par la plupart des programmes de résolution récursifs sur Internet. Cette configuration signifie qu’aucun programme de résolution DNS ne mettra en cache les informations pendant plus de 10 secondes. Pour les paramètres de surveillance du point de terminaison, le chemin d’accès est défini au / ou à la racine, mais vous pouvez personnaliser les paramètres du point de terminaison pour évaluer un chemin d’accès, par exemple, prod.contoso.com/index. Dans l’exemple ci-dessous, https est défini comme protocole de détection. Vous pouvez cependant choisir http ou tcp. Le choix du protocole dépend de l’application finale. L’intervalle de sondage est défini sur 10 secondes, ce qui permet une détection rapide. La nouvelle tentative est définie sur 3. Par conséquent, Traffic Manager bascule vers le deuxième point de terminaison si trois intervalles consécutifs enregistrent une défaillance. La formule suivante définit la durée totale d’un basculement automatique : Durée du basculement = Durée de vie + Nouvelle tentative * Intervalle de sondage. En l’occurrence, la valeur est 10 + 3 * 10 = 40 secondes (max). Si Nouvelle tentative est défini sur 1 et Durée de vie sur 10 secondes, la durée du basculement sera 10 + 1 * 10 = 20 secondes. Définissez une valeur de Nouvelle tentative supérieure à 1 pour éliminer les risques de défaillances dues à des faux positifs ou à des spots réseau mineurs.

    Screenshot of setting up health check.

    Figure - Configuration du contrôle d’intégrité et vérification du basculement

Étapes suivantes