Fiabilité dans les machines virtuelles

Article
11/06/2024

Cet article contient des informations détaillées sur la résilience régionale de machine virtuelle avec zones de disponibilité et reprise d’activité entre régions et la continuité d’activité.

Prise en charge des zones de disponibilité

Les zones de disponibilité Azure sont au moins trois groupes physiquement distincts de centres de données dans chaque région Azure. Les centres de données de chaque zone sont équipés d’une infrastructure réseau, de refroidissement et d’alimentation indépendante. En cas de défaillance de zone locale, les zones de disponibilité sont conçues de telle sorte que si une zone est affectée, les services, la capacité et la haute disponibilité de la région sont pris en charge par les deux autres zones.

Les défaillances sont aussi bien des défaillances logicielles et matérielles que des événements de type tremblements de terre, inondations et incendies. La tolérance aux défaillances est obtenue par la redondance et l’isolation logique des services Azure. Pour obtenir des informations détaillées sur les zones de disponibilité dans Azure, consultez Régions et zones de disponibilité.

Les services Azure compatibles avec les zones de disponibilité sont conçus pour fournir le niveau approprié de fiabilité et de flexibilité. Ils peuvent être configurés de deux façons. Un service peut être redondant interzone, avec une réplication automatique entre les zones, ou zonal, avec des instances épinglées à une zone spécifique. Vous pouvez également combiner ces approches. Pour plus d’informations sur l’architecture zonale et redondante interzone, consultez Recommandations pour l’utilisation de zones de disponibilité et de régions.

Les machines virtuelles prennent en charge les zones de disponibilité avec trois zones de disponibilité par région Azure prise en charge et sont également redondantes interzones et zonales. Pour plus d’informations, consultez Zones de disponibilité prises en charge. Le client est responsable de la configuration et de la migration de ses machines virtuelles pour la disponibilité.

Pour en savoir plus sur les options de préparation des zones de disponibilité, consultez :

Voir Options de disponibilité pour les machines virtuelles
Consultez Service de zone de disponibilité et prise en charge régionale
Migrer des machines virtuelles existantes vers des zones de disponibilité

Prérequis

Les références SKU de votre machine virtuelle doivent être disponibles dans les zones de votre région. Pour voir quelles régions prennent en charge les zones de disponibilité, consultez la liste des régions prises en charge.
Les références SKU de votre machine virtuelle doivent être disponibles dans les zones de votre région. Pour vérifier la disponibilité des références SKU de machine virtuelle, utilisez l’une des méthodes suivantes :
- Utilisez PowerShell pour vérifier la disponibilité des références SKU de machine virtuelle.
- Utilisez Azure CLI pour vérifier la disponibilité des références SKU de machine virtuelle.
- Accédez aux Services fondamentaux.

Améliorations du SLA

Étant donné que les zones de disponibilité sont physiquement distinctes et fournissent une source d’alimentation, un réseau et un refroidissement distincts, les contrats SLA (contrats de niveau de service) augmentent. Pour plus d’informations, consultez le SLA pour Virtual Machines.

Créer une ressource avec les zones de disponibilité activées

Commencez par créer une machine virtuelle avec une zone de disponibilité activée à partir des options de déploiement ci-dessous :

Prise en charge du basculement zonal

Vous pouvez configurer des machines virtuelles pour basculer vers une autre zone à l’aide du service Site Recovery. Pour plus d’informations, consultez Récupération de site.

Tolérance de panne

Les machines virtuelles peuvent basculer vers un autre serveur dans un cluster, avec redémarrage du système d’exploitation de la machine virtuelle sur le nouveau serveur. Vous devez vous référer au processus de basculement pour la reprise d’activité après sinistre, la collecte de machines virtuelles dans la planification de la reprise et l’exécution d’exercices de reprise d’activité pour garantir la réussite de votre solution de tolérance de panne.

Pour plus d’informations, consultez les processus de récupération de site.

Expérience en cas de panne de zone

À l’occasion d’une panne à l’échelle d’une zone, vous devez vous attendre à une brève dégradation des performances, jusqu’à ce que la capacité d’auto-réparation du service de machine virtuelle rééquilibre la capacité sous-jacente afin de s’adapter aux zones saines. L’auto-réparation ne dépend pas de la restauration de zone ; on s’attend à ce que l’état de l’auto-réparation du service géré par Microsoft compense une zone perdue, en se servant de la capacité des autres zones.

Vous devez également vous préparer à la possibilité qu’il y ait une panne d’une région entière. Si une région entière est confrontée à une interruption de service, les copies localement redondantes de vos données sont temporairement indisponibles. Si la géoréplication est activée, trois autres copies de vos tables et objets blob Stockage Azure sont stockées dans une autre région. En cas de panne régionale totale ou de sinistre rendant la région primaire irrécupérable, Azure remappe toutes les entrées DNS sur la région géorépliquée.

Préparation aux pannes de zone et récupération

Nous vous fournissons les conseils suivants pour les machines virtuelles Azure durant une interruption de service sur l’ensemble de la région où votre application Machine virtuelle Azure est déployée :

Configurer Azure Site Recovery pour vos machines virtuelles
Vérifiez l’état du tableau de bord Azure Service Health si Azure Site Recovery n’a pas été configuré
Passer en revue le fonctionnement du service Sauvegarde Azure pour les machines virtuelles
- Consultez la matrice de prise en charge de la sauvegarde de machines virtuelles Azure
Déterminer l’option et le scénario de restauration de machine virtuelle qui fonctionnent le mieux pour votre environnement

Conception à faible latence

Les options Inter-régions (région secondaire), Inter-abonnement (préversion) et Inter-zonal (préversion) sont des options disponibles à prendre en compte lors de la conception d’une solution de machine virtuelle à faible latence. Pour plus d’informations sur ces options, consultez les méthodes de restauration prises en charge.

Important

En refusant le déploiement prenant en charge la zone, vous renoncez à la protection contre l’isolation des erreurs sous-jacentes. L’utilisation de références SKU qui ne prennent pas en charge les zones de disponibilité ou la désactivation de la configuration des zones de disponibilité force la dépendance aux ressources qui n’obéissent pas au placement et à la séparation des zones (y compris les dépendances sous-jacentes de ces ressources). Ces ressources ne doivent pas survivre à des scénarios de zone descendante. Les solutions qui tirent parti de ces ressources doivent définir une stratégie de récupération d’urgence et configurer une récupération de la solution dans une autre région.

Techniques de déploiement sécurisées

Lorsque vous optez pour l’isolation des zones de disponibilité, vous devez utiliser des techniques de déploiement sécurisées pour le code d’application et pour les mises à niveau d’application. Outre la configuration d’Azure Site Recovery implémentez l’une des techniques de déploiement sécurisées suivantes pour les machines virtuelles :

Comme Microsoft effectue régulièrement des mises à jour de maintenance planifiées, il peut y avoir de rares instances où ces mises à jour nécessitent un redémarrage de votre machine virtuelle pour appliquer les mises à jour requises à l’infrastructure sous-jacente. Pour plus d’informations, consultez Considérations relatives à la disponibilité lors de la maintenance planifiée.

Avant de mettre à niveau votre prochain ensemble de nœuds dans une autre zone, vous devez effectuer les tâches suivantes :

Consultez le tableau de bord Azure Service Health pour connaître l’état du service de machines virtuelles pour vos régions attendues.
Vérifiez que la réplication est activée sur vos machines virtuelles.

Migrer vers une prise en charge des zones de disponibilité

Pour savoir comment migrer une machine virtuelle vers la prise en charge des zones de disponibilité, consultez Migrer des machines virtuelles et des groupe de machines virtuelles identiques vers la prise en charge des zones de disponibilité.

Déplacer une machine virtuelle vers un autre abonnement ou groupe de ressources
- INTERFACE DE LIGNE DE COMMANDE
- PowerShell
Azure Resource Mover
Déplacer des machines virtuelles Azure vers des zones de disponibilité
Déplacer les ressources de configuration de maintenance de région

Reprise d’activité et continuité d’activité entre régions

La récupération d’urgence (DR) consiste à récupérer après des évènements à fort impact, comme des catastrophes naturelles ou des échecs de déploiements, qui entraînent un temps d’arrêt et une perte de données. Quelle qu’en soit la cause, la meilleure solution en cas de sinistre est d’avoir un plan de DR bien défini et testé, et une conception d’application qui prend activement en charge la DR. Avant de commencer à réfléchir à la création de votre plan de récupération d’urgence, consultez Suggestions pour la conception d’une stratégie de récupération d’urgence.

En ce qui concerne la récupération d’urgence (DR), Microsoft utilise le modèle de responsabilité partagée. Dans un modèle de responsabilité partagée, Microsoft garantit que l’infrastructure de référence et les services de plateforme sont disponibles. En même temps, de nombreux services Azure ne répliquent pas automatiquement les données ou reviennent d’une région défaillante pour effectuer une réplication croisée vers une autre région activée. Pour ces services, vous êtes responsable de la configuration d’un plan de récupération d’urgence qui fonctionne pour votre charge de travail. La plupart des services qui s’exécutent sur des offres PaaS (Platform as a Service) Azure fournissent des fonctionnalités et des conseils pour prendre en charge la récupération d’urgence et vous pouvez utiliser fonctionnalités spécifiques au service pour prendre en charge la récupération rapide pour vous aider à développer votre plan de récupération d’urgence.

Vous pouvez utiliser la restauration inter-région pour restaurer des machines virtuelles Azure via des régions jumelées. Avec la restauration inter-région, vous pouvez restaurer toutes les machines virtuelles Azure pour le point de récupération sélectionné si la sauvegarde est effectuée dans la région secondaire. Pour plus d’informations sur la restauration interrégion, reportez-vous à l’entrée de ligne de table interrégion dans nos options de restauration.

Récupération d’urgence dans la zone géographique multi-région

En cas d’interruption de service à l’échelle de la région, Microsoft travaille avec diligence pour restaurer le service de machine virtuelle. Toutefois, vous devez toujours vous appuyer sur d’autres stratégies de sauvegarde propres à l’application pour atteindre le plus haut niveau de disponibilité. Pour plus d’informations, consultez la section consacrée aux stratégies de données pour une récupération d’urgence.

Détection, notification et gestion des pannes

L’infrastructure matérielle ou physique de la machine virtuelle peut échouer de manière inattendue. Les défaillances inattendus comprennent les défaillances du réseau local, du disque local ou au niveau du rack. Quand une défaillance de ce type est détectée, la plateforme Azure migre (répare) automatiquement votre machine virtuelle vers une machine physique intègre se trouvant dans le même centre de données. Lors de la procédure de réparation, les machines virtuelles subissent des temps d’arrêt (redémarrage) et, dans certains cas, une perte du lecteur temporaire. Le système d’exploitation attaché et les disques de données sont toujours conservés.

Pour plus d’informations sur les interruptions de service de machine virtuelle, consultez les conseils de récupération d’urgence.

Configurer la reprise d’activité et la détection des pannes

Lorsque vous configurez la récupération d’urgence pour les machines virtuelles, comprenez ce que fournit Azure Site Recovery. Activez la récupération d’urgence pour les machines virtuelles avec les méthodes ci-dessous :

Configurer la récupération d'urgence sur une région Azure secondaire pour une machine virtuelle Azure
Créer un coffre Recovery Services
- Bicep
- Modèle ARM
Activer la récupération d'urgence pour les machines virtuelles Linux
Activer la récupération d'urgence pour les machines virtuelles Windows
Basculer des machines virtuelles Azure vers une autre région
Basculer des machines virtuelles vers la région primaire

Récupération d’urgence dans une zone géographique à région unique

Avec la configuration de la reprise d’activité, les machines virtuelles Azure sont répliquées continuellement vers une autre région cible. Si une panne se produit, vous pouvez basculer les machines virtuelles vers la région secondaire et y accéder à partir de cette région.

Lorsque vous répliquez des machines virtuelles Azure à l'aide de Site Recovery, tous leurs disques sont répliqués en continu et de manière asynchrone dans la région cible. Les points de récupération sont créés toutes les quelques minutes, ce qui vous donne un objectif de point de récupération (RPO) de l’ordre de quelques minutes. Vous pouvez effectuer des exercices de reprise d’activité autant de fois que vous le souhaitez sans impacter l’application de production ou la réplication en cours. Pour plus d’informations, consultez Effectuer un exercice de reprise d’activité sur Azure.

Pour plus d’informations, consultez Composants architecturaux de machines virtuelles Azure et association de régions.

Capacité et résilience proactive de la récupération d’urgence

Microsoft et ses clients opèrent selon le modèle de responsabilité partagée. La responsabilité partagée signifie que dans le cas d’une reprise d’activité après sinistre activée par le client (services sous la responsabilité du client), vous devez traiter la reprise d’activité de chaque service qu’il déploie et contrôle. Pour garantir une reprise proactive, vous devez toujours prédéployer les régions secondaires, car, à défaut de préallocation, la capacité n’est pas garantie au moment de l’impact.

Pour le déploiement de machines virtuelles, vous pouvez utiliser le mode d’orchestration flexible sur Virtual Machine Scale Sets. Toutes les tailles de machine virtuelle peuvent être utilisées avec le mode d’orchestration flexible. Le mode d’orchestration flexible garantit également une haute disponibilité (jusqu’à 1000 machines virtuelles) en répartissant les machines virtuelles entre différents domaines d’erreur dans une région ou dans une zone de disponibilité.

Partage via