Partager via


Qu’est-ce que la documentation sur la fiabilité Azure ?

Azure fournit un ensemble complet de fonctionnalités de fiabilité pour vous aider à répondre aux besoins de votre charge de travail. La documentation sur la fiabilité Azure fournit des guides spécifiques au service sur la façon dont chaque service Azure prend en charge ces fonctionnalités de fiabilité de plateforme, telles que la gestion des pannes temporaires, les zones de disponibilité, la prise en charge multirégion et la prise en charge des sauvegardes. Pour afficher la liste actuelle des guides de service de fiabilité, consultez les guides de fiabilité par service.

Outre les guides de service de fiabilité, la documentation sur la fiabilité d’Azure inclut également des informations générales, telles que :

  • Régions Azure : informations sur les régions Azure, les régions jumelées et non jumelées, et différentes configurations de région.
  • Zones de disponibilité Azure : informations sur les zones de disponibilité, notamment sur la prise en charge de la haute disponibilité et de la récupération d’urgence. Cette section inclut également des listes de services et de régions Azure qui prennent en charge les zones de disponibilité.
  • Concepts de fiabilité : concepts de fiabilité fondamentaux, tels que :
    • Continuité d’activité, haute disponibilité et reprise d’activité.
    • Redondance, réplication (redondance des données) et sauvegarde
    • Basculement et restauration automatique.
    • Responsabilité partagée entre Microsoft et vous.

Qu’est-ce que la fiabilité ?

La fiabilité fait référence à la capacité d’une charge de travail à effectuer de manière cohérente au niveau d’un service acceptable et conformément aux exigences de continuité de l’activité. La fiabilité est un concept clé du cloud computing. Dans Azure, l’objectif de fiabilité est atteint grâce à une combinaison de facteurs, dont la conception de la plateforme elle-même, ses services, l’architecture de vos applications et la mise en œuvre des meilleures pratiques.

Deux approches clés pour atteindre la fiabilité dans une charge de travail sont les suivantes :

  • Résilience : capacité à résister et à continuer à fonctionner lorsque les choses se passent mal, telles que des erreurs temporaires, des pannes d’infrastructure ou des pics inattendus de la demande. La résilience vous aide à éviter les interruptions.
  • Récupération : capacité à restaurer des opérations normales après une interruption. Si une interruption se produit, la récupération vous aide à restaurer à un état fiable.

La plateforme et les services Azure offrent un certain nombre de fonctionnalités de fiabilité telles que les zones de disponibilité, la prise en charge multirégion, la réplication des données et la sauvegarde et la restauration. Ces fonctionnalités doivent être prises en compte au moment de concevoir une charge de travail afin de répondre à ses impératifs de continuité d’activité.

Conseil / Astuce

La fiabilité prend également en compte d’autres aspects de la conception de votre solution, notamment la façon dont vous déployez les modifications en toute sécurité, la manière dont vous gérez les niveaux de performance pour éviter les temps d’arrêt liés à une charge élevée ainsi que la méthode que vous employez pour tester et valider chaque partie de votre solution. Pour en savoir plus, veuillez consulter Azure Well-Architect Framework.

Régions Azure

Azure fournit plus de 60 régions dans le monde entier, qui se trouvent dans de nombreuses zones géographiques différentes. Chaque région est un ensemble d’installations physiques qui incluent des centres de données et une infrastructure réseau. Toutes les régions peuvent être divisées en zones appelées zones géographiques. Chaque zone géographique est une limite de résidence des données et peut contenir une ou plusieurs régions.

Les régions Azure fournissent certains types d’options de résilience. De nombreuses régions fournissent des zones de disponibilité, et certaines ont une région jumelée tandis que d'autres ne le sont pas. Lorsque vous choisissez une région pour vos services, il est important de prêter attention aux options de résilience disponibles dans cette région.

Zones de disponibilité Azure

De nombreuses régions Azure fournissent des zones de disponibilité, qui sont des groupes séparés de centres de données au sein d’une région. Les zones de disponibilité constituent un moyen important d’obtenir une fiabilité sur la plateforme Azure, car elles fournissent un niveau d’isolation physique au sein d’une région.

Les zones de disponibilité sont suffisamment proches pour avoir des connexions à faible latence avec d’autres zones de disponibilité, mais assez éloignées pour réduire la probabilité que plusieurs seront affectées par les conditions météo ou des pannes locales. Les zones de disponibilité disposent d’une alimentation indépendante, d’un refroidissement et d’une infrastructure réseau. Ils sont conçus de sorte que, si une zone subit une panne, les services régionaux, la capacité et la haute disponibilité soient pris en charge par les zones restantes.

Concepts de fiabilité

La section concepts de fiabilité fournit une vue d’ensemble de certains concepts et principes clés qui sous-tendent la fiabilité dans Azure.

Continuité de l’activité, haute disponibilité et récupération d’urgence

La planification de la continuité d’activité peut être comprise comme étant le processus continu de gestion des risques à travers la conception de la haute disponibilité et de la récupération d’urgence.

Avant d’envisager la continuité de l’activité, il est important de comprendre les termes suivants :

  • La continuité d’activité est l’état dans lequel une entreprise peut poursuivre ses opérations pendant des défaillances, des pannes ou des sinistres. La continuité de l’activité nécessite une planification proactive, une préparation et l’implémentation de systèmes et de processus résilients.

  • La haute disponibilité consiste à concevoir une solution destinée à répondre aux besoins métier en matière de disponibilité et qui se montre résiliente face aux problèmes quotidiens susceptibles de contrarier les exigences de durée de bon fonctionnement.

  • La récupération d’urgence consiste à planifier la façon de gérer les risques inhabituels et les pannes catastrophiques qui peuvent en résulter.

Pour plus d’informations sur la continuité d’activité et la planification de la continuité d’activité par le biais de la conception de haute disponibilité et de reprise d’activité, consultez Présentation de la continuité d’activité, haute disponibilité et reprise d’activité ?

Redondance, réplication et sauvegarde

Nous considérons souvent le cloud comme un système distribué à l’échelle mondiale et omniprésent. Toutefois, en réalité, le cloud est constitué de matériel s’exécutant dans des centres de données. La résilience nécessite que vous gériez certains des risques associés aux emplacements physiques dans lesquels vos composants hébergés dans le cloud s’exécutent.

La redondance est la possibilité de conserver plusieurs copies identiques d’un composant de service et d’utiliser ces copies d’une manière qui empêche tout composant de devenir un point de défaillance unique.

La réplication ou la redondance des données est la possibilité de conserver plusieurs copies de données, appelées réplicas.

La sauvegarde est la possibilité de conserver une copie horodatée des données qui peuvent être utilisées pour restaurer des données perdues.

Pour une présentation de la redondance, de la réplication et de la sauvegarde, consultez Qu’est-ce que la redondance, la réplication et la sauvegarde ?.

Basculement et restauration automatique

Une raison courante de conserver des copies redondantes des applications et des répliques de données est de pouvoir effectuer un basculement. Avec le basculement, vous pouvez rediriger le trafic et les requêtes d’instances non saines vers des instances saines. Ensuite, une fois que les instances d’origine deviennent saines, vous pouvez effectuer une restauration automatique pour revenir à la configuration d’origine.

Pour plus d’informations sur le basculement et la restauration automatique, consultez Qu’est-ce que le basculement et la restauration automatique ?.

Responsabilité partagée

Les services Azure ont été conçus pour être résilients face à de nombreuses défaillances courantes, et chaque produit est assorti d’un contrat de niveau de service (SLA) qui indique la durée de bon fonctionnement à laquelle vous pouvez vous attendre. Toutefois, la fiabilité globale de votre charge de travail dépend de la façon dont vous avez conçu votre solution pour répondre aux besoins de votre entreprise. Certains plans de continuité d’activité peuvent considérer certains risques de défaillance comme étant peu importants, alors que d’autres peuvent les considérer comme étant critiques.

Sur la plateforme du cloud public Azure, la fiabilité est une responsabilité partagée entre Microsoft et vous. Étant donné qu’il existe différents niveaux de fiabilité dans chaque charge de travail que vous concevez et déployez, il est important de comprendre qui a la responsabilité principale de chacun de ces niveaux du point de vue de la fiabilité. Pour mieux comprendre le fonctionnement de la responsabilité partagée, en particulier lorsqu’il s’agit d’une panne ou d’un sinistre, consultez La responsabilité partagée en matière de fiabilité.