Continuité d’activité et récupération de base de données - SQL Server

S’applique à : SQL Server 2016 (13.x) et ultérieur

Cet article fournit une vue d’ensemble des solutions de continuité d’activité dans le cadre de la haute disponibilité et de la récupération d’urgence dans SQL Server, sous Windows et Linux.

Tout le monde qui déploie SQL Server doit s’assurer que toutes les instances SQL Server critiques et les bases de données qu’elles contiennent sont disponibles lorsque les utilisateurs professionnels et finaux en ont besoin, que cette disponibilité soit pendant les heures d’ouverture normales ou autour de l’horloge. L’objectif est de maintenir l’activité avec un minimum d’interruption voire sans interruption. Ce concept est également connu sous le nom de continuité d’activité.

SQL Server 2017 (14.x) et versions ultérieures ont introduit des fonctionnalités et des améliorations pour la disponibilité. L’ajout le plus important est la prise en charge de SQL Server sur les distributions Linux. Pour obtenir la liste complète des nouvelles fonctionnalités de SQL Server, consultez les articles suivants :

Version	Système d’exploitation
Nouveautés de SQL Server 2025 (17.x)	Windows \| Linux
Nouveautés de SQL Server 2022 (16.x)	Windows \| Linux
Nouveautés de SQL Server 2019 (15.x)	Windows \| Linux
Nouveautés de SQL Server 2017 (14.x)	Windows \| Linux

Cet article se concentre sur les scénarios de disponibilité dans SQL Server 2017 (14.x) et versions ultérieures, ainsi que sur les nouvelles fonctionnalités de disponibilité améliorées. Les scénarios incluent des scénarios hybrides qui peuvent s’étendre sur des déploiements SQL Server sur Windows Server et Linux, et ceux qui peuvent augmenter le nombre de copies lisibles d’une base de données.

Bien que cet article ne couvre pas les options de disponibilité externes à SQL Server (telles que la virtualisation), tout ce qui est abordé ici s’applique aux installations de SQL Server à l’intérieur d’une machine virtuelle invitée, que ce soit dans le cloud public ou hébergé par un serveur d’hyperviseur local.

Scénarios SQL Server qui utilisent des fonctionnalités de disponibilité

Vous pouvez utiliser des groupes de disponibilité Always On, des instances de cluster de basculement et la copie des journaux de transaction de différentes manières, et pas seulement pour la disponibilité. Il existe quatre façons principales d’utiliser les fonctionnalités de disponibilité :

Haute disponibilité
Récupération d'urgence
Les migrations et les mises à niveau
La mise à plus haute échelle des copies accessibles en lecture d’une ou plusieurs bases de données

Les sections suivantes décrivent les fonctionnalités pertinentes pour chaque scénario. Une fonctionnalité non couverte est la réplication SQL Server. Bien que la réplication SQL Server ne soit pas officiellement désignée comme fonctionnalité de disponibilité sous le parapluie Always On, elle est souvent utilisée pour rendre les données redondantes dans certains scénarios. La réplication de fusion n’est pas prise en charge pour SQL Server sur Linux. Pour plus d’informations, consultez réplication SQL Server sur Linux.

Importante

Les fonctionnalités de disponibilité de SQL Server ne remplacent pas la nécessité d’avoir une stratégie de sauvegarde et de restauration robuste et bien testée. Une stratégie de sauvegarde et de restauration est le bloc de construction le plus fondamental de toute solution de disponibilité.

Haute disponibilité

Il est important de s’assurer que les instances ou bases de données SQL Server sont disponibles si un problème se produit localement dans un centre de données ou une seule région dans le cloud. Cette section explique comment les fonctionnalités de disponibilité DE SQL Server peuvent vous aider. Toutes les fonctionnalités décrites sont disponibles aussi bien sur Windows Server que sur Linux.

Groupes de disponibilité

Les groupes de disponibilité fournissent une protection au niveau de la base de données en envoyant chaque transaction d’une base de données à une autre instance ou réplica, qui contient une copie de cette base de données dans un état spécial. Vous pouvez déployer un groupe de disponibilité sur les éditions Standard ou Enterprise. Les instances qui font partie d’un groupe de disponibilité peuvent être autonomes ou des instances de cluster de basculement (FCI, décrites dans la section suivante). Les transactions étant envoyées à un réplica à mesure qu’elles se produisent, les groupes de disponibilité sont recommandés quand il est nécessaire de baisser les objectifs de point de récupération et de délai de récupération. Le déplacement de données entre réplicas peut être synchrone ou asynchrone. L’édition Entreprise autorise jusqu'à trois réplicas synchrones (y compris le réplica principal). Un groupe de disponibilité contient une copie complète de la base de données accessible en écriture et en lecture qui se trouve sur le réplica principal. Les réplicas secondaires ne peuvent pas recevoir de transactions directement des utilisateurs finaux ou des applications.

Note

Always On est un terme général qui désigne les fonctionnalités de disponibilité dans SQL Server et inclut les groupes de disponibilité et les instances FCI. "Always On" n’est pas le nom de la fonctionnalité de "groupe de disponibilité" (AG).

Avant SQL Server 2022 (16.x), les groupes de disponibilité fournissent uniquement une protection au niveau de la base de données et non une protection au niveau de l’instance. Tout ce qui n’est pas capturé dans le journal des transactions ou configuré dans la base de données doit être synchronisé manuellement pour chaque réplica secondaire. Exemples d’objets devant être synchronisés manuellement : connexions au niveau de l’instance, serveurs liés et travaux de SQL Server Agent.

Dans SQL Server 2022 (16.x) et versions ultérieures, vous pouvez gérer les objets de métadonnées, notamment les utilisateurs, les connexions, les autorisations et les tâches de l'Agent SQL Server au niveau du groupe de disponibilité en plus du niveau de l’instance. Pour plus d’informations, consultez Qu’est-ce qu’un groupe de disponibilité autonome ?

Un groupe de disponibilité a également un autre composant qui est l’écouteur. Il permet aux applications et aux utilisateurs finaux de se connecter sans avoir besoin de connaître l’instance de SQL Server qui héberge le réplica principal. Chaque groupe de disponibilité possède son propre écouteur. Bien que les implémentations de l’écouteur soient légèrement différentes sur Windows Server et Linux, elles fournissent toutes deux les mêmes fonctionnalités et facilité d’utilisation. Le diagramme suivant montre un AG basé sur Windows Server qui utilise un cluster de basculement de Windows Server (WSFC). Un cluster sous-jacent au niveau de la couche système d’exploitation est requis pour la disponibilité, qu’il soit sur Linux ou Windows Server. L’exemple montre une configuration simple à deux serveurs, ou nœuds, où le cluster sous-jacent est un cluster WSFC.

Diagramme d’un groupe de disponibilité simple.

Les éditions Standard et Entreprise prennent chacune en charge un nombre maximal de réplicas différent. Un groupe de disponibilité dans l’édition Standard, appelé groupe de disponibilité de base, prend en charge deux réplicas (un réplica principal et un secondaire) et une seule base de données dans le groupe de disponibilité. L’édition Entreprise permet non seulement de configurer plusieurs bases de données dans un seul AG, mais prend en charge également jusqu'à neuf réplicas au total (un réplica principal et huit secondaires). L’édition Entreprise fournit d’autres avantages comme des réplicas secondaires accessibles en lecture, la possibilité d’effectuer des sauvegardes d’un réplica secondaire, et bien plus encore.

Note

La mise en miroir de bases de données, qui a été déconseillée dans SQL Server 2012 (11.x), n’est pas disponible sur la version Linux de SQL Server, ni elle n’est ajoutée. Les clients qui utilisent encore la mise en miroir de bases de données doivent planifier la migration vers les AG, qui remplacent la mise en miroir de bases de données.

En matière de disponibilité, les groupes de disponibilité peuvent fournir un basculement automatique ou manuel. Un basculement automatique peut se produire si un déplacement de données synchrone est configuré et que la base de données est synchronisée sur les réplicas principal et secondaire. Tant que l’écouteur est utilisé et que l’application utilise une version prise en charge de .NET Framework (3.5 avec Service Pack 1 ou 4.6.2 et versions ultérieures), le basculement doit être géré avec un minimum d’effet sur les utilisateurs finaux si un écouteur est utilisé. Le basculement vers un réplica secondaire pour en faire un réplica principal peut être automatique ou manuel, et est généralement mesuré en secondes.

La liste suivante met en évidence certaines différences avec les Availability Groups sur Windows Server par rapport à Linux :

En raison du fonctionnement du cluster sous-jacent sur Linux et Windows Server, tous les basculements des AG (manuels ou automatiques) sont effectués via le cluster sur Linux. Pour les déploiements de groupes de disponibilité de base Windows Server, les basculements manuels doivent être effectués via SQL Server. Les basculements automatiques sont gérés par le cluster sous-jacent sur Windows Server et Linux.

Pour SQL Server sur Linux, il est recommandé de configurer un groupe de disponibilité avec un minimum de trois réplicas, en raison du mode de fonctionnement du clustering sous-jacent.
Sur Linux, le nom commun utilisé par chaque écouteur est défini dans DNS et non dans le cluster tel qu’il se trouve sur Windows Server.

SQL Server 2017 (14.x) a introduit les fonctionnalités et améliorations suivantes pour les AGs (groupes de disponibilité) :

Types de cluster
REQUIRED_SYNCHRONIZED_SECONDARIES_TO_COMMIT
Amélioration de la prise en charge de Microsoft Distributor Transaction Coordinator (DTC) pour les configurations basées sur Windows Server
Ajout de scénarios de scale-out pour les bases de données en lecture seule (décrits plus loin dans cet article)

Types de cluster des groupes de disponibilité

La forme de disponibilité intégrée de clustering dans Windows Server est activée via une fonctionnalité nommée Clustering de basculement. Cela vous permet de créer un cluster WSFC à utiliser avec un groupe de disponibilité ou une instance FCI. SQL Server fournit des DLL de ressources prenant en charge les clusters qui fournissent une intégration pour les groupes de disponibilité et les instances de cluster.

SQL Server sur Linux prend en charge plusieurs technologies de clustering. Microsoft prend en charge les composants SQL Server, tandis que nos partenaires prennent en charge la technologie de clustering appropriée. Par exemple, avec Pacemaker, SQL Server sur Linux prend en charge HPE Serviceguard et DH2i DxEnterprise en tant que solution de cluster.

Un cluster de basculement Windows et une solution de cluster Linux sont plus similaires que différents. Tous deux permettent de combiner des serveurs individuels dans une configuration pour assurer la disponibilité et utilisent des concepts comme les ressources, les contraintes (même si elles sont implémentées différemment), le basculement, etc.

Par exemple, pour prendre en charge Pacemaker dans les configurations de groupes de disponibilité et d’instances FCI (y compris le basculement automatique), Microsoft fournit le package mssql-server-ha pour Pacemaker, qui est similaire, mais pas exactement identique, aux DLL de ressource dans un cluster WSFC. Un cluster WSFC et Pacemaker se distinguent notamment par le fait qu’aucune ressource de nom de réseau n’est incluse dans Pacemaker, car celui-ci récupère le nom de l’écouteur (ou le nom de l’instance de cluster de basculement) sur un cluster WSFC. Utilisez DNS pour la résolution de noms sur Linux.

En raison de la différence dans la pile de cluster, les groupes de disponibilité dans SQL Server 2017 (14.x) et les versions ultérieures doivent gérer certaines des métadonnées gérées en mode natif par un cluster WSFC. Par exemple, il existe trois types de clusters pour un groupe de disponibilité, qui sont stockés dans sys.availability_groups, cluster_type et cluster_type_desc colonnes :

WSFC
Externe
Aucun

Tous les groupes de disponibilité nécessitant une haute disponibilité doivent utiliser un cluster sous-jacent, ce qui, dans le cas de SQL Server 2017 (14.x) et des versions ultérieures, signifie WSFC ou un agent de clustering Linux. Pour les groupes de disponibilité (AG) basés sur Windows Server qui utilisent un cluster WSFC sous-jacent, le type de cluster par défaut est WSFC et il n'est pas nécessaire de le définir. Pour les groupes de disponibilité basés sur Linux, vous devez définir le type de cluster sur External lors de la création du groupe de disponibilité. L’intégration à une solution de cluster externe sous Linux est configurée après la création du groupe de disponibilité, tandis que sur un cluster WSFC, elle est effectuée au moment de la création.

Le type de cluster Aucun peut être utilisé avec les groupes de disponibilité Windows Server et Linux. Quand vous définissez le type de cluster sur Aucun, le groupe de disponibilité n’a pas besoin de cluster sous-jacent. Cela signifie que SQL Server 2017 (14.x) est la première version de SQL Server qui prend en charge les groupes de disponibilité sans cluster. Toutefois, cette configuration n’est pas prise en charge comme solution de haute disponibilité.

Importante

Dans SQL Server 2017 (14.x) et les versions ultérieures, vous ne pouvez pas changer le type de cluster d'un groupe de disponibilité une fois celui-ci créé. Cette restriction signifie qu’un groupe de disponibilité ne peut pas être modifié de None à External ou WSFC, et d'un type à l'autre.

Si vous souhaitez uniquement ajouter des copies en lecture seule supplémentaires d’une base de données, ou si vous souhaitez ce qu’un groupe de disponibilité fournit pour la migration et les mises à niveau, mais ne souhaitez pas gérer la complexité d’un cluster sous-jacent ou même la réplication, envisagez de configurer un groupe de disponibilité avec un type de cluster None. Pour plus d’informations, consultez les sections Migrations et mises à niveau et mise à l’échelle en lecture.

La capture d’écran suivante montre la prise en charge des différents types de clusters dans SQL Server Management Studio (SSMS). Vous devez exécuter la version 17.1 ou ultérieure. La capture d’écran suivante provient de la version 17.2 :

REQUIRED_SYNCHRONIZED_SECONDARIES_TO_COMMIT

Dans SQL Server 2016 (13.x), la prise en charge du nombre de réplicas synchrones est passée de deux à trois dans l’édition Entreprise. Toutefois, si un réplica secondaire est synchronisé, mais que l’autre réplica rencontre un problème, il n’existe aucun moyen de contrôler le comportement pour indiquer au réplica principal d’attendre le réplica comportant un problème ou de lui permettre de continuer. Dans ce scénario, le réplica principal peut toujours recevoir du trafic d’écriture même si le réplica secondaire n’est pas dans un état synchronisé, ce qui entraîne une perte de données sur le réplica secondaire.

Dans SQL Server 2017 (14.x) et versions ultérieures, vous pouvez contrôler le comportement de ce qui se passe lorsqu’il existe des réplicas synchrones avec REQUIRED_SYNCHRONIZED_SECONDARIES_TO_COMMIT. Cette option fonctionne de la façon suivante :

Il existe trois valeurs possibles : 0, 1et 2.
La valeur correspond au nombre de réplicas secondaires qui doivent être synchronisés, ce qui a des implications pour la perte de données, la disponibilité du groupe AG et le basculement.
Pour les WSFCs et un type de cluster None, la valeur par défaut est 0, et vous pouvez la définir manuellement sur 1 ou 2.
Pour un type de cluster Externe, le mécanisme de cluster définit cette valeur par défaut et vous pouvez le remplacer manuellement. Pour trois réplicas synchrones, la valeur par défaut est 1.

Sur Linux, vous configurez la valeur de la ressource du groupe de disponibilité AG REQUIRED_SYNCHRONIZED_SECONDARIES_TO_COMMIT dans le cluster. Sur Windows, vous le définissez via Transact-SQL.

Une valeur supérieure à 0 assure une meilleure protection des données, parce que si le nombre requis de répliques secondaires n’est pas disponible, la réplique principale n’est pas disponible tant que cette condition n’est pas résolue. REQUIRED_SYNCHRONIZED_SECONDARIES_TO_COMMIT affecte également le comportement de basculement, car le basculement automatique ne peut pas se produire si le nombre approprié de répliques secondaires n’est pas dans le bon état. Sur Linux, une valeur de 0 n'autorise pas le basculement automatique. Par conséquent, lors de l'utilisation synchrone avec basculement automatique sur Linux, vous devez définir la valeur à un niveau supérieur à 0 pour obtenir le basculement automatique. 0 sur Windows Server est le comportement dans SQL Server 2016 (13.x) et versions antérieures.

Amélioration de la prise en charge de Microsoft Distributed Transaction Coordinator

Avant SQL Server 2016 (13.x), la seule façon d’obtenir la disponibilité dans SQL Server pour les applications nécessitant des transactions distribuées, qui utilisent DTC sous les couvertures, était de déployer des FCI. Une transaction distribuée peut être effectuée de deux manières :

Transaction qui s’étend sur plusieurs bases de données dans la même instance SQL Server.
Une transaction qui s’étend sur plusieurs instances SQL Server ou éventuellement implique une source de données non-SQL Server.

SQL Server 2016 (13.x) a introduit la prise en charge partielle de DTC avec les groupes de disponibilité (2ème scénario). SQL Server 2017 (14.x) complète la prise en charge dans les deux scénarios avec DTC.

Dans SQL Server 2017 (14.x) et versions ultérieures, vous pouvez ajouter la prise en charge du DTC à un groupe de disponibilité après qu'il a été créé. Dans SQL Server 2016 (13.x), vous ne pouvez activer la prise en charge DTC que lors de la création d'un groupe de disponibilité.

Instances de cluster de basculement

Les instances de cluster de basculement assurent la disponibilité pour toute l’installation de SQL Server, appelée instance. Avec les instances de cluster de basculement, si le serveur sous-jacent rencontre un problème, tout ce qui se trouve à l’intérieur de l’instance est déplacé vers un autre serveur, notamment les bases de données, les tâches du SQL Server Agent, les serveurs liés, et plus encore. Toutes les FCI nécessitent un stockage partagé, même s'il est défini par le réseau. Un nœud peut s’exécuter et posséder les ressources de l’instance de cluster de basculement à tout moment donné. Dans le diagramme suivant, le premier nœud du cluster détient l'instance FCI. Il possède également les ressources de stockage partagées qui lui sont associées, comme l'indique la ligne continue menant au stockage.

Diagramme d’une instance de cluster de basculement.

Après un basculement, le droit de propriété change, comme illustré dans le diagramme suivant :

Diagramme d’une instance de basculement de cluster, après le basculement.

Une instance de cluster de basculement a zéro perte de données, mais le stockage partagé sous-jacent est un point de défaillance unique, car il existe une copie des données. Pour avoir des copies redondantes de bases de données, combinez des FCI avec une autre méthode de haute disponibilité, telle qu'un groupe de disponibilité ou l'expédition des journaux de transactions. L’autre méthode doit utiliser un stockage physiquement distinct du FCI (instance de cluster de basculement). Lorsque l’instance FCI bascule vers un autre nœud, elle s’arrête sur un nœud et démarre sur un autre. Ce processus est similaire à la mise hors tension d’un serveur et à son activation.

Une instance de cluster de basculement passe par le processus de récupération normal. Elle applique toutes les transactions qui doivent être avancées et annule toutes les transactions incomplètes. Par conséquent, la base de données reste cohérente depuis un point de données jusqu'au moment de l'échec ou du basculement manuel, ce qui empêche toute perte de données. Les bases de données ne sont disponibles qu’une fois la récupération terminée. Le temps de récupération dépend de nombreux facteurs et est généralement plus long que le basculement d’un groupe de disponibilité (AG). Le compromis est que lorsque vous basculez un groupe de disponibilité, il peut y avoir des tâches supplémentaires nécessaires pour rendre une base de données utilisable, comme l’activation d’un travail SQL Server Agent.

Note

La récupération de base de données accélérée (ADR) peut atténuer le temps de récupération. Pour plus d’informations, consultez Récupération de base de données accélérée.

Tout comme les AG, les instances FCI récupèrent le nœud du cluster sous-jacent qui les héberge. Une instance FCI conserve toujours le même nom. Les applications et les utilisateurs finaux ne se connectent jamais aux nœuds. Au lieu de cela, ils utilisent le nom unique affecté à la FCI. Une instance FCI peut participer à un groupe de disponibilité sous la forme d’une instance hébergeant un réplica principal ou secondaire.

La liste suivante met en évidence certaines différences avec les FCI sur Windows Server et Linux :

Sur Windows Server, une instance FCI fait partie du processus d’installation. Vous configurez une FCI (instance de cluster de basculement) sur Linux après avoir installé SQL Server.
Linux ne prend en charge qu'une seule installation de SQL Server par hôte, donc toutes les instances de cluster de basculement (FCI) sont des instances par défaut. Windows Server prend en charge jusqu'à 25 instances FCI par cluster WSFC.
Le nom commun utilisé par les instances FCI dans Linux est défini dans le système DNS, et doit être identique à la ressource créée pour l’instance FCI.

Copie des journaux de transaction

Si les objectifs de point de récupération et de temps de récupération sont plus flexibles, ou que les bases de données ne sont pas de la plus haute importance critique, la journalisation des transactions est une autre fonctionnalité de disponibilité éprouvée dans SQL Server. Basé sur les sauvegardes natives de SQL Server, le processus de copie des journaux de transaction génère automatiquement des sauvegardes de fichier journal, les copie dans une ou plusieurs instances appelées secours semi-automatique, et applique automatiquement les sauvegardes du fichier journal à ce secours. La copie des journaux de transaction utilise les travaux de SQL Server Agent pour automatiser le processus de sauvegarde, de copie et d’application des sauvegardes du fichier journal.

Diagramme de la copie des journaux de transaction.

Le plus grand avantage du transfert des journaux est qu'il prend en compte les erreurs humaines, car vous pouvez retarder l'application des journaux de transaction. Par exemple, si quelqu’un émet un UPDATE sans une clause WHERE, le système de secours n’a peut-être pas la modification, vous pouvez donc basculer vers celui-ci pendant que vous réparez le système principal. Bien que l'expédition de journaux soit facile à configurer, le passage du serveur primaire à un serveur de secours préchauffé, appelé changement de rôle, est toujours manuel. Vous lancez une modification de rôle via Transact-SQL et, à l'instar d'un groupe de disponibilité (AG), vous devez synchroniser manuellement tous les objets qui ne sont pas capturés dans le journal des transactions. Vous devez configurer l'expédition des journaux de transaction pour chaque base de données, tandis qu'un seul groupe de disponibilité peut contenir plusieurs bases de données.

Contrairement à un groupe de disponibilité ou à une instance FCI, la copie des journaux de transaction n’a pas d’abstraction pour un changement de rôle, que les applications doivent être en mesure de gérer. Des techniques comme l’alias DNS (CNAME) peuvent être utilisées, mais il existe des avantages et des inconvénients, par exemple, le temps que prend le système DNS pour l’actualisation après le basculement.

Récupération d'urgence

Quand votre emplacement de disponibilité principal subit un événement catastrophique comme un tremblement de terre ou une inondation, l’entreprise doit être préparée à mettre ses systèmes en ligne ailleurs. Cette section explique comment les fonctionnalités de disponibilité DE SQL Server peuvent aider à assurer la continuité de l’activité.