Procédures de maintenance du cluster de basculement

S’applique à : Azure Stack HCI, versions 22H2 et 21H2, Windows Server 2022, Windows Server 2019, Windows Server 2016

Cet article part du principe que vous devez mettre hors tension un serveur physique pour effectuer une opération de maintenance ou le redémarrer pour une raison quelconque. Pour installer des mises à jour sur un cluster Azure Stack HCI sans mettre les serveurs hors connexion, consultez Mettre à jour les clusters Azure Stack HCI.

Le fait de mettre un serveur hors connexion à des fins de maintenance implique de mettre hors connexion des parties du stockage qui sont partagées entre tous les serveurs d’un cluster de basculement. Cela nécessite de suspendre le serveur que vous souhaitez mettre hors connexion, de mettre les disques du serveur en mode maintenance, de déplacer les rôles et les machines virtuelles en cluster vers d’autres serveurs dans le cluster, et de vérifier que toutes les données sont disponibles sur les autres serveurs dans le cluster. Ce processus garantit que les données restent sécurisées et accessibles pendant la période de maintenance.

Vous pouvez utiliser Windows Admin Center ou PowerShell pour mettre un serveur hors connexion à des fins de maintenance. Cette rubrique décrit les deux méthodes.

Mettre un serveur hors connexion à l’aide de Windows Admin Center

Le moyen le plus simple de préparer un serveur hors connexion consiste à utiliser Windows Admin Center.

Vérifier qu’il est possible de mettre le serveur hors connexion sans risque

  1. À l’aide de Windows Admin Center, connectez-vous au serveur que vous voulez mettre hors connexion. Sélectionnez Stockage > Disques dans le menu Outils et vérifiez que la colonne État de chaque disque virtuel affiche En ligne.

  2. Sélectionnez ensuite Stockage > Volumes et vérifiez que la colonne Intégrité de chaque volume affiche Sain et que la colonne État de chaque volume affiche OK.

Suspendre et purger le serveur

Avant d’arrêter ou de redémarrer un serveur, vous devez suspendre le serveur et drainer (déplacer) tous les rôles en cluster, tels que les machines virtuelles qui s’exécutent dessus. Suspendez et purgez toujours les serveurs en cluster avant de les mettre hors connexion pour maintenance.

  1. À partir de Windows Admin Center, connectez-vous au cluster, puis sélectionnez Calcul > Serveurs dans le menu Outils du Gestionnaire de cluster.

  2. Sélectionnez Inventaire. Cliquez sur le nom du serveur que vous souhaitez suspendre et purger, puis sélectionnez Suspendre. L’invite suivante doit s’afficher :

    Mettre en pause le ou les serveurs pour la maintenance : voulez-vous vraiment mettre en pause le ou les serveurs ? Cela déplace les charges de travail, comme les machines virtuelles, vers d’autres serveurs du cluster.

  3. Sélectionnez Oui pour suspendre le serveur et lancer le processus de purge. L’état du serveur indique In maintenance, Draining (En maintenance, drainage), et des rôles tels que Hyper-V et Machines virtuelles commencent immédiatement à migrer vers un ou plusieurs autres serveurs se trouvant dans le cluster. ce qui peut prendre quelques minutes. Aucun rôle ne peut être ajouté au serveur tant qu’il n’a pas repris. Une fois le processus de drainage terminé, l’état du serveur est In maintenance, Drain completed (En maintenance, drainage terminé). Le système d’exploitation effectue une vérification automatique de sécurité pour garantir la poursuite sans risque des opérations. Si des volumes ne sont pas intègres, le processus s’arrête et vous êtes averti qu’il est déconseillé de continuer.

Arrêter le serveur

Une fois que le serveur a terminé le drainage, vous pouvez l’arrêter en toute sécurité pour la maintenance ou pour le redémarrer.

Avertissement

Si le serveur exécute Azure Stack HCI, version 20H2, Windows server 2019 ou Windows Server 2016, vous devez placer les disques en mode Maintenance avant d’arrêter le serveur et sortir les disques du mode Maintenance avant de reprendre l’exécution du serveur dans le cluster.

Reprendre l’exécution du serveur

Quand vous êtes prêt pour que le serveur commence à réhéberger les rôles en cluster et les machines virtuelles, il vous suffit mettre le serveur sous tension, d’attendre qu’il démarre et de reprendre son exécution en effectuant les étapes suivantes.

  1. Dans le Gestionnaire de cluster, sélectionnez Calcul > Serveurs dans le menu Outils à gauche.

  2. Sélectionnez Inventaire. Sélectionnez le nom du serveur à relancer, puis cliquez sur Reprendre.

Les rôles et les machines virtuelles en cluster commencent directement à re-migrer vers le serveur. ce qui peut prendre quelques minutes.

Attendre la resynchronisation du stockage

Quand l’exécution du serveur reprend, toute nouvelle écriture qui s’est produite alors qu’il n’était pas disponible doit être resynchronisée. Cela se produit automatiquement à l’aide du suivi intelligent des changements. Il n’est pas nécessaire que toutes les données soient analysées ou synchronisées, mais uniquement les changements. Ce processus est limité pour atténuer l’impact sur les charges de travail de production. En fonction de la durée pendant laquelle le serveur a été mis en pause et de a quantité de nouvelles données qui ont été écrites, cela peut prendre plusieurs minutes.

Important

Vous devez attendre la fin de la resynchronisation pour pouvoir mettre hors connexion d’autres serveurs du cluster.

Pour case activée si la resynchronisation du stockage est terminée :

  1. Connectez-vous au cluster à l’aide de Windows Admin Center et sélectionnez Volumes de stockage>.
  2. Sélectionnez Inventaire.
  3. Vérifiez la colonne État pour chaque volume. Si elle indique OK, la resynchronisation du stockage est terminée. Il est désormais sûr de mettre d’autres serveurs du cluster hors connexion.

Mettre un serveur hors connexion à l’aide de PowerShell

Utilisez les procédures suivantes pour correctement suspendre un serveur, le drainer et reprendre son exécution dans un cluster de basculement à l’aide de PowerShell.

Vérifier qu’il est possible de mettre le serveur hors connexion sans risque

Pour vérifier que tous vos volumes sont intègres, exécutez l’applet de commande suivante en tant qu’administrateur :

Get-VirtualDisk

Voici un exemple de ce à quoi la sortie peut ressembler :

FriendlyName              ResiliencySettingName FaultDomainRedundancy OperationalStatus HealthStatus    Size FootprintOnPool StorageEfficiency
------------              --------------------- --------------------- ----------------- ------------    ---- --------------- -----------------
Mirror II                 Mirror                1                     OK                Healthy         4 TB         8.01 TB            49.99%
Mirror-accelerated parity                                             OK                Healthy      1002 GB         1.96 TB            49.98%
Mirror                    Mirror                1                     OK                Healthy         1 TB            2 TB            49.98%
ClusterPerformanceHistory Mirror                1                     OK                Healthy        24 GB           49 GB            48.98%

Vérifiez que la propriété HealthStatus de chaque volume a la valeur Sain et qu’OperationalStatus indique OK.

Pour effectuer cette opération dans le Gestionnaire du cluster de basculement, accédez à Stockage>Disques.

Suspendre et purger le serveur

Exécutez l’applet de commande suivante en tant qu’administrateur pour suspendre et purger le serveur :

Suspend-ClusterNode -Drain

Pour effectuer ces opérations dans le Gestionnaire du cluster de basculement, accédez à Nœuds, cliquez avec le bouton droit sur le nœud concerné, puis sélectionnez Suspendre>Rôles de drainage.

Si le serveur exécute Azure Stack HCI version 21H2 ou Windows Server 2022, la mise en pause et le drainage du serveur placent également les disques du serveur en mode de maintenance. Si le serveur exécute Azure Stack HCI, version 20H2, Windows server 2019 ou Windows Server 2016, vous devrez procéder manuellement (voir l’étape suivante).

Placer les disques en mode Maintenance

Dans Azure Stack HCI, version 20H2, Windows Server 2019 et Windows Server 2016, le fait de placer les disques du serveur en mode de maintenance donne aux espaces de stockage direct la possibilité de vider et de valider normalement les données pour s’assurer que l’arrêt du serveur n’a pas d’incidence sur l’état de l’application. Dès qu’un disque passe en mode de maintenance, il n’autorise plus les écritures. Pour réduire les temps de resynchronisation du stockage, nous vous recommandons de placer les disques en mode de maintenance juste avant le redémarrage, et de les sortir du mode de maintenance dès la sauvegarde du système effectuée.

Notes

Si le serveur exécute Azure Stack HCI version 21H2 ou Windows server 2022, vous pouvez ignorer cette étape, car les disques sont automatiquement mis en mode de maintenance quand le serveur est mis en pause et drainé. Ces systèmes d’exploitation sont dotés d’une fonctionnalité de réparation précise qui rend les resynchronisations plus rapides et moins impactantes sur les ressources système et réseau, ce qui permet d’effectuer simultanément une maintenance de serveur et de stockage.

Si le serveur exécute Windows Server 2019 ou Azure Stack HCI, version 20H2, exécutez l’applet de commande suivante en tant qu’administrateur :

Get-StorageScaleUnit -FriendlyName "Server1" | Enable-StorageMaintenanceMode

Si le serveur exécute Windows Server 2016, utilisez plutôt la syntaxe suivante :

Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "Server1"} | Enable-StorageMaintenanceMode

Arrêter le serveur

Une fois le drainage du serveur terminé, il s’affiche comme Suspendu dans PowerShell et le Gestionnaire du cluster de basculement.

Vous pouvez maintenant arrêter le serveur ou le redémarrer de manière sécurisée à l’aide des applets de commande PowerShell Stop-Computer ou Restart-Computer, ou en utilisant le Gestionnaire du cluster de basculement.

Notes

Lors de l’exécution d’une commande Get-VirtualDisk sur des serveurs qui éteignent ou qui démarrent/arrêtent le service de cluster, l’état Opérationnel du serveur peut être signalé comme étant incomplet ou détérioré, et la colonne État d’intégrité peut afficher un avertissement. Ce comportement est normal et ne doit pas susciter de préoccupations. Tous vos volumes restent en ligne et accessibles.

Sortir les disques du mode Maintenance

Si le serveur exécute Azure Stack HCI, version 20H2, Windows server 2019 ou Windows Server 2016, vous devez désactiver le mode de maintenance du stockage sur les disques avant de reprendre l’exécution du serveur dans le cluster. Pour réduire les temps de resynchronisation du stockage, nous vous recommandons de les sortir du mode de maintenance dès la sauvegarde du système effectuée.

Notes

Si le serveur exécute Azure Stack HCI version 21H2 ou Windows Server 2022, vous pouvez ignorer cette étape, car les disques sont automatiquement retirés du mode de maintenance en cas de reprise du serveur.

Si le serveur exécute Windows Server 2019 ou Azure Stack HCI, version 20H2, exécutez l’applet de commande suivante en tant qu’administrateur pour désactiver le mode de maintenance du stockage :

Get-StorageScaleUnit -FriendlyName "Server1" | Disable-StorageMaintenanceMode

Si le serveur exécute Windows Server 2016, utilisez plutôt la syntaxe suivante :

Get-StorageFaultDomain -Type StorageScaleUnit | Where-Object {$_.FriendlyName -eq "Server1"} | Disable-StorageMaintenanceMode

Reprendre l’exécution du serveur

Reprenez l’exécution du serveur dans le cluster. Pour retourner les rôles en cluster et les machines virtuelles qui étaient préalablement en cours d’exécution sur le serveur, utilisez l’indicateur facultatif -Failback :

Resume-ClusterNode –Failback Immediate

Pour effectuer cette opération dans le Gestionnaire du cluster de basculement, accédez à Nœuds, cliquez avec le bouton droit sur le nœud concerné, puis sélectionnez Reprendre>Restaurer les rôles.

Dès que le serveur aura repris son activité, il s’affichera comme Actif dans PowerShell et dans le Gestionnaire du cluster de basculement.

Attendre la resynchronisation du stockage

Quand l’exécution du serveur reprend, vous devez attendre la fin de la resynchronisation pour pouvoir mettre hors connexion d’autres serveurs du cluster.

Exécutez l’applet de commande suivante en tant qu’administrateur pour superviser la progression :

Get-StorageJob

Si la resynchronisation est déjà terminée, vous n’obtenez aucune sortie.

Voici un exemple de sortie montrant des travaux de resynchronisation (réparation) toujours en cours d’exécution :

Name   IsBackgroundTask ElapsedTime JobState  PercentComplete BytesProcessed BytesTotal
----   ---------------- ----------- --------  --------------- -------------- ----------
Repair True             00:06:23    Running   65              11477975040    17448304640
Repair True             00:06:40    Running   66              15987900416    23890755584
Repair True             00:06:52    Running   68              20104802841    22104819713

La colonne BytesTotal indique la quantité de stockage à resynchroniser. La colonne PercentComplete affiche la progression.

Avertissement

Mettre un autre serveur hors connexion est une action risquée tant que ces travaux de réparation ne sont pas terminés.

Pendant ce temps, sous HealthStatus, vos volumes continuent à s’afficher comme Avertissement, ce qui est normal.

Par exemple, si vous utilisez l’applet de commande Get-VirtualDisk pendant la resynchronisation du stockage, la sortie suivante peut s’afficher :

FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach Size
------------ --------------------- ----------------- ------------ -------------- ----
MyVolume1    Mirror                InService         Warning      True           1 TB
MyVolume2    Mirror                InService         Warning      True           1 TB
MyVolume3    Mirror                InService         Warning      True           1 TB

Une fois les travaux terminés, vérifiez que les volumes s’affichent comme Sains en utilisant à nouveau l’applet de commande Get-VirtualDisk. Voici un exemple de sortie :

FriendlyName ResiliencySettingName OperationalStatus HealthStatus IsManualAttach Size
------------ --------------------- ----------------- ------------ -------------- ----
MyVolume1    Mirror                OK                Healthy      True           1 TB
MyVolume2    Mirror                OK                Healthy      True           1 TB
MyVolume3    Mirror                OK                Healthy      True           1 TB

Vous pouvez maintenant suspendre et redémarrer d’autres serveurs du cluster sans risque.

Étapes suivantes

Pour consulter des informations connexes, reportez-vous également à :