Valider un cluster Azure Stack HCI

S’applique à : Azure Stack HCI, versions 22H2 et 21H2 ; Windows Server 2022, Windows Server 2019.

Avertissement

Les instructions de déploiement fournies dans cet article s’appliquent à une version antérieure, Azure Stack HCI, version 22H2. Pour les nouveaux déploiements, nous vous recommandons d’utiliser la dernière version en disponibilité générale, Azure Stack HCI, version 23H2. Pour obtenir des instructions de déploiement, consultez À propos du déploiement d’Azure Stack HCI, version 23H2.

Valider DCB n’est plus l’outil recommandé pour configurer ou tester la configuration réseau de votre hôte sur Azure Stack HCI. Nous vous recommandons d’utiliser Network ATC pour configurer la configuration réseau de votre hôte pour Azure Stack HCI. Network ATC remplace toujours Validate DCB sur Azure Stack HCI.

Bien que l’Assistant Création d’un cluster dans Windows Admin Center effectue certaines validations pour créer un cluster opérationnel avec le matériel sélectionné, la validation du cluster procède à des vérifications supplémentaires pour garantir le bon fonctionnement du cluster dans un environnement de production. Cet article de procédure expose les raisons pour lesquelles la validation de cluster est si importante, et il explique à quel moment l’exécuter sur un cluster Azure Stack HCI.

Nous vous recommandons d’effectuer une validation de cluster dans les principaux scénarios suivants :

  • Après avoir déployé un cluster de serveurs, exécutez l’outil Validate-DCB pour tester le réseau.
  • Après avoir mis à jour un cluster de serveurs. En fonction de votre scénario, exécutez les deux options de validation pour résoudre les problèmes de cluster.
  • Après avoir configuré la réplication avec le réplica de stockage. Vérifiez que la réplication se poursuit normalement en vérifiant certains événements et en exécutant quelques commandes.
  • Après avoir créé un cluster de serveurs, exécutez l’outil Validate-DCB avant de le placer en production.

Qu’est-ce que la validation de cluster ?

La validation de cluster est conçue pour intercepter les problèmes liés au matériel ou à la configuration avant la mise en production du cluster. La validation de cluster vous permet de vérifier que la solution Azure Stack HCI que vous êtes sur le point de déployer est réellement fiable. Vous pouvez également utiliser la validation de cluster sur des clusters de basculement qui sont configurés comme un outil de diagnostic.

Scénarios de validation

Cette section aborde d’autres scénarios dans lesquels la validation est également nécessaire ou utile.

  • Validation avant la configuration du cluster :

    • Un ensemble de serveurs prêt à constituer un cluster de basculement : Il s’agit du scénario de validation le plus simple. Les composants matériels (systèmes, réseaux et stockage) sont connectés, mais les systèmes ne fonctionnent pas encore en tant que cluster. L’exécution de tests dans ce cas n’a aucun effet sur la disponibilité.

    • Machines virtuelles serveurs : Pour les serveurs virtualisés situés dans un cluster, exécutez la validation de cluster comme vous le feriez pour n’importe quel autre nouveau cluster. Pour exécuter la fonctionnalité, les exigences sont les mêmes que vous disposiez :

      • D’un « cluster hôte », où le basculement se produit entre deux ordinateurs physiques.
      • D’un « cluster invité », où le basculement se produit entre les systèmes d’exploitation invités d’un même ordinateur physique.
  • Validation après la configuration et l’utilisation du cluster :

    • Avant l’ajout d’un serveur au cluster : Lorsque vous ajoutez un serveur à un cluster, nous vous recommandons vivement de valider le cluster. Lorsque vous exécutez la validation de cluster, spécifiez les membres de cluster existants et le nouveau serveur.

    • Lors de l’ajout de lecteurs : Lorsque vous ajoutez des lecteurs au cluster (ce qui n’est pas la même chose que remplacer des lecteurs défaillants ou créer des disques virtuels ou des volumes qui reposent sur les lecteurs existants), exécutez la validation de cluster pour être sûr que le nouveau stockage fonctionnera correctement.

    • Lors de l’apport de modifications qui affectent le microprogramme ou les pilotes : Si vous effectuez une mise à niveau ou si vous apportez des modifications au cluster qui affectent le microprogramme ou les pilotes, vous devez exécuter la validation de cluster afin de vérifier que la nouvelle combinaison de matériel, microprogramme, pilotes et logiciels prend en charge la fonctionnalité de cluster de basculement.

    • Après la restauration d’un système à partir d’une sauvegarde : Après avoir restauré un système à partir d’une sauvegarde, exécutez la validation de cluster pour vérifier que le système fonctionne correctement au sein d’un cluster.

Vérifier le réseau

L’outil Validate-DCB de Microsoft est conçu pour valider la configuration DCB (Data Center Bridging) sur le cluster. Pour cela, l’outil utilise comme entrée une configuration prévue, puis teste chaque serveur du cluster. Cette section explique comment installer et exécuter l’outil Validate-DCB, comment passer en revue les résultats et comment résoudre les erreurs de réseau détectées par l’outil.

Remarque

Microsoft vous recommande de déployer et de gérer votre configuration avec le réseau ATC, ce qui permet d’éliminer la plupart des problèmes de configuration que l’outil Validate-DCB recherche. Pour en savoir plus sur Network ATC, qui fournit une approche basée sur les intentions pour héberger le déploiement de réseau, consultez Simplifier la mise en réseau des hôtes avec Network ATC.

Sur le réseau, l’accès direct à la mémoire à distance (RDMA) sur l’Ethernet convergé (RoCE) nécessite des technologies DCB pour que la structure fabric réseau ne connaisse pas de pertes. Avec iWARP, DCB est facultatif. Toutefois, la configuration de DCB peut être complexe, en exigeant notamment une configuration exacte sur :

  • Chaque serveur du cluster
  • Chaque port réseau que le trafic RDMA traverse dans la structure fabric

Prérequis

  • Les informations de configuration réseau du cluster de serveurs que vous souhaitez valider, notamment :
    • Le nom du cluster hôte ou du cluster de serveurs
    • Le nom du commutateur virtuel
    • Les noms de la carte réseau
    • Les paramètres PFC (Priority Flow Control) et les paramètres ETS (Enhanced Transmission Selection)
  • Une connexion Internet pour télécharger le module de l’outil dans Windows PowerShell à partir de Microsoft.

Installer et exécuter l’outil Validate-DCB

Pour installer et exécuter l’outil Validate-DCB :

  1. Sur votre PC de gestion, ouvrez une session Windows PowerShell en tant qu’administrateur, puis utilisez la commande suivante pour installer l’outil.

    Install-Module Validate-DCB
    
  2. Acceptez les demandes d’utilisation du fournisseur NuGet, puis accédez au dépôt pour installer l’outil.

  3. Une fois que PowerShell est connecté au réseau Microsoft pour télécharger l’outil, tapez Validate-DCB, puis appuyez sur Entrée pour démarrer l’Assistant de l’outil.

    Remarque

    Si vous ne pouvez pas exécuter le script de l’outil Validate-DCB, vous devrez peut-être ajuster vos stratégies d’exécution PowerShell. Utilisez l’applet de commande Get-ExecutionPolicy pour afficher vos paramètres de stratégie d’exécution de script actuels. Pour plus d’informations sur la configuration des stratégies d’exécution dans PowerShell, consultez À propos des stratégies d’exécution.

  4. Dans la page Welcome to the Validate-DCB configuration wizard (Bienvenue dans l’Assistant Configuration de Validate-DCB), sélectionnez Suivant.

  5. Dans la page Clusters and Nodes (Clusters et nœuds), tapez le nom du cluster de serveurs que vous souhaitez valider, sélectionnez Resolve (Résoudre) pour le lister dans la page, puis sélectionnez Next (Suivant).

    Page Clusters and Nodes de l’Assistant Configuration de Validate-DCB

  6. Dans la page Adapters (Cartes réseau) :

    1. Cochez la case vSwitch attached (Commutateur virtuel attaché), puis tapez le nom du commutateur virtuel.
    2. Sous Adapter Name (Nom de la carte réseau), tapez le nom de chaque carte réseau physique. Ensuite, sous Host vNIC Name (Nom de la carte réseau virtuelle hôte), tapez le nom de chaque carte réseau virtuelle. Enfin, sous VLAN, tapez l’ID de réseau local virtuel (VLAN) qui est utilisé pour chaque carte réseau.
    3. Développez la zone de liste déroulante RDMA Type, puis sélectionnez le protocole approprié : RoCE ou iWARP. Configurez également Jumbo Frames (Trames Jumbo) sur la valeur qui convient à votre réseau, puis sélectionnez Next.

    Page Adapters de l’Assistant Configuration de Validate-DCB

    Notes

  7. Dans la page Data Center Bridging, modifiez les valeurs pour qu’elles correspondent aux paramètres de votre organisation concernant la priorité (Priority), le nom de la stratégie (Policy Name) et la réservation de bande passante (Bandwidth Reservation), puis sélectionnez Next.

    Page Data Center Bridging de l’Assistant Configuration de Validate-DCB

    Notes

    Si vous avez sélectionné RDMA sur RoCE dans la page précédente de l’Assistant, vous aurez besoin de DCB pour garantir la fiabilité du réseau sur l’ensemble des cartes réseau et des ports de commutateur.

  8. Dans la page Enregistrer et déployer, dans la zone Chemin d’accès du fichier de configuration, enregistrez le fichier de configuration à l’aide de.ps1'extension à un emplacement où vous pourrez l’utiliser à nouveau ultérieurement si nécessaire, puis sélectionnez Exporter pour commencer à exécuter l’outil Validate-DCB.

    • Si vous le souhaitez, vous pouvez déployer votre fichier de configuration en renseignant la section Deploy Configuration to Nodes (Déployer la configuration sur les nœuds) de la page, ce qui vous permet d’utiliser un compte Azure Automation pour déployer la configuration, puis pour la valider. Pour bien démarrer avec Azure Automation, consultez Créer un compte Azure Automation.

    Page Save and Deploy (Enregistrer et déployer) de l’Assistant Configuration de Validate-DCB

Examiner les résultats et corriger les erreurs

L’outil Validate-DCB génère des résultats dans deux unités :

  1. Les résultats [Global Unit] listent les prérequis et la configuration requise pour exécuter les tests modaux.
  2. Les résultats [Modal Unit] fournissent des commentaires sur chaque configuration d’hôte de cluster et sur les bonnes pratiques.

Cet exemple montre les résultats de l’analyse réussie d’un serveur unique pour l’ensemble des preréquis et des tests unitaires modaux en indiquant un nombre d’échecs égal à 0.

Résultats des tests Global unit et Modal unit dans Validate-DCB

Les étapes suivantes montrent comment identifier une erreur de paquet Jumbo à partir d’une carte réseau virtuelle SMB02, et comment corriger cette erreur :

  1. Les résultats des analyses de l’outil Validate-DCB affichent une erreur avec un nombre d’échecs égal à 1.

    Résultats de l’analyse de l’outil Validate-DCB indiquant une erreur avec un nombre d’échecs égal à 1

  2. Si vous faites défiler les résultats, vous verrez une erreur en rouge qui indique que le paquet Jumbo pour la carte réseau virtuelle SMB02 sur l’ordinateur hôte S046036 est défini sur la taille par défaut de 1514, alors qu’il doit être défini sur une taille de 9014.

    Résultat de l’analyse de l’outil Validate-DCB indiquant une erreur concernant la taille du paquet Jumbo

  3. Quand vous consultez les propriétés avancées (Advanced) de la carte réseau virtuelle SMB02 sur l’ordinateur hôte S046036, vous voyez que le paquet Jumbo est défini sur la valeur par défaut Disabled (Désactivé).

    Paramètre concernant le paquet Jumbo dans les propriétés avancées Hyper-V de l’hôte du serveur

  4. Pour résoudre l’erreur, vous devez activer la fonctionnalité Jumbo Packet (Paquet Jumbo) et configurer sa taille sur 9 014 octets. Le fait de réexécuter l’analyse sur l’hôte S046036 confirme que la modification a bien été effectuée en retournant un nombre d’échecs égal à 0.

    Les résultats de l’analyse Validate-DCB confirment que le paramètre de paquet Jumbo de l’hôte serveur a été modifié.

Pour savoir comment résoudre les erreurs détectées par l’outil Validate-DCB, consultez la vidéo suivante.

Vous pouvez également installer l’outil en mode hors connexion. Pour les systèmes déconnectés, utilisez Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB, puis déplacez les modules dans c:\temp\Validate-DCB vers votre système déconnecté. Pour plus d’informations, regardez la vidéo suivante.

Valider le cluster

Effectuez les étapes suivantes pour valider les serveurs présents dans un cluster existant dans Windows Admin Center.

  1. Dans Windows Admin Center, sous All connections (Toutes les connexions), sélectionnez le cluster Azure Stack HCI que vous souhaitez valider, puis sélectionnez Connect.

    Le tableau de bord du Gestionnaire de clusters (Cluster Manager Dashboard) affiche des informations générales sur le cluster.

  2. Dans Cluster Manager Dashboard, sous Tools (Outils), sélectionnez Servers (Serveurs).

  3. Dans la page Inventory (Inventaire), sélectionnez les serveurs du cluster, développez le sous-menu More, puis sélectionnez Validate cluster (Valider le cluster).

  4. Dans la fenêtre contextuelle Validate Cluster (Valider le cluster), sélectionnez Yes.

    Fenêtre contextuelle de validation du cluster

  5. Dans la fenêtre contextuelle Credential Security Service Provider (CredSSP) , sélectionnez Yes.

  6. Indiquez vos informations d’identification pour activer CredSSP, puis sélectionnez Continue.
    La validation de cluster s’exécute en arrière-plan, et une notification s’affiche lorsque celle-ci est terminée. Vous pouvez alors voir le rapport de validation, comme décrit dans la section suivante.

Remarque

Une fois que vos serveurs de cluster ont été validés, vous devez désactiver CredSSP pour des raisons de sécurité.

Désactiver CredSSP

Une fois votre cluster de serveurs correctement validé, vous devez désactiver le protocole CredSSP sur chaque serveur pour des raisons de sécurité. Pour plus d’informations, consultez CVE-2018-0886.

  1. Dans Windows Admin Center, sous All connections (Toutes les connexions), sélectionnez le premier serveur de votre cluster, puis sélectionnez Connect.

  2. Dans la page Overview (Vue d’ensemble), sélectionnez Disable CredSSP (Désactiver CredSSP), puis, dans la fenêtre contextuelle Disable CredSSP, sélectionnez Yes.

    Le résultat de l’étape 2 supprime la bannière rouge CredSSP ENABLED située en haut de la page Overview du serveur, et désactive CredSSP sur les autres serveurs.

Afficher le rapport de validation

Vous êtes maintenant prêt à afficher le rapport de validation de votre cluster.

Il existe plusieurs façons d’accéder aux rapports de validation :

  • Dans la page Inventory (Inventaire), développez le sous-menu More, puis sélectionnez View validation reports (Afficher les rapports de validation).

  • En haut à droite de Windows Admin Center, sélectionnez l’icône des Notifications représentant une cloche afin d’afficher le volet Notifications. Sélectionnez la notification Successfully validated cluster (Cluster validé), puis sélectionnez Go to Failover Cluster validation report (Accéder au rapport de validation du cluster de basculement).

Remarque

Le processus de validation du cluster de serveurs peut prendre un certain temps. Ne passez pas à un autre outil dans Windows Admin Center pendant l’exécution du processus. Dans le volet Notifications, une barre d’état située sous la notification Validate cluster (valider le cluster) indique quand le processus est terminé.

Valider le cluster à l’aide de PowerShell

Vous pouvez également utiliser Windows PowerShell pour exécuter des tests de validation sur votre cluster de serveurs et afficher les résultats. Vous pouvez exécuter des tests avant et après avoir configuré un cluster.

Pour exécuter un test de validation sur un cluster de serveurs, exécutez les applets de commande PowerShell Get-Cluster et Test-Cluster<nom du cluster de serveurs> à partir de votre PC de gestion, ou exécutez uniquement l’applet de commande Test-Cluster directement sur le cluster :

$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose

Pour obtenir des exemples et plus d’informations, consultez la documentation de référence sur Test-Cluster.

Test-NetStack est un outil de test basé sur PowerShell disponible à partir de GitHub que vous pouvez utiliser pour effectuer des tests de trafic ICMP, TCP et RDMA de réseaux et pour identifier la structure potentielle de réseau et les défaillances de configuration de l’hôte ou l’instabilité opérationnelle. Test-NetStack permet de valider les chemins de données réseau en testant les chemins de données réseau natifs, synthétiques et en mode de déchargement matériel (RDMA) pour les problèmes de connectivité, de fragmentation des paquets, de faible débit et de congestion.

Valider la réplication pour un réplica de stockage

Si vous utilisez un réplica de stockage pour répliquer des volumes dans un cluster étendu ou un cluster à cluster, vous pouvez utiliser plusieurs événements et applets de commande pour obtenir l’état de la réplication.

Dans le scénario suivant, nous avons configuré le réplica de stockage en créant des groupes de réplication (RG) pour deux sites, puis nous avons spécifié les volumes de données et les volumes de journaux pour les nœuds de serveur source de Site1 (Server1, Server2) et les nœuds de serveur de destination (répliqués) de Site2 (Server3, Server4).

Pour déterminer la progression de la réplication pour Server1 dans Site1, exécutez la commande WinEvent et examinez les événements 5015, 5002, 5004, 1237, 5001 et 2200 :

Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20

Pour Server3 dans Site2, exécutez la commande Get-WinEvent suivante pour afficher les événements du réplica de stockage qui indiquent la création du partenariat. Cet événement indique le nombre d’octets copiés, ainsi que la durée de l’opération de copie. Par exemple :

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL

Pour Server3 dans Site2, exécutez la commande Get-WinEvent, puis examinez les événements 5009, 1237, 5001, 5015, 5005 et 2200 pour voir la progression du traitement. Aucun avertissement ni aucune erreur ne doivent s’afficher durant cette séquence. En revanche, il y aura de nombreux événements 1237 , car ils indiquent la progression.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Sinon, vous pouvez interroger à tout moment le groupe de serveurs de destination du réplica pour connaître le nombre d’octets restants à copier, en utilisant la commande PowerShell Get-SRGroup. Par exemple :

(Get-SRGroup).Replicas | Select-Object numofbytesremaining

Pour le nœud Server3 dans Site2, exécutez la commande suivante, puis examinez les événements 5009, 1237, 5001, 5015, 5005 et 2200 pour voir la progression de la réplication. Aucun avertissement ni aucune erreur ne doivent s’afficher. Toutefois, il y aura de nombreux événements « 1237 », car ceux-ci indiquent la progression.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Script de progression qui ne se termine pas :

while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}

Pour accéder à l’état de réplication au sein du cluster étendu, utilisez Get-SRGroup et Get-SRPartnership :

Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1

Une fois que la réplication des données entre les sites a été confirmée, vous pouvez créer vos machines virtuelles, ainsi que d’autres charges de travail.

Voir aussi