Partager via


Réparer un nœud sur Azure Local

S’applique à : Azure Local 2311.2 et les versions ultérieures

Cet article explique comment réparer un nœud sur votre instance Locale Azure. Dans cet article, chaque serveur est appelé nœud.

À propos des nœuds de réparation

Azure Local est un système hyperconvergé qui vous permet de réparer des nœuds à partir de systèmes existants. Vous devrez peut-être réparer un nœud dans un système en cas de défaillance matérielle.

Avant de réparer un nœud, veillez à vérifier auprès de votre fournisseur de solutions quels composants sur le nœud sont des unités de remplacement de champ (FRU) que vous pouvez remplacer vous-même et quels composants exigeraient qu’un technicien remplace.

Les parties qui prennent en charge l’échange à chaud ne nécessitent généralement pas de réimager le nœud contrairement aux composants non permutables à chaud tels que la carte mère. Consultez votre fabricant de matériel pour déterminer quels remplacements de composants vous obligeraient à réimager le nœud. Pour plus d’informations, consultez Remplacement du composant.

Réparer le flux de travail du nœud

Le diagramme de flux suivant montre le processus global de réparation d’un nœud.

Diagramme illustrant le processus de nœud de réparation.

*Le nœud peut ne pas être dans un état où l’arrêt est possible ou nécessaire*

Pour réparer un nœud existant, procédez comme suit :

  1. Si possible, arrêtez le nœud que vous souhaitez réparer. Selon l’état du nœud, un arrêt peut ne pas être possible ou nécessaire.

  2. Réimagez le nœud qui doit être réparé.

  3. Exécutez l’opération de réparation du nœud. Le système d’exploitation, les pilotes et le microprogramme Azure Stack HCI sont mis à jour dans le cadre de l’opération de réparation.

    Le stockage est rééquilibré automatiquement sur le nœud réimagené. Le rééquilibrage du stockage est une tâche de faible priorité qui peut s’exécuter pendant plusieurs jours en fonction du nombre de nœuds et du stockage utilisé.

Scénarios pris en charge

La réparation d’un nœud réimage un nœud et le réintègre au système avec le nom et la configuration précédents.

La réparation d’un nœud unique entraîne un redéploiement avec l’option permettant de conserver les volumes de données. Seul le volume système est supprimé et nouvellement provisionné pendant le déploiement.

Importante

Assurez-vous que vous disposez toujours de sauvegardes pour vos charges de travail et ne vous fiez pas uniquement à la résilience du système. Cela est particulièrement critique dans les scénarios à nœud unique.

Paramètres de résilience

Dans cette version, lors d'une opération de réparation de nœud, des tâches spécifiques ne sont pas effectuées sur les volumes de travail que vous avez créés après le déploiement. Pour une opération de nœud de réparation, seuls les volumes d’infrastructure requis et les volumes de charge de travail sont restaurés et exposés en tant que volumes partagés de cluster (CSV).

Les autres volumes de charge de travail que vous avez créés après le déploiement sont toujours conservés et vous pouvez les découvrir en exécutant l’applet de commande Get-VirtualDisk. Vous devez déverrouiller manuellement le volume (si bitLocker est activé) et créer un fichier CSV (si nécessaire).

Configuration matérielle requise

Lors de la réparation d’un nœud, le système valide le matériel du nouveau nœud entrant et garantit que le nœud répond à la configuration matérielle requise avant son ajout au système.

Composant Vérification de conformité
UC Vérifiez que le nouveau nœud a le même nombre de cœurs de CPU ou plus. Si les cœurs du processeur sur le nœud entrant ne répondent pas à cette exigence, un avertissement est présenté. L’opération est toutefois autorisée.
Mémoire Vérifiez que le nouveau nœud a la même quantité de mémoire installée ou plus. Si la mémoire sur le nœud entrant ne répond pas à cette exigence, un avertissement est présenté. L’opération est toutefois autorisée.
Lecteurs Vérifiez que le nouveau nœud a le même nombre de disques de données disponibles pour les Storage Spaces Direct. Si le nombre de lecteurs sur le nœud entrant ne répond pas à cette exigence, une erreur est signalée et l’opération est bloquée.

Remplacement de nœud

Vous pouvez remplacer l’intégralité du nœud :

  • Avec un nouveau nœud qui a un numéro de série différent par rapport à l’ancien nœud.
  • Avec le nœud actuel après l’avoir réimagé.

Les scénarios suivants sont pris en charge lors du remplacement du nœud :

Nœud Disque Pris en charge
Nouveau nœud Nouveaux disques Oui
Nouveau nœud Disques actuels Oui
Nœud actuel (réimagé) Nouveaux disques Oui
Nœud actuel (réimagé) Disques actuels Oui
Nœud actuel (réimagé) Disques de données actuels reformatés Non

Importante

Si vous remplacez un composant pendant la réparation du nœud, vous n’avez pas besoin de remplacer ou de réinitialiser les lecteurs de données. Si vous remplacez un lecteur ou réinitialisez-le, le lecteur ne sera pas reconnu une fois que le nœud rejoint le système.

Remplacement de composants

Sur votre instance Locale Azure, les composants non permutables à chaud incluent les éléments suivants :

  • Contrôleur de gestion de la carte mère/carte de base (BMC)/carte vidéo
  • Contrôleur de disque/adaptateur ou carte de bus hôte (HBA)/fond de panier
  • Carte réseau
  • Unité de traitement graphique
  • Lecteurs de données (ne prenant pas en charge l’échange à chaud, tels que les cartes complémentaires PCI-e)

Les étapes de remplacement réelles pour les composants non permutables à chaud varient en fonction de votre fabricant de matériel oem (OEM). Consultez la documentation de votre fournisseur OEM si une réparation de nœud est requise pour les composants non permutables à chaud.

Prérequis

Avant de réparer un nœud, vous devez vous assurer que :

  • AzureStackLCMUser est actif dans Active Directory. Pour plus d’informations, consultez Préparer Active Directory.
  • Connecté en tant qu’utilisateur AzureStackLCMUser ou un autre utilisateur disposant d’autorisations équivalentes.
  • Les informations d’identification pour le AzureStackLCMUser n’ont pas changé.

Réparer un nœud

Cette section explique comment réparer un nœud à l’aide de PowerShell, surveiller l’état de l’opération Repair-Server et résoudre les problèmes, s’il existe des problèmes.

Vérifiez que vous avez examiné les conditions préalables.

Suivez ces étapes sur le nœud que vous essayez de réparer.

  1. Connectez-vous au portail Azure avec les autorisations de rôle Administrateur Azure Stack HCI.

    1. Accédez au groupe de ressources utilisé pour déployer votre instance Azure Local. Dans le groupe de ressources, identifiez la ressource de machine Azure Arc pour le nœud défectueux que vous souhaitez réparer.

    2. Dans la ressource de machine Azure Arc, accédez à Paramètres> Verrous. Dans le volet droit, vous verrez un verrou de ressource.

    3. Sélectionnez le verrou, puis l'icône de la corbeille pour le supprimer.

      Capture d’écran de la suppression du verrou de ressource sur le nœud de machine Azure Arc défectueux.

    4. Dans la page Vue d’ensemble de la ressource de machine Azure Arc, dans le volet droit, sélectionnez Supprimer. Cette action devrait supprimer le nœud de machine défectueux.

      Capture d’écran de la suppression du nœud de machine Azure Arc défectueux.

  2. Installez le système d'exploitation et les pilotes requis sur le nœud que vous souhaitez réparer. Suivez les étapes décrites dans Installer le système d’exploitation Azure Stack HCI, version 23H2.

    Remarque

    • Pour les versions 2503 et ultérieures, vous devez utiliser l’image du système d’exploitation de la même solution que celle exécutée sur le cluster existant.
    • Utilisez la fonction Obtenir la version de la solution pour identifier la version que vous exécutez sur le cluster.
    • Utilisez la table d’images du système d’exploitation pour identifier et télécharger la version appropriée de l’image du système d’exploitation.
  3. Inscrivez le nœud auprès d’Arc. Suivez les étapes de l’inscription auprès d’Arc et configurez les autorisations.

    Remarque

    Vous devez utiliser les mêmes paramètres que les nœuds existants pour vous inscrire auprès d’Arc. Par exemple : nom du groupe de ressources, région, abonnement et locataire.

  4. Affectez les autorisations suivantes au nœud réparé :

Suivez ces étapes sur un autre nœud membre de la même instance Locale Azure.

  1. Connectez-vous au nœud qui est déjà membre du système, avec les informations d’identification de l’utilisateur de domaine que vous avez fournies pendant le déploiement du système. Exécutez la commande suivante pour réparer le nœud entrant :

    $Cred = Get-Credential 
    Repair-Server -Name "<Name of the new node>" -LocalAdminCredential $Cred
    

    Remarque

    Le nom du nœud doit être le nom NetBIOS. Le paramètre LocalAdminCredential par défaut, est le compte administrateur intégré créé par l'installation du système d'exploitation Windows.

  2. Notez l'ID d'opération tel que généré par la commande Repair-Server. Vous l’utilisez ultérieurement pour surveiller la progression de l’opération Repair-Server .

Surveiller la progression de l’opération

Pour surveiller la progression de l’opération d’ajout de nœud, procédez comme suit :

  1. Exécutez l’applet de commande suivante et fournissez l’ID d’opération de l’étape précédente.

    $ID = "<Operation ID>" 
    Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID 
    
  2. Une fois l’opération terminée, le travail de rééquilibrage du stockage en arrière-plan continuera à s’exécuter. Attendez que le travail de rééquilibrage du stockage se termine. Pour vérifier la progression de ce travail de rééquilibrage du stockage, utilisez l’applet de commande suivante :

    Get-VirtualDisk|Get-StorageJob
    

    Si le travail de rééquilibrage du stockage est terminé, l’applet de commande ne retourne pas de sortie.

Scénarios de récupération

Les scénarios de récupération suivants et les étapes d’atténuation recommandées sont tabulées pour réparer un nœud :

Description du scénario Limitation des risques Pris en charge ?
Échec de l’opération de réparation du nœud. Pour terminer l’opération, examinez l’échec.
Réexécutez l'opération ayant échoué à l'aide de Repair-Server -Rerun.
Oui
L’opération de réparation du nœud a réussi partiellement, mais a dû commencer par une nouvelle installation du système d’exploitation. Dans ce scénario, l’orchestrateur (également appelé Gestionnaire de cycle de vie) a déjà mis à jour sa base de connaissances avec le nouveau nœud. Utilisez le scénario de réparation de nœud. Oui

Résoudre les problèmes

À compter de la version 2508, la validation s’exécute après l’exécution de la Repair-Server commande. Si un test échoue, le validateur retourne des informations pour vous aider à résoudre l’échec.

Voici un exemple de message d’échec de validation :

Capture d’écran du message d’erreur de validation.

Si vous rencontrez des échecs ou des erreurs lors de la réparation d’un nœud, vous pouvez capturer la sortie des défaillances dans un fichier journal.

  • Connectez-vous avec les informations d’identification de l’utilisateur de domaine que vous avez fournies pendant le déploiement du système. Capturez le problème dans les fichiers de journal.

    Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
    
  • Pour réexécuter l’opération ayant échoué, utilisez l’applet de commande suivante :

    Repair-Server -Rerun
    

Si vous rencontrez un problème pendant l’opération de nœud de réparation et que vous avez besoin d’aide du support Microsoft, vous pouvez suivre les étapes décrites dans Collect diagnostic logs for Azure Local (préversion) pour collecter et envoyer des journaux de diagnostic à Microsoft.

Vous devrez peut-être fournir les logs de diagnostic à partir du nœud sous réparation. Veillez à exécuter l’applet Send-DiagnosticData de commande à partir de ce nœud.

Étapes suivantes

En savoir plus sur l’ajout d’un nœud.