Gérer le cycle de vie des machines nues

Article
10/16/2024

Cet article explique comment effectuer des opérations de gestion du cycle de vie sur des machines nues (BMM). Ces étapes doivent être utilisées pour résoudre les problèmes liés aux défaillances ou lors de l’exécution d’actions de maintenance. Les commandes permettant de gérer le cycle de vie du BMM sont les suivantes :

Attention

N’effectuez aucune action sur les serveurs d’administration sans avoir consulté au préalable le Support Microsoft. Cela peut affecter l’intégrité du cluster Nexus opérateur.

Arrêter la BMM
Démarrer la BMM
Redémarrer la BMM
Rendre la BMM non planifiée (cordon sans évacuation)
Rendre la BMM non planifiée (cordon avec évacuation)
Rendre la BMM planifiée (uncordon)
Réimager la BMM
Remplacer la BMM

Important

Les requêtes de commandes disruptives sur un nœud KCP (plan de contrôle Kubernetes) sont rejetées si une autre commande d’action disruptive est déjà en cours d’exécution sur un autre nœud KCP, ou si le KCP complet n’est pas disponible. Cette vérification vise à maintenir l’intégrité de l’instance Nexus et à éviter que plusieurs nœuds KCP cessent d’être opérationnels en même temps à la suite d’actions disruptives simultanées. Si plusieurs nœuds cessent d’être opérationnels, le seuil de quorum sain du plan de contrôle Kubernetes est rompu.

Les actions en gras de la liste ci-dessus sont considérées comme perturbatrices (arrêt, redémarrage, reimage, remplacement). Cordon sans évacuation n’est pas considéré comme perturbant. Cordon avec évacuation est considéré comme perturbant.

Comme indiqué dans l’instruction de mise en garde, l’exécution d’actions sur les serveurs d’administration, en particulier les nœuds KCP, ne doit être effectuée qu’en consultation avec le personnel du support technique De Microsoft.

Prérequis

Installez la dernière version des extensions Azure CLI appropriées.
Obtenez le nom du groupe de ressources pour le nom du groupe de ressources managé par le cluster BMM (cluster_MRG) .
Obtenez le nom de la machine nue qui nécessite une opération de gestion du cycle de vie.
Vérifiez que la machine nue cible poweredState est définie sur On et readyState est définie sur True.
1. Cette condition préalable n’est pas applicable à la commande start.

Arrêter la BMM

Cette commande va power-off la bareMetalMachineName spécifiée.

az networkcloud baremetalmachine power-off \
  --name "bareMetalMachineName"  \
  --resource-group "cluster_MRG"

Démarrer la BMM

Cette commande va start la bareMetalMachineName spécifiée.

az networkcloud baremetalmachine start \
  --name "bareMetalMachineName" \
  --resource-group "cluster_MRG"

Redémarrer la BMM

Cette commande va restart la bareMetalMachineName spécifiée.

az networkcloud baremetalmachine restart \
  --name "bareMetalMachineName" \
  --resource-group "cluster_MRG"

Rendre une BMM non planifiée (cordon)

Vous pouvez rendre une BMM non planifiée en exécutant la commande cordon. Lors de l’exécution de la commande cordon, les charges de travail Nexus de l’opérateur ne sont pas planifiées sur le BMM lorsque le cordon est défini ; toute tentative de création d’une charge de travail sur une BMM cordoned entraîne la définition de la charge de travail définie sur l’état pending. Les charges de travail existantes continuent d’être exécutées. La commande cordon prend en charge un paramètre evacuate avec la valeur False par défaut. Lors de l’exécution de la commande cordon, avec la valeur True du paramètre evacuate, les charges de travail qui s’exécutent sur la BMM sont stopped et la BMM est définie sur l’état pending.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name "bareMetalMachineName" \
  --resource-group "cluster_MRG"

La evacuate "True" supprime des charges de travail de ce nœud pendant que evacuate "False" empêche uniquement la planification de nouvelles charges de travail.

Faire une BMM « planifiée » (uncordon)

Vous pouvez rendre une BMM « planifiée » (utilisable) en exécutant la commande uncordon. Toutes les charges de travail dans un état pending sur la BMM sont restarted lorsque la BMM est uncordoned.

az networkcloud baremetalmachine uncordon \
  --name "bareMetalMachineName" \
  --resource-group "cluster_MRG"

Reimager une BMM

Vous pouvez restaurer la version du runtime sur une BMM en exécutant la commande reimage. Ce processus redéploie l’image runtime sur la BMM cible et exécute les étapes permettant de rejoindre le cluster avec les mêmes identificateurs. Cette action n’affecte pas les fichiers de charge de travail du locataire sur cette BMM. Si une action d'écriture ou de modification est effectuée sur le nœud via l'accès BMM, cette action de "réimage" est nécessaire pour rétablir la prise en charge par Microsoft et les modifications seront perdues, ce qui ramènera le nœud à son état normal. En guise de bonne pratique, assurez-vous que les charges de travail de BMM sont vidées à l’aide de la commande cordon, avec evacuate "True", avant d’exécuter la commande reimage.

Avertissement

L’exécution de plusieurs commandes baremetalmachine replace ou reimage en même temps, ou l’exécution de replace en même temps qu’une reimage laisse des serveurs dans un état non opérationnel. Assurez-vous qu’un replace/reimage est entièrement terminé avant de commencer un autre.

az networkcloud baremetalmachine reimage \
  –-name "bareMetalMachineName"  \
  --resource-group "cluster_MRG"

Remplacer BMM

Utilisez la commande replace lorsqu’un serveur rencontre des problèmes matériels nécessitant un remplacement complet ou partiel du matériel. Après le remplacement de composants tels que la carte mère ou la carte d’interface réseau (NIC), l’adresse MAC de BMM change, mais l’adresse IP iDRAC et le nom d’hôte restent les mêmes.