Compartir a través de


Procedimientos recomendados para operaciones de equipo sin sistema operativo

En este artículo se proporcionan prácticas recomendadas para las operaciones de gestión del ciclo de vida de Bare Metal Machine (BMM). El objetivo es resaltar los problemas comunes y los requisitos previos esenciales.

Leer avisos legales importantes

Precaución

No realice ninguna acción en los servidores de plano de control o administración sin consultar primero con el personal de soporte técnico de Microsoft, lo que podría afectar a la integridad del clúster de Operator Nexus.

Importante

Se rechazan varias solicitudes de comandos disruptivas en un nodo del plano de control de Kubernetes (KCP). Esta comprobación se realiza para mantener la integridad de la instancia del clúster Nexus y evitar que varios nodos KCP no sean operativos a la vez debido a acciones disruptivas simultáneas. Los comandos de acción perjudicial rechazados pueden deberse a que ya se ejecuten en otro nodo KCP o si el KCP completo no está disponible. Si varios nodos se vuelven no operativos, se interrumpe el umbral de cuórum correcto del plano de control de Kubernetes.

Las acciones enumeradas se consideran perjudiciales para BareMetal Machines (BMM):

  • Apagar un BMM
  • Reiniciar un BMM
  • Anulación de la programación de un equipo sin sistema operativo (acordonamiento con evacuación, se drena el nodo)
  • Restablecer la imagen inicial de un BMM
  • Reemplazar un BMM

Dejando solo las acciones no disruptivas:

  • Inicio de un BMM
  • Hacer que un BMM no se pueda programar (cordón sin evacuar, no desagüe el nodo)
  • Convertir el BMM en programable (desacordonamiento)

Prerrequisitos

  1. Instale la versión más reciente de las extensiones de la CLI adecuadas.
  2. Solicite acceso para ejecutar los comandos de extensión de la CLI en la nube de red (NF) y el tejido de red Nexus network Fabric (NF).
  3. Inicie sesión en la CLI de Azure y seleccione la suscripción en la que se implementa el clúster.
  4. Recopile la siguiente información:
    • Identificador de suscripción (SUBSCRIPTION)
    • Nombre del clúster (CLUSTER)
    • Grupo de recursos (CLUSTER_RG)
    • Grupo de recursos administrados (CLUSTER_MRG): los recursos de BareMetal Machines (BMM) están presentes en el grupo de recursos administrado
    • Nombre del equipo sin sistema operativo (BMM_NAME) que requiere operaciones de administración del ciclo de vida

Identificar el enfoque correctivo adecuado

La solución de problemas técnicos requiere un enfoque sistemático. Un método eficaz consiste en empezar con la solución menos invasiva y, si es necesario, trabajar hasta medidas más complejas y potencialmente perjudiciales. Tenga en cuenta que estos métodos de solución de problemas podrían no ser siempre eficaces para todos los escenarios y tener en cuenta otros factores podría requerir un enfoque diferente. Por esta razón, es esencial comprender bien las opciones disponibles al solucionar problemas de un equipo sin sistema operativo para determinar la acción correctiva más adecuada.

Consejos generales al solucionar problemas

  • Familiarícese con la documentación pertinente, incluidas las guías de solución de problemas y los artículos de procedimientos. Consulte siempre la documentación más reciente para mantenerse informado sobre los procedimientos recomendados y las actualizaciones.
  • Evite las operaciones erróneas repetidas intentando identificar primero la causa principal del error antes de volver a intentar la operación. Realice reintentos en pasos incrementales para aislar y solucionar problemas específicos.
  • Espere a que los comandos de la CLI de Az se ejecuten hasta la finalización y valide el estado del recurso de equipo sin sistema operativo antes de ejecutar otros pasos.
  • Compruebe que las versiones de firmware y software están actualizadas antes de una nueva implementación desde cero para evitar problemas de compatibilidad entre las versiones de hardware y software. Para obtener más información sobre la compatibilidad de firmware, consulte Operator Nexus Platform Prerequisites( Requisitos previos de la plataforma Nexus).
  • Compruebe que las credenciales de iDRAC son correctas y que el equipo sin sistema operativo está encendido.

Examine el estado general de conectividad de red.

Asegúrese de una conectividad de red estable para evitar interrupciones durante el proceso. Ignorar la estabilidad de la red podría hacer que las operaciones no se completen correctamente y dejar una máquina Bare Metal en un estado de error o degradado.

Un vistazo rápido al recurso clusterConnectionStatus de clúster sirve como un indicador del estado de conectividad de red.

az networkcloud cluster show \
  -g $CLUSTER_MRG \
  -n $BMM_NAME \
  --subscription $SUBSCRIPTION \
  --query "clusterConnectionStatus" \
  -o table

Result
---------
Connected

Eche un vistazo más profundo a los recursos de NetworkFabric comprobando los estados de los recursos de NetworkFabric, las alertas y las métricas. Consulte artículos relacionados:

Evalúe las advertencias de equipo sin sistema operativo o las condiciones degradadas que podrían indicar la necesidad de resolver problemas de configuración de hardware, red o servidor. Para más información, vea Solución de errores de estado degradados en equipos sin sistema operativo y Solución de problemas de estado de advertencia en equipos sin sistema operativo.

Determinar si se están ejecutando trabajos de actualización de firmware

Compruebe que no haya ningún trabajo de actualización de firmware en ejecución a través del BMC antes de iniciar una operación replace o reimage. La interrupción de una actualización de firmware en curso puede dejar la Máquina Bare Metal en un estado inconsistente.

  • Puede ver en la GUI de iDRAC jobqueue o usar run-read-commandracadm jobqueque view para determinar si hay trabajos de actualización de firmware en ejecución.
  • Para obtener más información sobre la funcionalidad run-read-command, consulte Bare Metal Run-Read Execution.
az networkcloud baremetalmachine run-read-command \
  -g $CLUSTER_MRG \
  -n $BMM_NAME \
  --subscription $SUBSCRIPTION \
  --limit-time-seconds 60 \
  --commands "[{command:'nc-toolbox nc-toolbox-runread racadm jobqueue view'}]" \
  --output-directory .

Esta es una salida de ejemplo del racadm jobqueue view comando que muestra Firmware Update.

[Job ID=JID_833540920066]
Job Name=Firmware Update: iDRAC
Status=Downloading
Start Time= [Not Applicable]
Expiration Time= [Not Applicable]
Message= [RED001: Job in progress.]
Percent Complete= [50%]

Esta es una salida de ejemplo del comando racadm jobqueue view en la que se muestra declaraciones comunes de acceso positivo.

-------------------------JOB QUEUE------------------------
[Job ID=JID_429400224349]
Job Name=Configure: Import Server Configuration Profile
Status=Completed
Scheduled Start Time=[Not Applicable]
Expiration Time=[Not Applicable]
Actual Start Time=[Tue, 25 Mar 2025 17:00:22]
Actual Completion Time=[Tue, 25 Mar 2025 17:00:32]
Message=[SYS053: Successfully imported and applied Server Configuration Profile.]
Percent Complete=[100]
----------------------------------------------------------
[Job ID=JID_429400338344]
Job Name=Export: Server Configuration Profile
Status=Completed
Scheduled Start Time=[Not Applicable]
Expiration Time=[Not Applicable]
Actual Start Time=[Tue, 25 Mar 2025 17:00:33]
Actual Completion Time=[Tue, 25 Mar 2025 17:00:58]
Message=[SYS043: Successfully exported Server Configuration Profile]
Percent Complete=[100]

Supervisión del progreso mediante run-read-command

En la versión 2506.2 y posteriores, puede supervisar el progreso de las acciones de máquinas de equipo sin sistema operativo de ejecución prolongada mediante run-read-command.

  • Algunas acciones de larga duración, como Replace o Reimage , se componen de varios pasos, por ejemplo, Hardware Validation, Deprovisioningo Provisioning.
  • A continuación run-read-command se muestra cómo ver los distintos pasos de cada acción y el progreso o estado de cada paso, incluidos los posibles errores.
  • Esta información está disponible en el recurso de Kubernetes BareMetalMachine durante o después de que se complete la acción.
  • Para obtener más información sobre la run-read-commandcaracterística, consulte Ejecución de lectura de ejecución de BareMetal.

Ejemplo run-read-command para ver el progreso de la acción en la máquina sin sistema operativo rack2compute08:

az networkcloud baremetalmachine run-read-command \
  -g <ResourceGroup_Name> \
  -n <Control Node BMM Name> \
  --limit-time-seconds 60 \
  --commands "[{command:'kubectl get',arguments:[-n,nc-system,bmm,rack2compute08,-o,json]}]" \
  --output-directory .

Salida de ejemplo para una acción Reemplazar:

[
  {
    "correlationId": "961a6154-4342-4831-9693-27314671e6a7",
    "endTime": "2025-05-15T21:20:44Z",
    "startTime": "2025-05-15T20:16:19Z",
    "status": "Completed",
    "stepStates": [
      {
        "endTime": "2025-05-15T20:25:51Z",
        "name": "Hardware Validation",
        "startTime": "2025-05-15T20:16:19Z",
        "status": "Completed"
      },
      {
        "endTime": "2025-05-15T20:26:21Z",
        "name": "Deprovisioning",
        "startTime": "2025-05-15T20:25:51Z",
        "status": "Completed"
      },
      {
        "endTime": "2025-05-15T21:20:44Z",
        "name": "Provisioning",
        "startTime": "2025-05-15T20:26:21Z",
        "status": "Completed"
      }
    ],
    "type": "Microsoft.NetworkCloud/bareMetalMachines/replace"
  }
]

Procedimientos recomendados para el cambio de imagen de un equipo sin sistema operativo

La acción reimage del equipo sin sistema operativo se explica en Comandos de administración del ciclo de vida de equipos sin sistema operativo y en los procedimientos de escenario descritos en Resolución de problemas del servidor Azure Operator Nexus.

Advertencia

No ejecute más de un baremetalmachine replace comando o reimage al mismo tiempo para el mismo recurso de BareMetal Machine (BMM). La ejecución de replace al mismo tiempo que reimage deja los servidores en un estado no operativo. Asegúrese de que replace/reimage en el equipo sin sistema operativo se completen antes de iniciar otro. Además, evite ejecutar acciones secuenciales reimage en un BMM que acaba de completar una replace acción a menos que se realice la operación de mantenimiento especificada.

Puede restaurar la versión del runtime del sistema operativo en un equipo sin sistema operativo si ejecuta el comando reimage. Un equipo sin sistema operativo reimage puede ahorrar tiempo y ser confiable para resolver problemas o restaurar el software del sistema operativo a un estado correcto conocido. Este proceso vuelve a implementar la imagen del runtime en el equipo sin sistema operativo de destino y ejecuta los pasos para volver a unir el clúster con los mismos identificadores. La reimage acción está diseñada para interactuar con la partición del sistema operativo, dejando sin cambios el almacenamiento local de la máquina virtual.

Importante

Evite cambios manuales o automatizados en el sistema de archivos del equipo sin sistema operativo (también conocido como "emergencia"). La reimage acción es necesaria para restaurar el soporte técnico de Microsoft y los cambios realizados en la Máquina Bare Metal se pierden al restaurar el nodo a su estado esperado.

Condiciones previas y validaciones antes de cambiar la imagen de un equipo sin sistema operativo

Antes de iniciar cualquier reimage operación, asegúrese de que se cumplen las condiciones previas siguientes:

Procedimientos recomendados para el reemplazo de un equipo sin sistema operativo

La acción replace del equipo sin sistema operativo se explica en Comandos de administración del ciclo de vida de equipos sin sistema operativo y en los procedimientos de escenario descritos en Resolución de problemas del servidor Azure Operator Nexus.

Advertencia

No ejecute más de un baremetalmachine replace comando o reimage al mismo tiempo para el mismo recurso de BareMetal Machine (BMM). La ejecución de replace al mismo tiempo que reimage deja los servidores en un estado no operativo. Asegúrese de que replace/reimage en el equipo sin sistema operativo se completen antes de iniciar otro. Además, evite ejecutar acciones secuenciales reimage en un BMM que acaba de completar una replace acción a menos que se realice la operación de mantenimiento especificada.

Los errores de hardware son una repetición normal durante la vida útil de un servidor. Los reemplazos de componentes pueden ser necesarios para restaurar la funcionalidad y garantizar una operación continua. La replace operación debe ejecutarse después de cualquier evento de mantenimiento o reparación de hardware. Cuando se produce un error en uno o varios componentes de hardware en el servidor (varias errores), realice las reparaciones necesarias para todos los componentes antes ejecutar una operación replace del equipo sin sistema operativo.

Importante

Con la versión de la API de disponibilidad general de 2024-07-01, el controlador RAID se restablece durante la sustitución del equipo sin sistema operativo replace, y se borran todos los datos de los discos virtuales del servidor. Las alertas de disco virtual del Controlador de administración de placa base (BMC) desencadenadas durante la operación replace del equipo sin sistema operativo se pueden omitir a menos que haya más alertas de disco físico o controladores RAID.

Condiciones previas y validaciones antes del reemplazo de un equipo sin sistema operativo

Antes de iniciar cualquier replace operación, asegúrese de que se cumplen las condiciones previas siguientes:

Resolución de problemas de validación de hardware

Cuando una máquina Bare Metal está marcada con fallos en la validación de hardware, puede indicar que se necesitan reparaciones físicas. Es fundamental identificar y solucionar estos problemas antes de realizar una operación replace en el equipo sin sistema operativo. Se invoca un proceso de validación de hardware como parte de la replace operación para garantizar la integridad del host físico antes de implementar la imagen del sistema operativo. El equipo sin sistema operativo no se puede aprovisionar correctamente cuando sigue teniendo errores de validación de hardware. Como resultado, la máquina bare metal no puede completar los pasos de configuración necesarios para que funcione y se una al clúster. Asegúrese de que todos los problemas de validación de hardware se borren antes de la siguiente replace acción.

Para comprender el resultado de la validación de hardware, lea el artículo Solución de errores de validación de hardware.

No es necesario reemplazar el equipo sin sistema operativo

Algunas reparaciones no requieren que se ejecute un operación replace del equipo sin sistema operativo. No es necesario realizar una operación replace cuando se realiza una reparación física de fuente de alimentación intercambiable en caliente porque el host del equipo sin sistema operativo seguirá funcionando normalmente después de la reparación. Pero si se ha producido un error en la validación de hardware del equipo sin sistema operativo, se necesita la operación replace del equipo sin sistema operativo incluso si se realizan reparaciones en caliente intercambiables. Examine los mensajes de estado de la máquina sin sistema operativo para determinar si hay errores de validación de hardware u otras condiciones degradadas.

Otras reparaciones de este tipo pueden ser:

  • Unidad Central de Procesamiento (CPU)
  • Módulo de memoria en línea dual (DIMM)
  • Ventilador
  • Aumento de placa de expansión
  • Transceptor
  • Reemplazo de cable ethernet o fibra

No es necesario reemplazar el equipo sin sistema operativo

Después de reemplazar componentes como la placa base o la tarjeta de interfaz de red (NIC), la dirección MAC de la máquina Bare Metal cambia. Sin embargo, la dirección IP de iDRAC y el nombre de host siguen siendo los mismos. Los cambios en la placa base producen cambios en la dirección MAC, lo que requiere un operación replace del equipo sin sistema operativo.

replace una operación para devolver al equipo sin sistema operativo al servicio al realizar las siguientes reparaciones físicas:

  • Placa madre
  • Placa del sistema
  • Disco SSD
  • Adaptador PERC/RAID
  • Tarjeta de interfaz de red (NIC) de Mellanox
  • NIC insertada de Broadcom

Comprobar los estados después de una operación de reemplazo del equipo sin sistema operativo

Una vez que la operación replace del equipo sin sistema operativo se haya completado correctamente, asegúrese de que provisioningStatus es Succeeded y de que readyState es True. Después, continúe con la ejecución de la operación uncordon para que el equipo sin sistema operativo se vuelva a unir el grupo de nodos programables de carga de trabajo.

Solicitud de soporte técnico

Si aún tiene alguna pregunta, póngase en contacto con soporte técnico. Para obtener más información sobre los planes de soporte técnico, vea Planes de Soporte técnico de Azure.

Referencias