Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se proporcionan prácticas recomendadas para las operaciones de gestión del ciclo de vida de Bare Metal Machine (BMM). El objetivo es resaltar los problemas comunes y los requisitos previos esenciales.
Leer avisos legales importantes
Precaución
No realice ninguna acción en los servidores de plano de control o administración sin consultar primero con el personal de soporte técnico de Microsoft, lo que podría afectar a la integridad del clúster de Operator Nexus.
Importante
Se rechazan varias solicitudes de comandos disruptivas en un nodo del plano de control de Kubernetes (KCP). Esta comprobación se realiza para mantener la integridad de la instancia del clúster Nexus y evitar que varios nodos KCP no sean operativos a la vez debido a acciones disruptivas simultáneas. Los comandos de acción perjudicial rechazados pueden deberse a que ya se ejecuten en otro nodo KCP o si el KCP completo no está disponible. Si varios nodos se vuelven no operativos, se interrumpe el umbral de cuórum correcto del plano de control de Kubernetes.
Las acciones enumeradas se consideran perjudiciales para BareMetal Machines (BMM):
- Apagar un BMM
- Reiniciar un BMM
- Anulación de la programación de un equipo sin sistema operativo (acordonamiento con evacuación, se drena el nodo)
- Restablecer la imagen inicial de un BMM
- Reemplazar un BMM
Dejando solo las acciones no disruptivas:
- Inicio de un BMM
- Hacer que un BMM no se pueda programar (cordón sin evacuar, no desagüe el nodo)
- Convertir el BMM en programable (desacordonamiento)
Prerrequisitos
- Instale la versión más reciente de las extensiones de la CLI adecuadas.
- Solicite acceso para ejecutar los comandos de extensión de la CLI en la nube de red (NF) y el tejido de red Nexus network Fabric (NF).
- Inicie sesión en la CLI de Azure y seleccione la suscripción en la que se implementa el clúster.
- Recopile la siguiente información:
- Identificador de suscripción (
SUBSCRIPTION
) - Nombre del clúster (
CLUSTER
) - Grupo de recursos (
CLUSTER_RG
) - Grupo de recursos administrados (
CLUSTER_MRG
): los recursos de BareMetal Machines (BMM) están presentes en el grupo de recursos administrado - Nombre del equipo sin sistema operativo (
BMM_NAME
) que requiere operaciones de administración del ciclo de vida
- Identificador de suscripción (
Identificar el enfoque correctivo adecuado
La solución de problemas técnicos requiere un enfoque sistemático. Un método eficaz consiste en empezar con la solución menos invasiva y, si es necesario, trabajar hasta medidas más complejas y potencialmente perjudiciales. Tenga en cuenta que estos métodos de solución de problemas podrían no ser siempre eficaces para todos los escenarios y tener en cuenta otros factores podría requerir un enfoque diferente. Por esta razón, es esencial comprender bien las opciones disponibles al solucionar problemas de un equipo sin sistema operativo para determinar la acción correctiva más adecuada.
Consejos generales al solucionar problemas
- Familiarícese con la documentación pertinente, incluidas las guías de solución de problemas y los artículos de procedimientos. Consulte siempre la documentación más reciente para mantenerse informado sobre los procedimientos recomendados y las actualizaciones.
- Evite las operaciones erróneas repetidas intentando identificar primero la causa principal del error antes de volver a intentar la operación. Realice reintentos en pasos incrementales para aislar y solucionar problemas específicos.
- Espere a que los comandos de la CLI de Az se ejecuten hasta la finalización y valide el estado del recurso de equipo sin sistema operativo antes de ejecutar otros pasos.
- Compruebe que las versiones de firmware y software están actualizadas antes de una nueva implementación desde cero para evitar problemas de compatibilidad entre las versiones de hardware y software. Para obtener más información sobre la compatibilidad de firmware, consulte Operator Nexus Platform Prerequisites( Requisitos previos de la plataforma Nexus).
- Compruebe que las credenciales de iDRAC son correctas y que el equipo sin sistema operativo está encendido.
Examine el estado general de conectividad de red.
Asegúrese de una conectividad de red estable para evitar interrupciones durante el proceso. Ignorar la estabilidad de la red podría hacer que las operaciones no se completen correctamente y dejar una máquina Bare Metal en un estado de error o degradado.
Un vistazo rápido al recurso clusterConnectionStatus
de clúster sirve como un indicador del estado de conectividad de red.
az networkcloud cluster show \
-g $CLUSTER_MRG \
-n $BMM_NAME \
--subscription $SUBSCRIPTION \
--query "clusterConnectionStatus" \
-o table
Result
---------
Connected
Eche un vistazo más profundo a los recursos de NetworkFabric comprobando los estados de los recursos de NetworkFabric, las alertas y las métricas. Consulte artículos relacionados:
- Cómo supervisar la tasa de paquetes de entrada y salida de la interfaz para dispositivos de infraestructura de red
- Cómo configurar las opciones de diagnóstico y supervisar las diferencias de configuración en Nexus Network Fabric.
Evalúe las advertencias de equipo sin sistema operativo o las condiciones degradadas que podrían indicar la necesidad de resolver problemas de configuración de hardware, red o servidor. Para más información, vea Solución de errores de estado degradados en equipos sin sistema operativo y Solución de problemas de estado de advertencia en equipos sin sistema operativo.
Determinar si se están ejecutando trabajos de actualización de firmware
Compruebe que no haya ningún trabajo de actualización de firmware en ejecución a través del BMC antes de iniciar una operación replace
o reimage
.
La interrupción de una actualización de firmware en curso puede dejar la Máquina Bare Metal en un estado inconsistente.
- Puede ver en la GUI de iDRAC
jobqueue
o usarrun-read-command
racadm jobqueque view
para determinar si hay trabajos de actualización de firmware en ejecución. - Para obtener más información sobre la funcionalidad
run-read-command
, consulte Bare Metal Run-Read Execution.
az networkcloud baremetalmachine run-read-command \
-g $CLUSTER_MRG \
-n $BMM_NAME \
--subscription $SUBSCRIPTION \
--limit-time-seconds 60 \
--commands "[{command:'nc-toolbox nc-toolbox-runread racadm jobqueue view'}]" \
--output-directory .
Esta es una salida de ejemplo del racadm jobqueue view
comando que muestra Firmware Update
.
[Job ID=JID_833540920066]
Job Name=Firmware Update: iDRAC
Status=Downloading
Start Time= [Not Applicable]
Expiration Time= [Not Applicable]
Message= [RED001: Job in progress.]
Percent Complete= [50%]
Esta es una salida de ejemplo del comando racadm jobqueue view
en la que se muestra declaraciones comunes de acceso positivo.
-------------------------JOB QUEUE------------------------
[Job ID=JID_429400224349]
Job Name=Configure: Import Server Configuration Profile
Status=Completed
Scheduled Start Time=[Not Applicable]
Expiration Time=[Not Applicable]
Actual Start Time=[Tue, 25 Mar 2025 17:00:22]
Actual Completion Time=[Tue, 25 Mar 2025 17:00:32]
Message=[SYS053: Successfully imported and applied Server Configuration Profile.]
Percent Complete=[100]
----------------------------------------------------------
[Job ID=JID_429400338344]
Job Name=Export: Server Configuration Profile
Status=Completed
Scheduled Start Time=[Not Applicable]
Expiration Time=[Not Applicable]
Actual Start Time=[Tue, 25 Mar 2025 17:00:33]
Actual Completion Time=[Tue, 25 Mar 2025 17:00:58]
Message=[SYS043: Successfully exported Server Configuration Profile]
Percent Complete=[100]
Supervisión del progreso mediante run-read-command
En la versión 2506.2 y posteriores, puede supervisar el progreso de las acciones de máquinas de equipo sin sistema operativo de ejecución prolongada mediante run-read-command
.
- Algunas acciones de larga duración, como
Replace
oReimage
, se componen de varios pasos, por ejemplo,Hardware Validation
,Deprovisioning
oProvisioning
. - A continuación
run-read-command
se muestra cómo ver los distintos pasos de cada acción y el progreso o estado de cada paso, incluidos los posibles errores. - Esta información está disponible en el recurso de Kubernetes BareMetalMachine durante o después de que se complete la acción.
- Para obtener más información sobre la
run-read-command
característica, consulte Ejecución de lectura de ejecución de BareMetal.
Ejemplo run-read-command
para ver el progreso de la acción en la máquina sin sistema operativo rack2compute08
:
az networkcloud baremetalmachine run-read-command \
-g <ResourceGroup_Name> \
-n <Control Node BMM Name> \
--limit-time-seconds 60 \
--commands "[{command:'kubectl get',arguments:[-n,nc-system,bmm,rack2compute08,-o,json]}]" \
--output-directory .
Salida de ejemplo para una acción Reemplazar:
[
{
"correlationId": "961a6154-4342-4831-9693-27314671e6a7",
"endTime": "2025-05-15T21:20:44Z",
"startTime": "2025-05-15T20:16:19Z",
"status": "Completed",
"stepStates": [
{
"endTime": "2025-05-15T20:25:51Z",
"name": "Hardware Validation",
"startTime": "2025-05-15T20:16:19Z",
"status": "Completed"
},
{
"endTime": "2025-05-15T20:26:21Z",
"name": "Deprovisioning",
"startTime": "2025-05-15T20:25:51Z",
"status": "Completed"
},
{
"endTime": "2025-05-15T21:20:44Z",
"name": "Provisioning",
"startTime": "2025-05-15T20:26:21Z",
"status": "Completed"
}
],
"type": "Microsoft.NetworkCloud/bareMetalMachines/replace"
}
]
Procedimientos recomendados para el cambio de imagen de un equipo sin sistema operativo
La acción reimage
del equipo sin sistema operativo se explica en Comandos de administración del ciclo de vida de equipos sin sistema operativo y en los procedimientos de escenario descritos en Resolución de problemas del servidor Azure Operator Nexus.
Advertencia
No ejecute más de un baremetalmachine replace
comando o reimage
al mismo tiempo para el mismo recurso de BareMetal Machine (BMM).
La ejecución de replace
al mismo tiempo que reimage
deja los servidores en un estado no operativo.
Asegúrese de que replace
/reimage
en el equipo sin sistema operativo se completen antes de iniciar otro.
Además, evite ejecutar acciones secuenciales reimage
en un BMM que acaba de completar una replace
acción a menos que se realice la operación de mantenimiento especificada.
Puede restaurar la versión del runtime del sistema operativo en un equipo sin sistema operativo si ejecuta el comando reimage
.
Un equipo sin sistema operativo reimage
puede ahorrar tiempo y ser confiable para resolver problemas o restaurar el software del sistema operativo a un estado correcto conocido.
Este proceso vuelve a implementar la imagen del runtime en el equipo sin sistema operativo de destino y ejecuta los pasos para volver a unir el clúster con los mismos identificadores.
La reimage
acción está diseñada para interactuar con la partición del sistema operativo, dejando sin cambios el almacenamiento local de la máquina virtual.
Importante
Evite cambios manuales o automatizados en el sistema de archivos del equipo sin sistema operativo (también conocido como "emergencia").
La reimage
acción es necesaria para restaurar el soporte técnico de Microsoft y los cambios realizados en la Máquina Bare Metal se pierden al restaurar el nodo a su estado esperado.
Condiciones previas y validaciones antes de cambiar la imagen de un equipo sin sistema operativo
Antes de iniciar cualquier reimage
operación, asegúrese de que se cumplen las condiciones previas siguientes:
- Asegúrese de que las cargas de trabajo de la máquina Bare Metal se vacían mediante el comando
cordon
con el parámetroevacuate
establecido enTrue
. - Realice las comprobaciones generales que se describen en el artículo Solución de problemas de aprovisionamiento de equipos sin sistema operativo.
- Evalúe las advertencias del equipo sin sistema operativo o las condiciones degradadas que podrían indicar la necesidad de resolver problemas de configuración de hardware, red o servidor antes de una operación
reimage
. Para más información, vea Solución de errores de estado degradado en equipos sin sistema operativo y Solución de problemas de estado de advertencia en equipos sin sistema operativo. - Si el equipo sin sistema operativo notifica un estado de error con el motivo de la validación de hardware (como se ve en los campos
Detailed Status
yDetailed Status Message
del equipo sin sistema operativo), entonces el equipo sin sistema operativo necesita una instancia dereplace
en su lugar. Vea Procedimientos recomendados para el reemplazo de un equipo sin sistema operativo. - Compruebe que no haya ningún trabajo de actualización de firmware en ejecución. Siga los pasos de la sección Determine if Firmware Update Jobs are Running (Determinar si se están ejecutando trabajos de actualización de firmware).
Procedimientos recomendados para el reemplazo de un equipo sin sistema operativo
La acción replace
del equipo sin sistema operativo se explica en Comandos de administración del ciclo de vida de equipos sin sistema operativo y en los procedimientos de escenario descritos en Resolución de problemas del servidor Azure Operator Nexus.
Advertencia
No ejecute más de un baremetalmachine replace
comando o reimage
al mismo tiempo para el mismo recurso de BareMetal Machine (BMM).
La ejecución de replace
al mismo tiempo que reimage
deja los servidores en un estado no operativo.
Asegúrese de que replace
/reimage
en el equipo sin sistema operativo se completen antes de iniciar otro.
Además, evite ejecutar acciones secuenciales reimage
en un BMM que acaba de completar una replace
acción a menos que se realice la operación de mantenimiento especificada.
Los errores de hardware son una repetición normal durante la vida útil de un servidor.
Los reemplazos de componentes pueden ser necesarios para restaurar la funcionalidad y garantizar una operación continua.
La replace
operación debe ejecutarse después de cualquier evento de mantenimiento o reparación de hardware.
Cuando se produce un error en uno o varios componentes de hardware en el servidor (varias errores), realice las reparaciones necesarias para todos los componentes antes ejecutar una operación replace
del equipo sin sistema operativo.
Importante
Con la versión de la API de disponibilidad general de 2024-07-01
, el controlador RAID se restablece durante la sustitución del equipo sin sistema operativo replace
, y se borran todos los datos de los discos virtuales del servidor.
Las alertas de disco virtual del Controlador de administración de placa base (BMC) desencadenadas durante la operación replace
del equipo sin sistema operativo se pueden omitir a menos que haya más alertas de disco físico o controladores RAID.
Condiciones previas y validaciones antes del reemplazo de un equipo sin sistema operativo
Antes de iniciar cualquier replace
operación, asegúrese de que se cumplen las condiciones previas siguientes:
- Asegúrese de que las cargas de trabajo de la máquina Bare Metal se vacían mediante el comando
cordon
con el parámetroevacuate
establecido enTrue
. - Realice las comprobaciones generales que se describen en el artículo Solución de problemas de aprovisionamiento de equipos sin sistema operativo.
- Evalúe las advertencias del equipo sin sistema operativo o las condiciones degradadas que podrían indicar la necesidad de resolver problemas de configuración de hardware, red o servidor antes de una operación
replace
. Para más información, vea Solución de errores de estado degradados en equipos sin sistema operativo y Solución de problemas de estado de advertencia en equipos sin sistema operativo. - Valide que la máquina sin sistema operativo esté encendida.
- Compruebe que no haya ningún trabajo de actualización de firmware en ejecución. Siga los pasos de la sección Determine if Firmware Update Jobs are Running (Determinar si se están ejecutando trabajos de actualización de firmware).
Resolución de problemas de validación de hardware
Cuando una máquina Bare Metal está marcada con fallos en la validación de hardware, puede indicar que se necesitan reparaciones físicas.
Es fundamental identificar y solucionar estos problemas antes de realizar una operación replace
en el equipo sin sistema operativo.
Se invoca un proceso de validación de hardware como parte de la replace
operación para garantizar la integridad del host físico antes de implementar la imagen del sistema operativo.
El equipo sin sistema operativo no se puede aprovisionar correctamente cuando sigue teniendo errores de validación de hardware.
Como resultado, la máquina bare metal no puede completar los pasos de configuración necesarios para que funcione y se una al clúster.
Asegúrese de que todos los problemas de validación de hardware se borren antes de la siguiente replace
acción.
Para comprender el resultado de la validación de hardware, lea el artículo Solución de errores de validación de hardware.
No es necesario reemplazar el equipo sin sistema operativo
Algunas reparaciones no requieren que se ejecute un operación replace
del equipo sin sistema operativo.
No es necesario realizar una operación replace
cuando se realiza una reparación física de fuente de alimentación intercambiable en caliente porque el host del equipo sin sistema operativo seguirá funcionando normalmente después de la reparación.
Pero si se ha producido un error en la validación de hardware del equipo sin sistema operativo, se necesita la operación replace
del equipo sin sistema operativo incluso si se realizan reparaciones en caliente intercambiables.
Examine los mensajes de estado de la máquina sin sistema operativo para determinar si hay errores de validación de hardware u otras condiciones degradadas.
- Solución de errores de estado degradado en equipos sin sistema operativo
- Solución de problemas de estado de advertencia en equipos sin sistema operativo
- Solución de problemas de error de validación de hardware.
Otras reparaciones de este tipo pueden ser:
- Unidad Central de Procesamiento (CPU)
- Módulo de memoria en línea dual (DIMM)
- Ventilador
- Aumento de placa de expansión
- Transceptor
- Reemplazo de cable ethernet o fibra
No es necesario reemplazar el equipo sin sistema operativo
Después de reemplazar componentes como la placa base o la tarjeta de interfaz de red (NIC), la dirección MAC de la máquina Bare Metal cambia.
Sin embargo, la dirección IP de iDRAC y el nombre de host siguen siendo los mismos.
Los cambios en la placa base producen cambios en la dirección MAC, lo que requiere un operación replace
del equipo sin sistema operativo.
replace
una operación para devolver al equipo sin sistema operativo al servicio al realizar las siguientes reparaciones físicas:
- Placa madre
- Placa del sistema
- Disco SSD
- Adaptador PERC/RAID
- Tarjeta de interfaz de red (NIC) de Mellanox
- NIC insertada de Broadcom
Comprobar los estados después de una operación de reemplazo del equipo sin sistema operativo
Una vez que la operación replace
del equipo sin sistema operativo se haya completado correctamente, asegúrese de que provisioningStatus
es Succeeded
y de que readyState
es True
.
Después, continúe con la ejecución de la operación uncordon
para que el equipo sin sistema operativo se vuelva a unir el grupo de nodos programables de carga de trabajo.
Solicitud de soporte técnico
Si aún tiene alguna pregunta, póngase en contacto con soporte técnico. Para obtener más información sobre los planes de soporte técnico, vea Planes de Soporte técnico de Azure.
Referencias
- Operaciones de administración del ciclo de vida de equipos sin sistema operativo
- Ejecución de acciones de equipos sin sistema operativo de emergencia fuera de Azure mediante nexusctl
- Solución de problemas del servidor Nexus del operador de Azure
- Solución de problemas de aprovisionamiento de equipos sin sistema operativo
- Solución de problemas de estado de advertencia en equipos sin sistema operativo
- Solución de errores de estado degradado en equipos sin sistema operativo
- Solución de problemas de error de validación de hardware