Reparación de un servidor en Azure Stack HCI, versión 23H2

Artículo
04/13/2024

Se aplica a: Azure Stack HCI, versión 23H2

En este artículo se describe cómo reparar un servidor en el clúster de Azure Stack HCI.

Acerca de los servidores de reparación

Azure Stack HCI es un sistema hiperconvergido que permite reparar servidores de clústeres existentes. Es posible que tenga que reparar un servidor en un clúster si se produce un error de hardware.

Antes de reparar un servidor, asegúrese de comprobar con el proveedor de soluciones, qué componentes del servidor son unidades de reemplazo de campo (FRU) que puede reemplazar usted mismo y qué componentes requerirían que un técnico reemplace.

Las partes que admiten el intercambio frecuente normalmente no requieren que se restablezca la imagen inicial del servidor a diferencia de los componentes que no se pueden intercambiar en caliente, como la placa base. Consulte al fabricante del hardware para determinar qué reemplazos de componentes requerirían volver a crear la imagen inicial del servidor. Para obtener más información, vea Reemplazo de componentes.

Flujo de trabajo del servidor de reparación

En el diagrama de flujo siguiente se muestra el proceso general para reparar un servidor.

*Es posible que el servidor no esté en un estado en el que el apagado sea posible o necesario.

Para reparar un servidor existente, siga estos pasos generales:

Si es posible, apague el servidor que desea reparar. Dependiendo del estado del servidor, es posible que no sea posible o necesario un apagado.
Vuelva a crear la imagen inicial del servidor que debe repararse.
Ejecute la operación del servidor de reparación. El sistema operativo, los controladores y el firmware de Azure Stack HCI se actualizan como parte de la operación de reparación.

El almacenamiento se reequilibró automáticamente en el servidor reimaged. El reequilibrio de almacenamiento es una tarea de prioridad baja que se puede ejecutar durante varios días según el número de servidores y el almacenamiento usado.

Escenarios admitidos

La reparación de un servidor vuelve a crear una imagen inicial de un servidor y la devuelve al clúster con el nombre y la configuración anteriores.

La reparación de un único servidor da como resultado una reimplementación con la opción de conservar los volúmenes de datos. Solo se elimina el volumen del sistema y se aprovisiona recientemente durante la implementación.

Importante

Asegúrese de que siempre tiene copias de seguridad para las cargas de trabajo y no se basa solo en la resistencia del sistema. Esto es especialmente crítico en escenarios de servidor único.

Configuración de resistencia

En esta versión, para la operación del servidor de reparación, no se realizan tareas específicas en los volúmenes de carga de trabajo que creó después de la implementación. Para la operación del servidor de reparación, solo se restauran los volúmenes de infraestructura necesarios y los volúmenes de carga de trabajo se exponen como volúmenes compartidos de clúster (CSV).

Los demás volúmenes de carga de trabajo que creó después de la implementación se conservan y puede detectar estos volúmenes mediante la ejecución Get-VirtuaDisk del cmdlet . Deberá desbloquear manualmente el volumen (si el volumen tiene Habilitado BitLocker) y crear un CSV (si es necesario).

Requisitos de hardware

Al reparar un servidor, el sistema valida el hardware del nuevo servidor entrante y garantiza que el servidor cumpla los requisitos de hardware antes de agregarlo al clúster.

Componente	Comprobación de cumplimiento
CPU	Valide que el nuevo servidor tenga el mismo número de núcleos de CPU o más. Si los núcleos de CPU del nodo entrante no cumplen este requisito, se muestra una advertencia. Sin embargo, se permite la operación.
Memoria	Valide que el nuevo servidor tenga instalada la misma cantidad de memoria o más. Si la memoria del nodo entrante no cumple este requisito, se presenta una advertencia. Sin embargo, se permite la operación.
Unidades	Valide que el nuevo servidor tenga el mismo número de unidades de datos disponibles para Espacios de almacenamiento directo. Si el número de unidades del nodo entrante no cumple este requisito, se notifica un error y se bloquea la operación.

Reemplazo del servidor

Puede reemplazar todo el servidor:

Con un nuevo servidor que tiene un número de serie diferente en comparación con el servidor anterior.
Con el servidor actual después de volver a crear la imagen inicial.

Se admiten los siguientes escenarios durante el reemplazo del servidor:

Servidor	Disco	Compatible
Nuevo servidor	Discos nuevos	Sí
Nuevo servidor	Discos actuales	Sí
Servidor actual (reimaged)	Discos actuales con formato *	No
Servidor actual (reimaged)	Discos nuevos	Sí
Servidor actual (reimaged)	Discos actuales	Sí

**Los discos usados por Espacios de almacenamiento directo requieren una limpieza adecuada. El cambio de formato no es suficiente. Vea cómo limpiar unidades.

Importante

Si reemplaza un componente durante la reparación del servidor, no es necesario reemplazar ni restablecer las unidades de datos. Si reemplaza una unidad o lo restablece, la unidad no se reconocerá una vez que el servidor se una al clúster.

Reemplazo de los componentes

En el clúster de Azure Stack HCI, los componentes no intercambiables en caliente incluyen los siguientes elementos:

Controlador de administración de placa base (BMC)/tarjeta de vídeo
Controlador de disco/adaptador de bus host (HBA)/backplace
Adaptador de red
Unidad de procesamiento de gráficos
Unidades de datos (unidades que no admiten intercambio directo, por ejemplo, tarjeta complementaria PCI-e)

Los pasos de reemplazo reales para los componentes no intercambiables en caliente varían en función del proveedor de hardware del fabricante de equipos originales (OEM). Consulte la documentación del proveedor de OEM si se requiere una reparación del servidor para los componentes no intercambiables en caliente.

Requisitos previos

Antes de reparar un servidor, debe asegurarse de que:

AzureStackLCMUser está activo en Active Directory. Para obtener más información, consulte Preparación de Active Directory.
Ha iniciado sesión como AzureStackLCMUser u otro usuario con permisos equivalentes.
Las credenciales de AzureStackLCMUser no han cambiado.

Si es necesario, tome el servidor que ha identificado para la reparación sin conexión. Siga estos pasos:

Reparación de un servidor

En esta sección se describe cómo reparar un servidor mediante PowerShell, supervisar el estado de la Repair-Server operación y solucionar problemas, si hay algún problema.

Asegúrese de que ha revisado los requisitos previos.

Siga estos pasos en el servidor que está intentando reparar.

Instale el sistema operativo y los controladores necesarios. Siga los pasos descritos en Instalación del sistema operativo Azure Stack HCI, versión 23H2.

Nota

También debe instalar los roles de Windows necesarios.
Registre el servidor con Arc. Siga los pasos descritos en Registro con Arc y configuración de permisos.

Nota

Debe usar los mismos parámetros que los nodos existentes para registrarse con Arc. Por ejemplo: nombre del grupo de recursos, región, suscripción y tentant.

Siga estos pasos en otro servidor que sea miembro del mismo clúster de Azure Stack HCI.

Antes de agregar el servidor, asegúrese de obtener un token de autenticación actualizado. Ejecute el siguiente comando:
```
 Update-AuthenticationToken
```
Inicie sesión en el servidor que ya es miembro del clúster, con las credenciales de usuario de dominio que proporcionó durante la implementación del clúster. Ejecute el siguiente comando para reparar el servidor entrante:
```
$Cred = Get-Credential 
Repair-Server -Name "< Name of the new server>" -LocalAdminCredential $Cred
```
Anote el identificador de la operación como salida por el Repair-Server comando . Lo usará más adelante para supervisar el progreso de la Repair-Server operación.

Supervisar el progreso de la operación

Para supervisar el progreso de la operación agregar servidor, siga estos pasos:

Ejecute el siguiente cmdlet y proporcione el identificador de operación del paso anterior.

$ID = "<Operation ID>" 
Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID

Una vez completada la operación, el trabajo de reequilibrio de almacenamiento en segundo plano seguirá ejecutándose. Espere a que se complete el trabajo de reequilibrio de almacenamiento. Para comprobar el progreso de este trabajo de reequilibrio de almacenamiento, use el siguiente cmdlet:
```
Get-VirtualDisk|Get-StorageJob
```
Si se ha completado el trabajo de reequilibrio de almacenamiento, el cmdlet no devolverá una salida.

Escenarios de recuperación

Los siguientes escenarios de recuperación y los pasos de mitigación recomendados se tabulan para reparar un servidor:

Descripción del escenario	Solución	¿Compatible?
Error en la operación del servidor de reparación.	Para completar la operación, investigue el error. Vuelva a ejecutar la operación con error mediante `Add-Server -Rerun`.	Sí
La operación del servidor de reparación se realizó correctamente parcialmente, pero tuvo que empezar con una nueva instalación del sistema operativo.	En este escenario, el orquestador (también conocido como Administrador de ciclo de vida) ya ha actualizado su almacén de conocimiento con el nuevo servidor. Use el escenario del servidor de reparación.	Sí

Solución de problemas

Si experimenta errores o errores al reparar un servidor, puede capturar la salida de los errores en un archivo de registro.

Inicie sesión con las credenciales de usuario de dominio que proporcionó durante la implementación del clúster. Capture el problema en los archivos de registro.
```
Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
```
Para volver a ejecutar la operación con errores, use el siguiente cmdlet:
```
Repair-Server -Rerun
```

Pasos siguientes

Obtenga más información sobre cómo agregar un servidor.