Reparación de un servidor en Azure Stack HCI, versión 23H2

Artículo
06/04/2024

Se aplica a: Azure Stack HCI, versión 23H2

En este artículo se describe cómo reparar un servidor en el clúster de Azure Stack HCI.

Acerca de los servidores de reparación

Azure Stack HCI es un sistema hiperconvergido que permite reparar servidores de clústeres existentes. Es posible que tenga que reparar un servidor en un clúster si se produce un error de hardware.

Antes de reparar un servidor, asegúrese de comprobar con el proveedor de soluciones, qué componentes del servidor son unidades de reemplazo de campo (FRU) que puede reemplazar usted mismo y qué componentes requerirían que un técnico reemplace.

Las partes que admiten el intercambio frecuente normalmente no requieren que se vuelva a crear la imagen del servidor a diferencia de los componentes no intercambiables en caliente, como la placa base. Consulte al fabricante del hardware para determinar qué reemplazos de componentes requeriría que vuelva a crear la imagen del servidor. Para obtener más información, consulte Reemplazo de componentes.

Reparación del flujo de trabajo del servidor

En el diagrama de flujo siguiente se muestra el proceso general para reparar un servidor.

*Es posible que el servidor no esté en un estado en el que el apagado sea posible o necesario.

Para reparar un servidor existente, siga estos pasos generales:

Si es posible, apague el servidor que desea reparar. Dependiendo del estado del servidor, es posible que un apagado no sea posible o necesario.
Vuelva a crear la imagen del servidor que debe repararse.
Ejecute la operación del servidor de reparación. El sistema operativo, los controladores y el firmware de Azure Stack HCI se actualizan como parte de la operación de reparación.

El almacenamiento se vuelve a equilibrar automáticamente en el servidor reimaged. El reequilibrio de almacenamiento es una tarea de prioridad baja que se puede ejecutar durante varios días en función del número de servidores y del almacenamiento utilizado.

Escenarios admitidos

La reparación de un servidor vuelve a crear una imagen de un servidor y la devuelve al clúster con el nombre y la configuración anteriores.

La reparación de un único servidor da como resultado una reimplementación con la opción de conservar los volúmenes de datos. Solo se elimina el volumen del sistema y se aprovisiona recientemente durante la implementación.

Importante

Asegúrese de que siempre tiene copias de seguridad para las cargas de trabajo y no se basa solo en la resistencia del sistema. Esto es especialmente crítico en escenarios de servidor único.

Configuración de resistencia

En esta versión, para la operación del servidor de reparación, no se realizan tareas específicas en los volúmenes de carga de trabajo que creó después de la implementación. Para la operación del servidor de reparación, solo los volúmenes de infraestructura necesarios y los volúmenes de carga de trabajo se restauran y se exponen como volúmenes compartidos de clúster (CSV).

Los demás volúmenes de carga de trabajo que creó después de que la implementación todavía se conservan y puede detectar estos volúmenes mediante la ejecución Get-VirtuaDisk del cmdlet . Deberá desbloquear manualmente el volumen (si el volumen tiene Habilitado BitLocker) y crear un CSV (si es necesario).

Requisitos de hardware

Al reparar un servidor, el sistema valida el hardware del nuevo servidor entrante y garantiza que el servidor cumpla los requisitos de hardware antes de agregarlo al clúster.

Componente	Comprobación de cumplimiento
CPU	Valide que el nuevo servidor tenga el mismo número de núcleos de CPU o más. Si los núcleos de CPU del nodo entrante no cumplen este requisito, se mostrará una advertencia. Sin embargo, se permite la operación.
Memoria	Valide que el nuevo servidor tenga instalada la misma cantidad de memoria o más. Si la memoria del nodo entrante no cumple este requisito, se mostrará una advertencia. Sin embargo, se permite la operación.
Unidades	Valide que el nuevo servidor tenga el mismo número de unidades de datos disponibles para Espacios de almacenamiento directo. Si el número de unidades del nodo entrante no cumple este requisito, se notifica un error y se bloquea la operación.

Reemplazo del servidor

Puede reemplazar todo el servidor:

Con un nuevo servidor que tiene un número de serie diferente en comparación con el servidor anterior.
Con el servidor actual después de volver a crear la imagen.

Durante el reemplazo del servidor se admiten los siguientes escenarios:

Server	Disco	Compatible
Nuevo servidor	Discos nuevos	Sí
Nuevo servidor	Discos actuales	Sí
Servidor actual (reimaged)	Discos actuales con formato *	No
Servidor actual (reimaged)	Discos nuevos	Sí
Servidor actual (reimaged)	Discos actuales	Sí

**Los discos usados por Espacios de almacenamiento directo requieren una limpieza adecuada. El reformateo no es suficiente. Vea cómo limpiar unidades.

Importante

Si reemplaza un componente durante la reparación del servidor, no es necesario reemplazar ni restablecer unidades de datos. Si reemplaza una unidad o la restablece, la unidad no se reconocerá una vez que el servidor se una al clúster.

Reemplazo de los componentes

En el clúster de Azure Stack HCI, los componentes no intercambiables en caliente incluyen los siguientes elementos:

Controlador de administración de placa base (BMC)/tarjeta de vídeo
Controlador de disco/adaptador de bus host (HBA)/backplace
Adaptador de red
Unidad de procesamiento de gráficos
Unidades de datos (unidades que no admiten intercambio directo, por ejemplo, tarjeta complementaria PCI-e)

Los pasos de reemplazo reales para componentes no intercambiables en caliente varían en función del proveedor de hardware del fabricante de equipos originales (OEM). Consulte la documentación del proveedor de OEM si se requiere una reparación del servidor para componentes no intercambiables en caliente.

Requisitos previos

Antes de reparar un servidor, debe asegurarse de que:

AzureStackLCMUser está activo en Active Directory. Para obtener más información, consulte Preparación de Active Directory.
Ha iniciado sesión como AzureStackLCMUser u otro usuario con permisos equivalentes.
Las credenciales de no AzureStackLCMUser han cambiado.

Si es necesario, tome el servidor que ha identificado para la reparación sin conexión. Siga estos pasos:

Reparación de un servidor

En esta sección se describe cómo reparar un servidor mediante PowerShell, supervisar el estado de la Repair-Server operación y solucionar problemas, si hay algún problema.

Asegúrese de que ha revisado los requisitos previos.

Siga estos pasos en el servidor que está intentando reparar.

Instale el sistema operativo y los controladores necesarios. Siga los pasos descritos en Instalación del sistema operativo Azure Stack HCI, versión 23H2.

Nota:

Si el clúster usa una intención de ATC de red dedicada para el almacenamiento y usa direcciones IP de almacenamiento personalizadas, debe configurar las direcciones IP en los adaptadores de red de almacenamiento antes de ejecutar la operación Repair-Server. Si el clúster usa una intención ATC de red compartida para el almacenamiento y otro tipo de tráfico, como proceso y administración, deberá configurar manualmente las direcciones IP en los adaptadores de red virtual de almacenamiento después de reparar el servidor.
Registre el servidor con Arc. Siga los pasos descritos en Registro con Arc y configuración de permisos.

Nota:

Debe usar los mismos parámetros que los nodos existentes para registrarse en Arc. Por ejemplo: Nombre del grupo de recursos, Región, Suscripción y Tentant.
Asigne los permisos siguientes al nodo reparado:
- Rol de Administración de dispositivos de Azure Stack HCI
- Usuario de secretos de Key Vault Para obtener más información, consulte Asignación de permisos al servidor.

Siga estos pasos en otro servidor que sea miembro del mismo clúster de Azure Stack HCI.

Antes de agregar el servidor, asegúrese de obtener un token de autenticación actualizado. Ejecute el siguiente comando:
```
 Update-AuthenticationToken
```
Inicie sesión en el servidor que ya es miembro del clúster, con las credenciales de usuario de dominio que proporcionó durante la implementación del clúster. Ejecute el siguiente comando para reparar el servidor entrante:
```
$Cred = Get-Credential 
Repair-Server -Name "< Name of the new server>" -LocalAdminCredential $Cred
```
Nota:

El nombre del servidor debe ser el nombre netBIOS.
Anote el identificador de la operación como salida por el Repair-Server comando . Lo usará más adelante para supervisar el progreso de la Repair-Server operación.

Nota:

Si ha implementado el clúster de Azure Stack HCI mediante direcciones IP de almacenamiento personalizadas, debe asignar manualmente direcciones IP a los adaptadores de red de almacenamiento una vez reparado el servidor.

Supervisar el progreso de la operación

Para supervisar el progreso de la operación agregar servidor, siga estos pasos:

Ejecute el siguiente cmdlet y proporcione el identificador de operación del paso anterior.

$ID = "<Operation ID>" 
Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID

Una vez completada la operación, el trabajo de reequilibrio de almacenamiento en segundo plano seguirá ejecutándose. Espere a que se complete el trabajo de reequilibrio de almacenamiento. Para comprobar el progreso de este trabajo de reequilibrio de almacenamiento, use el siguiente cmdlet:
```
Get-VirtualDisk|Get-StorageJob
```
Si el trabajo de reequilibrio de almacenamiento está completo, el cmdlet no devolverá una salida.

Escenarios de recuperación

Los siguientes escenarios de recuperación y los pasos de mitigación recomendados se tabulan para reparar un servidor:

Descripción del escenario	Mitigación	¿Compatible?
Error en la operación del servidor de reparación.	Para completar la operación, investigue el error. Vuelva a ejecutar la operación con error mediante `Add-Server -Rerun`.	Sí
La operación del servidor de reparación se realizó correctamente parcialmente, pero tuvo que empezar con una instalación de sistema de operación nueva.	En este escenario, el orquestador (también conocido como Administrador de ciclo de vida) ya ha actualizado su almacén de conocimiento con el nuevo servidor. Use el escenario del servidor de reparación.	Sí

Solución de problemas

Si experimenta errores o errores al reparar un servidor, puede capturar la salida de los errores en un archivo de registro.

Inicie sesión con las credenciales de usuario del dominio que proporcionó durante la implementación del clúster. Capture el problema en los archivos de registro.
```
Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
```
Para volver a ejecutar la operación con errores, use el siguiente cmdlet:
```
Repair-Server -Rerun
```

Pasos siguientes

Obtenga más información sobre cómo agregar un servidor.

Compartir a través de