修复 Azure Stack HCI 上的服务器版本 23H2

项目
07/17/2024

适用于：Azure Stack HCI 版本 23H2

本文介绍如何修复 Azure Stack HCI 群集上的服务器。

关于修复服务器

Azure Stack HCI 是一个超融合系统，可用于修复现有群集中的服务器。如果出现硬件故障，可能需要修复群集中的服务器。

在修复服务器之前，请确保与解决方案提供商核实，服务器上的哪些组件是现场更换单元（FRU），你可以自行更换哪些组件，哪些组件需要技术人员更换。

支持热交换的部件通常不需要重新设置服务器映像，这与非热交换组件（如主板）不同。请咨询硬件制造商，以确定哪些组件更换需要重新映像服务器。有关详细信息，请参阅组件替换。

修复服务器工作流

以程图显示了修复服务器的总体过程。

*服务器可能处于可能或必要的关闭状态

若要修复现有服务器，请执行以下步骤：

如果可能，请关闭要修复的服务器。根据服务器的状态，可能或没有必要关闭。
重新映像需要修复的服务器。
运行修复服务器操作。 Azure Stack HCI 操作系统、驱动程序和固件作为修复操作的一部分进行更新。

重新映像服务器上的存储会自动重新平衡。存储重新平衡是一项低优先级任务，可以运行多天，具体取决于服务器的数量和使用的存储。

支持的方案

修复服务器会重置服务器映像，并将其带回具有上一个名称和配置的群集。

修复单个服务器会导致重新部署，并可以选择保留数据卷。部署期间只会删除系统卷并新建系统卷。

重要

确保始终具有工作负荷的备份，并且不依赖于系统复原能力。这在单服务器方案中尤其重要。

复原设置

在此版本中，对于修复服务器操作，不会对部署后创建的工作负荷卷执行特定任务。对于修复服务器操作，仅还原所需的基础结构卷和工作负荷卷，并将其显示为群集共享卷（CSV）。

部署后创建的其他工作负荷卷仍会保留，可以通过运行 Get-VirtuaDisk cmdlet 来发现这些卷。需要手动解锁卷（如果卷已启用 BitLocker），并创建 CSV（如果需要）。

硬件要求

修复服务器时，系统会验证新传入服务器的硬件，并确保服务器在添加到群集之前满足硬件要求。

组件	Compliancy 检查
CPU	验证新服务器有多少或更多 CPU 核心。如果传入节点上的 CPU 核心不符合此要求，则会显示警告。但允许此操作。
内存	验证新服务器已安装的内存量相同或更多。如果传入节点上的内存不符合此要求，则会显示警告。但允许此操作。
驱动器	验证新服务器是否具有可用于存储空间直通的数据驱动器数相同。如果传入节点上的驱动器数不符合此要求，则会报告错误并阻止该操作。

服务器替换

可以替换整个服务器：

与旧服务器相比，具有不同的序列号的新服务器。
重新映像后，使用当前服务器。

在服务器更换期间支持以下方案：

服务器	磁盘	支持
新建服务器	新磁盘	是
新建服务器	当前磁盘	是
当前服务器（已重新映像）	当前磁盘重新格式化 *	否
当前服务器（已重新映像）	新磁盘	是
当前服务器（已重新映像）	当前磁盘	是

**存储空间直通使用的磁盘需要适当的清理。重新格式化是不够的。了解如何清理驱动器。

重要

如果在服务器修复期间替换组件，则无需更换或重置数据驱动器。如果替换驱动器或重置驱动器，则在服务器加入群集后，将无法识别驱动器。

组件更换

在 Azure Stack HCI 群集上，不可热交换的组件包含以下项：

母板/基板管理控制器 (BMC)/视频卡
磁盘控制器/主机总线适配器（HBA）/backplace
网络适配器
图形处理单元
数据驱动器（不支持热交换的驱动器，例如 PCI-e 外接卡）

不可热交换组件的实际更换步骤因原始设备制造商（OEM）硬件供应商而异。如果非热交换组件需要服务器修复，请参阅 OEM 供应商的文档。

先决条件

在修复服务器之前，必须确保：

AzureStackLCMUser 在 Active Directory 中处于活动状态。有关详细信息，请参阅 “准备 Active Directory”。
以等效权限登录或以其他用户身份 AzureStackLCMUser 登录。
尚未更改的 AzureStackLCMUser 凭据。

如果需要，请获取已确定要脱机修复的服务器。按照下面的步骤操作：
- 在使服务器脱机之前，请验证服务器是否正常。
- 暂停并清空服务器。
- 关闭服务器。

修复服务器

本部分介绍如何使用 PowerShell 修复服务器，监视操作的状态 Repair-Server ，并排查任何问题。

确保已查看先决条件。

在尝试修复的服务器上执行以下步骤。

安装操作系统和所需的驱动程序。按照安装 Azure Stack HCI 版本 23H2 操作系统中的步骤操作。

注意

如果群集使用专用网络 ATC 意向进行存储，并且使用的是自定义存储 IP，则必须在运行 Repair-Server 操作之前在存储网络适配器上配置 IP。如果群集使用共享网络 ATC 意向进行存储和计算和管理等其他流量类型，则需要在修复服务器后在存储虚拟网络适配器上手动配置 IP。
将服务器注册到 Arc。按照 Arc 注册中的步骤操作并设置权限。

注意

必须使用与现有节点相同的参数向 Arc 注册。例如：资源组名称、区域、订阅和暂定。
向修复的节点分配以下权限：
- Azure Stack HCI 设备管理角色
- 密钥库机密用户有关详细信息，请参阅向服务器分配权限。

在属于同一 Azure Stack HCI 群集的另一台服务器上执行以下步骤。

在添加服务器之前，请确保获取更新的身份验证令牌。运行以下命令：
```
 Update-AuthenticationToken
```
使用在部署群集期间提供的域用户凭据登录到已是群集成员的服务器。运行以下命令来修复传入的服务器：
```
$Cred = Get-Credential 
Repair-Server -Name "< Name of the new server>" -LocalAdminCredential $Cred
```
注意

服务器名称必须是 NetBIOS 名称。
记下命令输出的操作 ID Repair-Server 。稍后将使用此来监视操作的 Repair-Server 进度。

注意

如果使用自定义存储 IP 部署了 Azure Stack HCI 群集，则必须在修复服务器后手动将 IP 分配到存储网络适配器。

监视操作进度

若要监视添加服务器操作的进度，请执行以下步骤：

运行以下 cmdlet 并提供上一步的操作 ID。

$ID = "<Operation ID>" 
Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID

操作完成后，后台存储重新均衡作业将继续运行。等待存储重新平衡作业完成。若要验证此存储重新均衡作业的进度，请使用以下 cmdlet：
```
Get-VirtualDisk|Get-StorageJob
```
如果存储重新平衡作业已完成，则 cmdlet 不会返回输出。

恢复方案

以下恢复方案和建议的缓解步骤会进行选项卡化，用于修复服务器：

方案描述	缓解措施	是否支持？
修复服务器操作失败。	若要完成该操作，请调查失败。使用 `Add-Server -Rerun`. 重新运行失败的操作。	是
修复服务器操作部分成功，但必须从新的操作系统安装开始。	在此方案中，业务流程协调程序（也称为生命周期管理器）已使用新服务器更新其知识存储。使用修复服务器方案。	是

故障排除

如果在修复服务器时遇到故障或错误，则可以捕获日志文件中失败的输出。

使用在部署群集期间提供的域用户凭据登录。捕获日志文件中的问题。
```
Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
```
若要重新运行失败的操作，请使用以下 cmdlet：
```
Repair-Server -Rerun
```

后续步骤

详细了解如何添加服务器。

通过