修复 Azure 本地节点上的节点
适用于:Azure Local 2311.2 及更高版本
本文介绍如何修复 Azure 本地实例上的节点。 在本文中,每个服务器称为节点。
Azure Local 是一个超融合系统,可用于修复现有系统中的节点。 如果出现硬件故障,可能需要修复系统中的节点。
在修复节点之前,请确保与解决方案提供商核实,节点上哪些组件是现场更换单元(FRU),你可以自行更换哪些组件,哪些组件需要技术人员更换。
支持热交换的部件通常不需要重新映像节点,这与不可热交换组件(如主板)不同。 请咨询硬件制造商,以确定哪些组件更换需要重新映像节点。 有关详细信息,请参阅 组件替换。
以程图显示了修复节点的整个过程。
*节点可能处于可能或必要的关闭状态*
若要修复现有节点,请执行以下步骤:
如果可能,请关闭要修复的节点。 根据节点的状态,可能或没有必要关闭。
重新映像需要修复的节点。
运行修复节点操作。 Azure Stack HCI 操作系统、驱动程序和固件作为修复操作的一部分进行更新。
重新映像节点上会自动重新平衡存储。 存储重新平衡是一项低优先级任务,可以运行多天,具体取决于使用的节点数和存储。
修复节点会重置节点的映像,并将其带回具有上一个名称和配置的系统。
修复单个节点会导致重新部署,并可以选择保留数据卷。 部署期间只会删除系统卷并新建系统卷。
重要
确保始终具有工作负荷的备份,并且不依赖于系统复原能力。 这在单节点方案中尤其重要。
在此版本中,对于修复节点操作,不会对部署后创建的工作负荷卷执行特定任务。 对于修复节点操作,仅还原所需的基础结构卷和工作负荷卷,并将其显示为群集共享卷(CSV)。
部署后创建的其他工作负荷卷仍会保留,可以通过运行 Get-VirtualDisk
cmdlet 来发现这些卷。 需要手动解锁卷(如果卷已启用 BitLocker),并创建 CSV(如果需要)。
修复节点时,系统会验证新传入节点的硬件,并确保该节点在添加到系统之前满足硬件要求。
组件 |
合规性检查 |
CPU |
验证新节点的 CPU 内核数相同或更多。 如果传入节点上的 CPU 核心不符合此要求,则会显示警告。 但允许此操作。 |
内存 |
验证新节点已安装的内存量相同或更多。 如果传入节点上的内存不符合此要求,则会显示警告。 但允许此操作。 |
驱动器 |
验证新节点是否具有可用于存储空间直通的数据驱动器数相同。 如果传入节点上的驱动器数不符合此要求,则会报告错误并阻止该操作。 |
可以替换整个节点:
- 与旧节点相比,具有不同的序列号的新节点。
- 重新映像后,使用当前节点。
节点更换期间支持以下方案:
Node |
磁盘 |
支持 |
新建节点 |
新磁盘 |
是 |
新建节点 |
当前磁盘 |
是 |
当前节点(已重新映像) |
当前磁盘重新格式化 ** |
否 |
当前节点(已重新映像) |
新磁盘 |
是 |
当前节点(已重新映像) |
当前磁盘 |
是 |
**存储空间直通使用的磁盘需要适当的清理。 重新格式化是不够的。 了解如何清理驱动器。
重要
如果在节点修复期间替换组件,则无需更换或重置数据驱动器。 如果替换驱动器或重置驱动器,则在节点加入系统后,将无法识别该驱动器。
在 Azure 本地实例上,不可热交换的组件包含以下项:
- 母板/基板管理控制器 (BMC)/视频卡
- 磁盘控制器/主机总线适配器 (HBA)/backplace
- 网络适配器
- 图形处理单元
- 数据驱动器(不支持热交换的驱动器,例如 PCI-e 外接卡)
不可热交换组件的实际更换步骤因原始设备制造商(OEM)硬件供应商而异。 如果非可热交换组件需要节点修复,请参阅 OEM 供应商的文档。
在修复节点之前,必须确保:
AzureStackLCMUser
在 Active Directory 中处于活动状态。 有关详细信息,请参阅 “准备 Active Directory”。
- 以等效权限登录或以其他用户身份
AzureStackLCMUser
登录。
- 尚未更改的
AzureStackLCMUser
凭据。
本部分介绍如何使用 PowerShell 修复节点,监视操作的状态 Repair-Server
,并排查任何问题。
确保已查看 先决条件。
在尝试修复的节点上执行以下步骤。
使用 Azure Stack HCI 管理员角色权限登录到 Azure 门户。
转到用于部署 Azure 本地实例的资源组。 在资源组中,确定要修复的故障节点的 Azure Arc 计算机资源。
在 Azure Arc 计算机资源中,转到设置 > 锁。 在右窗格中,会看到资源锁。
选择锁,然后选择垃圾桶图标以删除锁。
在 Azure Arc 计算机资源的概述页上,在右窗格中选择删除。 此操作应该删除故障的机器节点。
在您要修复的节点上安装操作系统和所需的驱动程序。 按照安装 Azure Stack HCI 操作系统版本 23H2 中的步骤操作。
备注
如果使用自定义存储 IP 部署了 Azure 本地实例,则必须在修复节点后手动将 IP 分配到存储网络适配器。
将节点注册到 Arc。按照 Arc 注册中的 步骤操作并设置权限。
备注
必须使用与现有节点相同的参数向 Arc 注册。例如:资源组名称、区域、订阅和租户。
向修复的节点分配以下权限:
- Azure 本地设备管理角色
- 密钥库机密用户有关详细信息,请参阅向节点分配权限。
在属于同一 Azure 本地实例的另一个节点上执行以下步骤。
如果运行的版本低于 2405.3,则必须运行以下命令来清理冲突的文件:
Get-ChildItem -Path "$env:SystemDrive\NugetStore" -Exclude Microsoft.AzureStack.Solution.LCMControllerWinService*,Microsoft.AzureStack.Role.Deployment.Service* | Remove-Item -Recurse -Force
使用你在部署系统期间提供的域用户凭据登录到已是系统成员的节点。 运行以下命令来修复传入节点:
$Cred = Get-Credential
Repair-Server -Name "<Name of the new node>" -LocalAdminCredential $Cred
备注
节点名称必须是 NetBIOS 名称。 该参数LocalAdminCredential
默认为Windows操作系统安装时创建的内置管理员帐户。
记下命令输出的操作 ID Repair-Server
。 稍后将使用此来监视操作的 Repair-Server
进度。
若要监视添加节点操作的进度,请执行以下步骤:
运行以下 cmdlet 并提供上一步的操作 ID。
$ID = "<Operation ID>"
Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID
操作完成后,后台存储重新均衡作业将继续运行。 等待存储重新平衡作业完成。 若要验证此存储重新均衡作业的进度,请使用以下 cmdlet:
Get-VirtualDisk|Get-StorageJob
如果存储重新平衡作业已完成,则 cmdlet 不会返回输出。
以下恢复方案和建议的缓解步骤已进行选项卡化,用于修复节点:
方案描述 |
缓解措施 |
是否支持? |
修复节点操作失败。 |
若要完成该操作,请调查失败。 使用 Repair-Server -Rerun . 重新运行失败的操作。 |
是 |
修复节点操作部分成功,但必须从新的操作系统安装开始。 |
在此方案中,业务流程协调程序(也称为生命周期管理器)已使用新节点更新其知识存储。 使用修复节点方案。 |
是 |
如果在修复节点时遇到故障或错误,则可以捕获日志文件中失败的输出。
使用你在系统部署期间提供的域用户凭据登录。 捕获日志文件中的问题。
Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
若要重新运行失败的操作,请使用以下 cmdlet:
Repair-Server -Rerun
详细了解如何 添加节点。