本文提供操作员 Nexus 群集的故障排除建议和升级方法,这些群集报告了 Azure 资源运行状况中控制平面连接的问题。
症状
此警报指示从群集连接到存储控制平面时出现问题。 这两类警报具有不同的症状:
- 降级的群集已失去存储控制平面的冗余。 这意味着其中一个控制器遇到连接问题。 群集继续正常运行,但此问题应快速修复,以将冗余还原到系统。
- 不正常的群集无法访问存储控制平面。 依赖于
nexus-volume卷的新工作负载无法启动,而依赖于nexus-volume卷的现有工作负载无法迁移到新节点。 此外,无法创建新的云服务网络。
故障排除
群集可能会在存储设备升级期间被标记为降级,因为这些升级使控制器一个接一个地脱机。 升级完成后,群集应返回到正常状态。
如果升级不是根本原因,应按照以下步骤检查聚合器机架中的管理交换机是否存在任何问题:
- 从群集(操作员 Nexus)资源概述页开始。 单击网络结构资源的链接。
- 转到
Infrastructure->Network Devices并搜索聚合器机架管理交换机。 确保成功预配和启用它们。
- 单击管理开关,然后转到
Monitoring->Metrics选项卡。选择Interface Out Pkts,然后对Interface Name维度应用拆分。
- 检查数据包数突然降至零的任何接口。 如果发现受影响的电缆,应重新插入它们。
- 重复检查第二个管理开关。
如果升级或管理交换机问题不是根本原因,则应向Microsoft提交工单,并引用本故障排除指南的文本。