故障排除控制平面连接性问题 - Azure Resource Health

本文提供操作员 Nexus 群集的故障排除建议和升级方法,这些群集报告了 Azure 资源运行状况中控制平面连接的问题。

症状

此警报指示从群集连接到存储控制平面时出现问题。 这两类警报具有不同的症状:

  • 降级的群集已失去存储控制平面的冗余。 这意味着其中一个控制器遇到连接问题。 群集继续正常运行,但此问题应快速修复,以将冗余还原到系统。
  • 不正常的群集无法访问存储控制平面。 依赖于 nexus-volume 卷的新工作负载无法启动,而依赖于 nexus-volume 卷的现有工作负载无法迁移到新节点。 此外,无法创建新的云服务网络。

故障排除

群集可能会在存储设备升级期间被标记为降级,因为这些升级使控制器一个接一个地脱机。 升级完成后,群集应返回到正常状态。

如果升级不是根本原因,应按照以下步骤检查聚合器机架中的管理交换机是否存在任何问题:

  1. 从群集(操作员 Nexus)资源概述页开始。 单击网络结构资源的链接。 群集资源的屏幕截图,其中突出显示了网络结构链接。
  2. 转到 Infrastructure->Network Devices并搜索聚合器机架管理交换机。 确保成功预配和启用它们。 网络结构资源的“基础结构”选项卡的屏幕截图。
  3. 单击管理开关,然后转到 Monitoring->Metrics 选项卡。选择 Interface Out Pkts,然后对 Interface Name 维度应用拆分。 显示管理交换机外向数据包的指标的屏幕截图。
  4. 检查数据包数突然降至零的任何接口。 如果发现受影响的电缆,应重新插入它们。
  5. 重复检查第二个管理开关。

如果升级或管理交换机问题不是根本原因,则应向Microsoft提交工单,并引用本故障排除指南的文本。