重要
适用于 Windows Server 的网络 HUD 目前为预览版。 这些与预发行产品相关的信息在发布前可能进行重大修改。 Microsoft 不对此处提供的信息作任何明示或默示的担保。
网络 HUD 是一种主机网络诊断和操作工具,用于分析和修正主机网络问题。 网络 HID 持续运行,关联物理交换机链路、主机适配器设置,以及消耗这些资源的群集角色。 使用网络意向数据时,网络 HUD 会选择相关测试,并在出现的问题威胁到工作负荷性能或稳定性时引发早期警报。
主机网络可能很难进行故障排除,因为需要从物理结构交换机、群集主机、网络适配器设置和来宾工作负荷中收集信息。 这种分离会掩盖根本原因、减缓修正,并增加性能或稳定性下降的风险。 网络 HUD 可帮助你:
- 识别物理网络上的错误配置。 例如,缺少 VLAN 或 PFC 优先级。
- 检测运行中的硬件问题,例如抖动或不稳定的适配器、PCIe 超订。
- 优化并验证主机配置对称性和驱动程序就绪情况。
- 自动修正所选条件,例如在安全的情况下从服务中删除永久不稳定的适配器。
可用性和要求
要使网络 HUD 可供你使用,你必须有资格获得 Azure Arc 启用的 Windows Server 管理。若要详细了解网络 HUD 权益的可用性,请参阅 Azure Arc 启用的 Windows Server 管理。
如果计算机符合 Azure Arc 启用的 Windows Server 管理的条件,环境必须满足以下要求:
- 你正在使用 Windows Server 故障转移集群。
- 群集节点必须运行 Windows Server 2025 Datacenter。
- 网络 ATC 通过主机网络意图进行部署。 若要了解有关部署网络 ATC 的详细信息,请参阅 使用网络 ATC 部署主机网络。
- 群集必须启用存储空间直连(S2D),这是群集运行状况服务所需的。 若要详细了解如何部署存储空间直通,请参阅 在 Windows Server 上部署存储空间直通。
- 每个群集节点必须连接到 Azure Arc。
术语
下表定义了本文档中使用的一些关键术语:
| 术语 | Definition |
|---|---|
| 网络 HUD:网络 HUD | Azure Arc 权益启用的 Windows Server 管理可分析主机网络问题,并在可能的情况下修正主机网络问题。 |
| 网络 HUD:内容 | 检测逻辑包单独下载并会定期更新,可以离线运行。 |
| 网络 HUD:内容检测 | 监视行为的单个检测单元,指示问题发生或可能发生。 |
| 网络自动传输控制:意图 | 有关如何使用一个或多个物理适配器的定义。 例如,聚合管理/计算/存储集。 每个物理适配器只能属于一个用途。 |
| 网络 ATC:意图类型 | 在意向中分配的角色。 支持的类型:管理、计算、存储、拉伸(类似于存储,但没有 RDMA)。 |
网络 HUD 的工作原理
网络 HUD 显示具备群集感知能力,并在声明的网络 ATC 意图和群集状态的背景下,不断地解释原始主机及网络结构信号。 它不会将适配器、交换机和角色视为隔离组件,而是将它们关联到整个群集中,以便了解作上下文中出现的不稳定。 例如,它会在存储、计算或管理操作的上下文中检测抖动的端口。 每个检测通过组合多个遥测流来减少噪声,并仅提取可操作的健康故障。
为了显示可采取行动的健康故障,Network HUD 从以下项收集事件并标准化事件:
- 网络 ATC 意向元数据,宣示每个适配器应承载的内容,确定哪些测试是相关的,并抑制不必要的检查。
- LLDP 与架顶交换机进行通信,以映射物理端口、VLAN 通告和优先级流控制准备情况,以便处理RDMA流量。
- 事件日志会记录指示适配器重置、链路状态转换或驱动程序加载异常的信号,这些情况通常发生在性能下降之前。
- 用于带宽、拥塞指示器和稳定性的性能计数器和实时适配器指标。
- 需要精度时,可以(使用
pktmon)进行数据包级洞察和低级别硬件属性分析。 例如,验证过度订阅风险。
这些输入合并到意图感知检测中,这些检测通过现有群集健康管道发布健康故障,因此 Windows Admin Center 和 PowerShell 展示了网络问题。 网络 HUD 在每个节点上本地运行,以降低延迟和复原能力。
健康检测场景
网络 HUD 主动检测通常处于不稳定或性能下降之前的主机网络条件。 以下方案将原始检测信号转换为可作的运行状况错误,可以在配置错误或硬件问题影响工作负荷性能或稳定性之前进行修正。
| 检测 | 目的 |
|---|---|
| 网络“ATC”意图失败 | 检测未完全预配的配置意图(缺少虚拟适配器、QoS、存储设置),以防止不明确的偏差和不可靠的基准。 |
| 缺少网络 ATC 意向类型 | 确保存在所需的流量角色(管理、计算、存储),以便运行特定于角色的诊断;缺席可减少覆盖范围并屏蔽非托管流量。 |
| PCIe 带宽超量订阅 | 比较聚合网卡链路速率与插槽/PCIe 通道容量;超额订阅可能会导致节流以及负载下性能不一致。 |
| 不稳定(波动)适配器 | 在工作负荷影响升级之前,标记频繁的链接重置或掉线,这些问题会触发故障切换、导致延迟增加以及吞吐量下降。 |
| 收件箱(不支持)生产驱动程序 | 标识仅使用缺少高级卸载和优化功能的基础预装驱动程序的 NIC,从而增加可靠性和性能的风险。 |
| 老化或过时的驱动程序 | 评估驱动程序包的使用时间,并识别早期维护需求。 当驱动程序使用超过一年时发出警告,以便用户可以计划更新。 |
| 驱动程序版本不一致 | 跨相同的适配器检测不匹配的版本,防止非对称行为和不可预知的性能。 |
| LLDP运行状态 | 指示 LLDP 数据包缺失或解析失败,这可能减少物理交换机的链路检测能力,并削弱其他结构验证测试的效果。 |
| 配置错误或不一致的 VLAN | 比较播发的与预期 VLAN 跨同一主机意向成员、跨所有主机的相同意向,以及与所需的工作负荷(VM NIC) VLAN 可用性进行比较。 偏差有 VM 连接丢失或存储隔离故障的风险。 跨三个独立范围的 VLAN 一致性,以便在成为集群问题之前捕获局部配置错误:同一主机意图范围:相关交换机端口必须在单个主机上向同一网络 ATC 意图中的每个适配器发布相同的 VLAN 集。 群集意图范围:所有交换机端口必须在群集中的每个主机上向同一网络 ATC 意图中的适配器通告一致的 VLAN 集。 工作负荷可用性范围:所有计算工作负荷(VM NIC)所需的 VLAN 必须播发到参与每个主机上的同一网络 ATC 意向的每个适配器。 |
| 优先流控不一致(PFC) | 对于存储意图适配器,网络 HUD 将物理交换机中通告的 LLDP 优先级与主机配置的 PFC 进行比较。 标志丢失或不匹配的设置可能会导致拥塞、长时间暂停条件、提升的延迟或存储(S2D)故障。 使用主机意向配置的 RDMA 存储流量的 PFC 优先级对齐。 对于存储意图适配器,PFC 验证包括比较交换机通过 LLDP 广播的优先级与由主机上的网络 ATC 启用的优先级。 网络 HUD 标记不匹配的配置,以避免发生拥塞、长时间暂停状态、延迟增加或存储(S2D)故障。 |
管理员可以使用 PowerShell 查询错误,例如:
Get-HealthFault | Where-Object Reason -like '*HUD*'
管理员还可以在 Windows Admin Center 群集运行状况视图中查看网络 HUD 错误。 以下屏幕截图显示了 Windows Admin Center 中网络 HUD 故障的示例: