你好我理解这个故障转移群集问题真的很让人头疼 — 在一个节点上运行正常,但切换到另一个节点就出问题,这种“有时候能用”的情况最难排查。 根据你的描述,物理 IP 一直都能访问,所以基础网络没有问题。 问题通常出在 Windows Server 2016 故障转移群集在节点切换时对虚拟 IP 的处理。 有时候上游三层交换机的 ARP 表不会及时刷新,即使 MAC 地址看起来是正确的。
你可以尝试在资源切换时强制发送 gratuitous ARP 广播,让外部客户端更快更新映射。 另外,检查一下两个群集网络是否都设置为“允许客户端通过此网络连接”,如果某个节点配置不对,就会出现你描述的情况。 还有一个步骤是确认群集角色的依赖关系是否正确(网络名称和 IP 资源绑定)。
这并不是 Windows Server 2016 的根本缺陷,但确实存在一些已知的 ARP 缓存刷新和故障转移时序上的小问题,具体表现也和交换机有关。 安装最新的群集累积更新通常能改善情况。 如果问题依旧,可以考虑测试不同交换机固件,或者在三层设备上缩短 ARP 缓存的生命周期