排查事件 ID 为 1135 的群集问题

本文可帮助你诊断和解决在故障转移群集环境中启动群集服务期间可能会记录的事件 ID 1135。

适用于:Windows Server 2022、Windows Server 2019、Windows Server 2016、Azure Stack HCI 版本 21H2 和 20H2

试用我们的虚拟代理 - 它可以帮助你快速识别和修复常见的 Active Directory 复制问题。

开始页

事件 ID 1135 指示已从活动故障转移群集成员身份中删除一个或多个群集节点。 它可能伴随着以下症状:

建议将验证和网络测试作为初始故障排除步骤之一,以确保没有可能导致问题的配置问题。

群集服务是控制故障转移群集操作的所有方面和管理群集配置数据库的基本软件组件。 如果看到事件 ID 1135,建议安装以下文章中提到的修补程序并重新启动群集的所有节点,然后观察问题是否再次发生。

检查群集服务是否在所有节点上运行

根据 Windows 操作系统执行以下命令,验证群集服务是否持续运行且可用。

对于 Windows Server 2008 R2 群集

从提升的命令提示符运行 cluster.exe node /stat

对于 Windows Server 2012 和 Windows Server 2012 R2 群集

运行以下 PowerShell cmdlet: Get-ClusterResource

群集服务是否持续运行并在所有节点上可用?

事件 ID 1135 的几种方案

我们希望你更仔细地了解群集所有节点上的系统事件日志。 查看节点上看到的事件 ID 1135,并复制此事件的所有实例。 这样就可以方便地查看和查看它们。

Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped. 
This could also be due to the node having lost communication with other active nodes in the failover cluster. 
Run the Validate a Configuration wizard to check your network configuration. 
If the condition persists, check for hardware or software errors related to the network adapters on this node. 
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.

有三种典型方案:

方案 A

你正在查看所有事件,群集中的所有节点都指示节点 A 已失去通信。

显示节点 A、节点 B 和节点 C 通信成功的关系图。

显示节点 A 已与节点 B 和节点 C 失去通信的关系图。

当在节点 A 上看到系统日志时,它可能具有群集中所有剩余节点的事件。

解决方案

这完全表明,在问题发生时,由于网络拥塞或与节点 A 的通信丢失。

应查看并验证网络配置和通信问题。 请记得查找与节点 A 相关的问题。

方案 B

你正在查看节点上的事件,让我们说群集分散在两个站点上。 站点 1 上的节点 A、节点 B 和节点 C,节点 D & 站点 2 上的节点 E。

显示站点 1 通过 WAN 链接成功与站点 2 通信的关系图。

在节点 A、B 和 C 上,可以看到记录的事件用于连接到节点 D & E。同样,当你在节点 D & E 上看到事件时,这些事件表明我们与 A、B 和 C 失去了通信。

显示站点 1 已失去与站点 2 的 WAN 链接连接的关系图。

解决方案

如果看到类似的活动,则表明通过连接这些站点的链接发生了通信失败。 建议查看跨站点的连接,如果这是通过 WAN 连接建立的,我们建议你向 ISP 验证连接。

方案 C

你正在查看节点上的事件,并看到节点的名称没有以任何特定模式进行记号。 假设群集分散在两个站点上。 站点 1 上的节点 A、节点 B 和节点 C,节点 D & 站点 2 上的节点 E。

  • 在节点 A 上:可以看到节点 B、D、E 的事件。
  • 在节点 B 上:可以看到节点 C、D、E 的事件。
  • 在节点 C 上:可以看到节点 A、B、E 的事件。
  • 在节点 D 上:可以看到节点 A、C、E 的事件。
  • 在节点 E 上:可以看到节点 B、C、D 的事件。
  • 或任何其他组合。

方案 C 的示意图,显示群集分散在两个站点上。

解决方案

当节点之间的网络通道被阻塞且群集通信消息未及时到达时,可能会发生此类事件,使群集感到节点之间的通信丢失,从而导致从群集成员身份中删除节点。

查看群集网络

建议逐个检查以下三个选项来查看群集网络,以继续本故障排除指南。

检查防病毒排除

在运行群集服务的服务器上从病毒扫描中排除以下文件系统位置:

  • FileShare 见证的路径
  • %Systemroot%\Cluster 文件夹

在防病毒软件中配置实时扫描组件,以排除以下目录和文件:

  • 默认虚拟机配置目录 (C:\ProgramData\Microsoft\Windows\Hyper-V)

  • 自定义虚拟机配置目录

  • 默认虚拟硬盘驱动器目录 (C:\Users\Public\Documents\Hyper-V\虚拟硬盘)

  • 自定义虚拟硬盘驱动器目录

  • 自定义复制数据目录(如果使用 Hyper-V 副本)

  • 快照目录

  • mms.exe

    注意

    此文件可能必须配置为防病毒软件中的进程排除。

  • Vmwp.exe

    注意

    此文件可能必须配置为防病毒软件中的进程排除。

此外,将实时迁移与群集共享卷一起使用时,请排除 CSV 路径 C:\Clusterstorage 及其所有子目录。 如果要排查故障转移问题或群集服务和安装防病毒软件的一般问题,请暂时卸载防病毒软件或与软件制造商检查,以确定防病毒软件是否适用于群集服务。 在大多数情况下,仅禁用防病毒软件是不够的。 即使禁用防病毒软件,重启计算机时仍会加载筛选器驱动程序。

检查防火墙中的网络端口配置

群集服务控制服务器群集操作和管理群集数据库。 群集是充当单台计算机的独立计算机的集合。 管理员、程序员和用户将群集视为单个系统。 软件在群集的节点之间分发数据。 如果一个节点发生故障,则其他节点将提供以前由缺失节点提供的服务和数据。 添加或修复节点时,群集软件会将一些数据迁移到该节点。

系统服务名称:ClusSvc

Application 协议 端口
群集服务 UDP 3343
群集服务 TCP 3343(节点加入操作期间需要此端口。)
RPC TCP 135
群集管理员 UDP 137
Kerberos UDP/TCP 464*
SMB TCP 445
随机分配的高 UDP 端口** UDP 1024 和 65535 之间的随机端口号
介于 49152 和 65535 之间的随机端口号***

注意

此外,若要在 Windows Server 2008 及更高版本上的 Windows 故障转移群集上成功验证,请允许 ICMP4、ICMP6 的入站和出站流量。

这是 Windows Server 2012、Windows 8、Windows Server 2008 R2、Windows 7、Windows Server 2008 和 Windows Vista 中的范围。

此外,运行以下命令以检查防火墙中的网络端口配置。 例如:此命令可帮助确定用于故障转移群集的端口 3343 available\open:

netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose

针对任何错误或警告运行群集验证报告

群集验证工具运行一套测试,以验证硬件和设置是否与故障转移聚类分析兼容。

请按照以下说明操作:

  1. 针对任何错误或警告运行群集验证报告。 有关详细信息,请参阅 了解群集验证测试:网络

    运行群集验证报告后的结果的屏幕截图,其中显示了任何错误或警告。

  2. 验证网络的警告和错误。 有关详细信息,请参阅 了解群集验证测试:网络

    按类别显示的结果的屏幕截图。

    “网络”下的“验证 Windows 防火墙配置”的屏幕截图。

检查列表网络绑定顺序

此测试列出了将网络绑定到每个节点上的适配器的顺序。

适配器和绑定 ”选项卡按网络服务访问连接的顺序列出连接。 这些连接的顺序反映了通用 TCP/IP 调用/数据包发送到线路的顺序。

按照以下步骤更改网络适配器的绑定顺序:

  1. 依次选择“ 开始”、“ 运行”、“ ncpa.cpl”,然后选择“ 确定”。 可以在“网络Connections”窗口的 LAN 和 High-Speed Internet 部分中查看可用的连接。
  2. 在“ 高级 ”菜单上,选择“ 高级设置”,然后选择“ 适配器和绑定 ”选项卡。
  3. “Connections”区域中,选择要在列表中移动更高的连接。 使用箭头按钮移动连接。 一般情况下,与网络 (域连接、路由到其他网络等卡应该是列表) 卡) 顶部 (第一个绑定。

群集节点是多宿主系统。 网络优先级会影响出站网络连接的 DNS 客户端。 用于客户端通信的网络适配器应位于绑定顺序的顶部。 可以将非路由网络置于较低的优先级。 在 Windows Server 2012 和 Windows Server 2012 R2 中,群集网络驱动程序 (NETFT.SYS) 适配器会自动放置在绑定顺序列表的底部。

检查验证网络通信

网络上的延迟也可能导致发生这种情况。 数据包可能不会在节点之间丢失,但在超时期限到期之前,它们可能无法足够快地到达节点。

此测试验证测试的服务器是否可以在所有网络上以可接受的延迟进行通信。

例如:在“验证网络通信”下,你可能会看到以下有关网络延迟问题的消息:

Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks

对于多站点群集,可以增加超时值。 有关详细信息,请参阅 在多站点故障转移群集中配置检测信号和 DNS 设置

有关任何 WAN 连接问题,请咨询 ISP。

检查是否遇到以下任何问题。

节点之间丢失的网络数据包
  1. 使用性能检查数据包丢失

    如果数据包在节点之间的某个网络上丢失,则检测信号将失败。 使用性能监视器查看“网络接口\已接收的数据包已丢弃”计数器,可以轻松找出此问题。 添加此计数器后,请查看“平均值”、“最小值”和“最大值”,如果它们大于零,则需要针对适配器调整接收缓冲区。

    “添加计数器”窗口的屏幕截图。

    如果在 VMware 虚拟化平台上遇到网络数据包丢失,请参阅“VMware 虚拟化平台中安装的群集”部分。

  2. 升级 NIC 驱动程序

    出现此问题的原因可能是 NIC 驱动程序\集成组件 (IC) \VmTools 或 NIC 适配器错误。 如果物理计算机上的节点之间丢失了网络数据包,请更新网络适配器驱动程序。 旧网络或过期的网络卡驱动程序和/或固件。 有时,网络卡或交换机的简单错误配置也可能导致检测信号丢失。

VMware 虚拟化平台中安装的群集

在 VMware 环境中验证 VMware 适配器问题。

如果在高流量突发期间丢弃数据包,则可能会出现此问题。 确保 (没有发生流量筛选,例如邮件筛选器) 。 消除这种可能性后,逐步增加来宾操作系统中的缓冲区数并验证。

若要减少突发流量下降,请执行以下步骤:

  1. 选择 “开始”,选择“ 运行”,键入 devmgmt.msc 并按 Enter
  2. 展开 “网络适配器”,右键单击“ vmxnet3 ”,然后选择“ 属性”。
  3. 选择“高级”选项卡。
  4. 选择“ 小型 Rx 缓冲区 ”并增加值。 默认值为 512,最大值为 8192。
  5. 选择“ Rx Ring #1 大小”并增加值。 默认值为 1024,最大值为 4096。

查看以下文章,在 VMware 环境中验证 VMware 适配器问题:

注意任何网络拥塞

网络拥塞也可能导致网络连接问题。

验证网络是否已按照 MS 和供应商的建议进行配置,请参阅 配置 Windows 故障转移群集网络

检查网络配置

如果仍不起作用,请检查是否已在群集 GUI 中看到分区网络,或者在检测信号 NIC 上启用了 NIC 组合。

如果在群集 GUI 中看到分区网络,请参阅 “已分区”群集网络 来排查问题。

如果在检测信号 NIC 上启用了 NIC 组合,请根据组合供应商的建议检查组合软件功能。

升级 NIC 驱动程序

出现此问题的原因可能是 NIC 驱动程序过时或 NIC 适配器有故障。

如果物理计算机上的节点之间丢失了网络数据包,请更新网络适配器驱动程序。 旧网络或过期的网络卡驱动程序和/或固件。

有时,网络卡或交换机的简单错误配置也可能导致检测信号丢失。

检查网络配置

如果仍不起作用,检查是在群集 GUI 中看到分区网络,还是在检测信号 NIC 上启用了 NIC 组合。