意外群集故障转移问题排查指南

除非群集的某个组件(软件或硬件)存在实际问题,否则群集不会触发故障转移。 它将执行基本恢复步骤,受影响的资源将故障转移到另一个节点,原因如下:

  • 资源失败

  • 节点逐出等网络问题

  • 群集共享卷(CSV)磁盘故障

故障排除清单

  1. 标识系统事件日志中的出现时间戳。 然后,搜索有关源 Microsoft-Windows-FailoverClustering 的事件,并检查 事件 ID 1069、1146 或 1230

  2. 将系统事件日志的时区与群集日志中的 GMT 时区匹配。

    注意

    若要快速查找时区差异,请搜索 The current time is

  3. 导航到群集日志中的出现时间戳并标识相应的行。 你可能会发现以下错误:

    • Resource <name> IsAlive has indicated failure

    • IsAlive sanity check failed

    注意

    根据问题,此错误可能有所不同。

  4. 在群集日志中向上滚动,并尝试确定是否存在可能是实际原因的任何其他错误。

  5. 在群集日志中向下滚动并搜索 Group moveMove of group 查找受影响的资源。 记下确切的时间戳和目标节点。

  6. 切换到目标节点的群集日志,并在资源联机时检查其行为。 如果资源设法联机,你将找到以下日志:

    • Resource <name> has come online

    • Group move for <name> has completed

    否则,你将找到以下日志:

    Online for resource <name> failed

详细信息

有关详细信息,请参阅以下文章: