Share via


針對事件標識碼 1135 的叢集問題進行疑難解答

本文可協助您診斷和解決事件標識碼 1135,該標識碼可能會在故障轉移叢集環境中啟動叢集服務期間記錄。

適用於:Windows Server 2022、Windows Server 2019、Windows Server 2016、Azure Stack HCI 21H2 和 20H2 版

試用我們的虛擬代理程式 - 它可協助您快速識別並修正常見的 Active Directory 複寫問題。

開始頁面

事件標識碼 1135 表示已從作用中的故障轉移叢集成員資格中移除一或多個叢集節點。 它可能會伴隨下列徵兆:

建議使用驗證和網路測試做為其中一個初始疑難解答步驟,以確保沒有任何可能造成問題的設定問題。

叢集服務是必要的軟體元件,可控制故障轉移叢集作業的所有層面,並管理叢集設定資料庫。 如果您看到事件標識碼 1135,建議您安裝下列文章中所述的修正程式,並重新啟動叢集的所有節點,然後觀察問題是否重複發生。

檢查叢集服務是否在所有節點上執行

根據您的 Windows 作業系統遵循下列命令,以驗證叢集服務是否持續執行且可供使用。

針對 Windows Server 2008 R2 叢集

從提升權限的指令提示字元中,執行 cluster.exe node /stat

針對 Windows Server 2012 和 Windows Server 2012 R2 叢集

執行下列 PowerShell Cmdlet: Get-ClusterResource

叢集服務是否持續在所有節點上執行且可供使用?

事件標識碼 1135 的數個案例

我們希望您進一步瞭解叢集所有節點上的系統事件記錄檔。 檢閱您在節點上看到的事件標識碼 1135,並複製此事件的所有實例。 這可讓您方便查看和檢閱。

Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped. 
This could also be due to the node having lost communication with other active nodes in the failover cluster. 
Run the Validate a Configuration wizard to check your network configuration. 
If the condition persists, check for hardware or software errors related to the network adapters on this node. 
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.

有三個典型的案例:

案例 A

您正在查看所有事件,而叢集中的所有節點都指出NODE A 已中斷通訊。

顯示節點 A、節點 B 和節點 C 通訊成功的圖表。

顯示節點 A 與節點 B 和節點 C 的通訊中斷的圖表。

當您在NODE A 上看到系統記錄時,可能會有叢集中所有剩餘節點的事件。

解決方案

這表示在發生問題時,可能是因為網路壅塞,或是與NODE A 的通訊中斷。

您應該檢閱並驗證網路設定和通訊問題。 請記得尋找節點 A 的相關問題。

案例 B

您正在查看節點上的事件,讓我們假設您的叢集分散在兩個站臺上。 網站 1 的 NODE A、NODE B 和 NODE C,以及網站 2 的 NODE D & 節點 E。

此圖顯示月臺 1 透過 WAN 連結成功與網站 2 通訊。

在節點 A、B 和 C 上,您會看到記錄的事件是為了連線到節點 D & E。同樣地,當您在節點 D & E 上看到事件時,事件會指出我們與 A、B 和 C 的通訊中斷。

此圖顯示月臺 1 已失去與月臺 2 的 WAN 連結連線。

解決方案

如果您看到類似的活動,則表示透過連接這些網站的連結發生通訊失敗。 建議您檢閱跨網站的連線,如果這是透過WAN 連線,建議您向ISP確認連線能力。

案例 C

您正在查看節點上的 [事件],您會看到節點的名稱不會以任何特定模式取出。 假設您的叢集分散在兩個月臺。 網站 1 的 NODE A、NODE B 和 NODE C,以及網站 2 的 NODE D & 節點 E。

  • 在節點 A 上:您會看到節點 B、D、E 的事件。
  • 在節點 B 上:您會看到節點 C、D、E 的事件。
  • 在節點 C 上:您會看到節點 A、B、E 的事件。
  • 在節點 D 上:您會看到節點 A、C、E 的事件。
  • 在節點 E 上:您會看到節點 B、C、D 的事件。
  • 或任何其他組合。

顯示叢集分散在兩個月臺的案例 C 圖表。

解決方案

當節點之間的網路通道遭到阻斷,且叢集通訊訊息未及時到達時,可能會發生這類事件,讓叢集覺得節點之間的通訊遺失,導致從叢集成員資格移除節點。

檢閱叢集網路

建議您逐一檢查下列三個選項來檢閱您的叢集網路,以繼續進行此疑難解答指南。

檢查防病毒軟體排除

在執行叢集服務的伺服器上排除下列檔案系統位置,不進行病毒掃描:

  • FileShare 見證的路徑
  • %Systemroot%\Cluster 資料夾

在防病毒軟體中設定即時掃描元件,以排除下列目錄和檔案:

  • 默認虛擬機組態目錄 (C:\ProgramData\Microsoft\Windows\Hyper-V)

  • 自定義虛擬機組態目錄

  • 默認虛擬硬碟目錄 (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)

  • 自定義虛擬硬碟目錄

  • 如果您使用 Hyper-V 複本,請使用自訂複寫資料目錄

  • 快照集目錄

  • mms.exe

    注意事項

    此檔案可能必須設定為防病毒軟體內的進程排除。

  • Vmwp.exe

    注意事項

    此檔案可能必須設定為防病毒軟體內的進程排除。

此外,當您搭配叢集共用磁碟區使用即時移轉時,請排除 CSV 路徑 C:\Clusterstorage 及其所有子目錄。 如果您要針對故障轉移問題進行疑難解答,或是已安裝叢集服務和防病毒軟體的一般問題,請暫時卸載防病毒軟體,或向軟體製造商確認防病毒軟體是否適用於叢集服務。 在大部分情況下,只停用防病毒軟體並不夠。 即使您停用防病毒軟體,當您重新啟動計算機時,仍會載入篩選驅動程式。

檢查防火牆中的網路埠設定

叢集服務會控制伺服器叢集作業,並管理叢集資料庫。 叢集是一組作為一台電腦使用的獨立電腦。 管理員、程式設計師和使用者看到的是作為單一系統的叢集。 軟體會在該叢集中的節點之間散發資料。 如果節點失敗,則其他節點會提供以前因遺失的節點所提供的服務和資料。 新增或修復節點後,叢集軟體會將部分資料移轉至該節點。

系統服務名稱:ClusSvc

應用程式 Protocol (通訊協定) 連接埠
叢集服務 UDP 3343
叢集服務 TCP 3343 (在進行節點加入作業時,此連接埠是必要的。)
RPC TCP 135
叢集 管理員 UDP 137
Kerberos UDP/TCP 464*
SMB TCP 445
隨機配置的高 UDP 連接埠** UDP 介於 1024 和 65535 之間的隨機連接埠號碼
49152 到 65535 之間的隨機埠號碼。

注意事項

此外,若要在 Windows Server 2008 和更新版本的 Windows 故障轉移叢集上成功驗證,請允許 ICMP4、ICMP6 的輸入和輸出流量。

這是 Windows Server 2012、Windows 8、Windows Server 2008 R2、Windows 7、Windows Server 2008 和 Windows Vista 的範圍。

此外,執行下列命令以檢查防火牆中的網路埠設定。 例如:此命令可協助判斷用於故障轉移叢集的埠 3343 available\open:

netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose

針對任何錯誤或警告執行叢集驗證報告

叢集驗證工具會執行一組測試,以確認您的硬體和設定與故障轉移叢集相容。

請遵循這些指示:

  1. 針對任何錯誤或警告執行叢集驗證報告。 如需詳細資訊,請 參閱瞭解叢集驗證測試:網路

    執行叢集驗證報告后,任何錯誤或警告的結果螢幕快照。

  2. 確認網路是否有警告和錯誤。 如需詳細資訊,請 參閱瞭解叢集驗證測試:網路

    依類別目錄的結果螢幕快照。

    [網络] 下 [驗證 Windows 防火牆設定] 的螢幕快照。

檢查清單網路系結順序

這項測試會列出網路系結至每個節點上適配卡的順序。

[ 配接器和系結] 索引卷 標會依網路服務存取連線的順序列出連線。 這些連線的順序會反映一般 TCP/IP 呼叫/封包傳送至網路的順序。

請遵循下列步驟來變更網路適配器的系結順序:

  1. 取 [開始],選取 [ 執行],輸入 ncpa.cpl],然後選取 [ 確定]。 您可以在 [網络 Connections] 視窗的 [LAN] 和 [High-Speed 因特網] 區段中看到可用的連線
  2. 在 [ 進階 ] 功能表上,選取 [ 進階設定],然後選取 [ 配接器和系結] 索引卷 標。
  3. [Connections] 區域中,選取您要在清單中移動更高的連線。 使用箭號按鈕來移動連線。 一般而言,與網路通訊的卡片 (網域連線、路由傳送至其他網路等,應該是) 卡片) 清單頂端的第一個系結 (。

叢集節點是多宿主系統。 網路優先順序會影響輸出網路連線的 DNS 用戶端。 用於用戶端通訊的網路適配器應以系結順序位於頂端。 非路由網路的優先順序較低。 在 Windows Server 2012 和 Windows Server 2012 R2 中,叢集網路驅動程式 (NETFT.SYS) 卡會自動放在繫結順序列表的底部。

檢查驗證網路通訊

網路上的延遲也可能導致這種情況發生。 這些封包可能不會在節點之間遺失,但是在逾時期間到期之前,它們可能無法快速到達節點。

這項測試會驗證已測試的伺服器是否可以在所有網路上與可接受的延遲通訊。

例如:在 [驗證網络通訊] 下,您可能會看到下列網路等待時間問題的訊息:

Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks

針對多月臺叢集,您可以增加逾時值。 如需詳細資訊, 請參閱在多網站故障轉移叢集中設定活動訊號和 DNS 設定

檢查 ISP 是否有任何 WAN 連線問題。

檢查您是否遇到下列任何問題。

節點之間的網路封包遺失
  1. 使用效能檢查封包遺失

    如果封包在節點之間某處的網路上遺失,則活動訊號將會失敗。 我們可以使用 效能監視器 查看 「網路介面\已捨棄的封包」計數器,輕鬆找出這是否為問題。 新增此計數器之後,請查看 [平均]、[最小值] 和 [最大值],如果其值大於零,則需要針對配接器調整接收緩衝區。

    [新增計數器] 視窗的螢幕快照。

    If you're experiencing network packet lost on VMware virtualization platform, see the "Cluster installed in the VMware virtualization platform" section.

  2. 升級 NIC 驅動程式

    發生此問題的原因可能是 NIC 驅動程式\整合元件 (IC) \VmTools 或 NIC 適配卡錯誤。 如果實體機器上的節點之間遺失網路封包,請更新您的網路適配器驅動程式。 舊的或過期的網路卡驅動程式和/或韌體。 有時候,網路卡或交換器的簡單設定錯誤也可能導致活動訊號遺失。

VMware 虛擬化平台中安裝的叢集

確認 VMware 環境發生 VMware 配接器問題。

如果在高流量高載期間卸除封包,就可能發生此問題。 請確定沒有發生流量篩選 (例如,使用郵件篩選) 。 排除這種可能性之後,請逐漸增加客體操作系統中的緩衝區數目並進行驗證。

若要減少高載流量下降,請遵循下列步驟:

  1. 取 [開始],選取 [ 執行],輸入 devmgmt.msc 並按 Enter
  2. 展開 [網络適配器],以滑鼠右鍵按兩下 [vmxnet3 ],然後選取 [ 屬性]
  3. 選取 [進階] 索引標籤。
  4. 選取 [小型 Rx 緩衝區] 並增加值。 默認值為 512,最大值為 8192。
  5. 取 [Rx Ring #1 大小] 並增加值。 默認值為 1024,最大值為 4096。

請檢查下列文章,以確認 VMware 環境發生 VMware 配接器問題:

請注意任何網路壅塞

網路壅塞也可能導致網路連線問題。

確認您的網路已根據 MS 和廠商的建議進行設定,請參閱設定 Windows 故障轉移叢集網路

檢查網路設定

如果仍然無法運作,請檢查您是否已在叢集 GUI 中看到分割網路,或您已在活動訊號 NIC 上啟用 NIC 小組。

如果您在叢集 GUI 中看到分割的網路,請參閱 「已分割」叢集網路 以針對問題進行疑難解答。

如果您已在活動訊號 NIC 上啟用 NIC 小組,請根據小組廠商的建議檢查小組軟體功能。

升級 NIC 驅動程式

此問題可能是因為過期的 NIC 驅動程式或錯誤的 NIC 適配卡所造成。

如果實體機器上的節點之間遺失網路封包,請更新您的網路適配器驅動程式。 舊的或過期的網路卡驅動程式和/或韌體。

有時候,網路卡或交換器的簡單設定錯誤也可能導致活動訊號遺失。

檢查網路設定

如果仍然無法運作,請檢查您是否已在叢集 GUI 中看到分割網路,或您已在活動訊號 NIC 上啟用 NIC 小組。