Udostępnij za pośrednictwem


Rozwiązywanie problemów z klastrem przy użyciu identyfikatora zdarzenia 1135

Ten artykuł ułatwia diagnozowanie i rozwiązywanie problemów z identyfikatorem zdarzenia 1135, które może być rejestrowane podczas uruchamiania usługi klastrowania w środowisku klastrowania trybu failover.

Dotyczy: Windows Server 2022, Windows Server 2019, Windows Server 2016, Azure Stack HCI, wersje 21H2 i 20H2

Wypróbuj naszego agenta wirtualnego — może on pomóc w szybkim identyfikowaniu i rozwiązywaniu typowych problemów z replikacją usługi Active Directory.

Strona początkowa

Identyfikator zdarzenia 1135 wskazuje, że co najmniej jeden węzeł klastra został usunięty z aktywnego członkostwa w klastrze trybu failover. Mogą mu towarzyszyć następujące objawy:

Weryfikacja i testy sieciowe byłyby zalecane jako jeden z początkowych kroków rozwiązywania problemów, aby upewnić się, że nie ma żadnych problemów z konfiguracją, które mogą być przyczyną problemów.

Usługa klastrowania jest podstawowym składnikiem oprogramowania, który kontroluje wszystkie aspekty operacji klastra trybu failover i zarządza bazą danych konfiguracji klastra. Jeśli widzisz identyfikator zdarzenia 1135, zalecamy zainstalowanie poprawek wymienionych w poniższych artykułach i ponowne uruchomienie wszystkich węzłów klastra, a następnie sprawdzenie, czy problem wystąpi ponownie.

Sprawdź, czy usługa klastra działa we wszystkich węzłach

Wykonaj następujące polecenie zgodnie z systemem operacyjnym Windows, aby sprawdzić, czy usługa klastra jest stale uruchomiona i dostępna.

W przypadku klastra systemu Windows Server 2008 R2

W wierszu polecenia z podwyższonym poziomem uprawnień uruchom polecenie cluster.exe node /stat.

W przypadku klastra Windows Server 2012 i Windows Server 2012 R2

Uruchom następujące polecenie cmdlet programu PowerShell: Get-ClusterResource

Czy usługa klastrowania jest stale uruchomiona i dostępna we wszystkich węzłach?

Kilka scenariuszy zdarzenia o identyfikatorze 1135

Chcemy przyjrzeć się bliżej dziennikom zdarzeń systemowych we wszystkich węzłach klastra. Przejrzyj identyfikator zdarzenia 1135 widoczny w węzłach i skopiuj wszystkie wystąpienia tego zdarzenia. Dzięki temu będzie ci wygodnie patrzeć na nie i przeglądać.

Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped. 
This could also be due to the node having lost communication with other active nodes in the failover cluster. 
Run the Validate a Configuration wizard to check your network configuration. 
If the condition persists, check for hardware or software errors related to the network adapters on this node. 
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.

Istnieją trzy typowe scenariusze:

Scenariusz A

Patrzysz na wszystkie zdarzenia i wszystkie węzły w klastrze wskazują, że węzeł A utracił komunikację.

Diagram przedstawiający pomyślne komunikowanie się węzłów A, węzłów B i węzłów C.

Diagram pokazujący, że węzeł A utracił komunikację z węzłami B i Node C.

Może być możliwe, że gdy widzisz dzienniki systemowe w środowisku NODE A, ma on zdarzenia dla wszystkich pozostałych węzłów w klastrze.

Rozwiązanie

Sugeruje to, że w momencie wystąpienia problemu albo z powodu przeciążenia sieci, albo w inny sposób utracono komunikację z węzłem A.

Należy przejrzeć i zweryfikować problemy z konfiguracją sieci i komunikacją. Pamiętaj, aby wyszukać problemy dotyczące węzła A.

Scenariusz B

Patrzysz na zdarzenia w węzłach i powiedzmy, że klaster jest rozproszony w dwóch lokacjach. NODE A, NODE B i NODE C w lokacji 1 i WĘŹLE D & NODE E w lokacji 2.

Diagram przedstawiający pomyślną komunikację lokacji 1 z lokacją 2 za pośrednictwem łącza sieci WAN.

W węzłach A, B i C zobaczysz, że zarejestrowane zdarzenia dotyczą łączności z węzłami D & E. Podobnie, gdy zobaczysz zdarzenia w węzłach D & E, zdarzenia sugerują, że utraciliśmy komunikację z A, B i C.

Diagram pokazujący, że lokacja 1 utraciła połączenie usługi WAN Link z lokacją 2.

Rozwiązanie

Jeśli widzisz podobne działanie, wskazuje to, że wystąpił błąd komunikacji za pośrednictwem linku łączącego te witryny. Zalecamy zapoznanie się z połączeniem między lokacjami, jeśli odbywa się to za pośrednictwem połączenia sieci WAN, zalecamy sprawdzenie połączenia z usługodawcą internetowym.

Scenariusz C

Patrzysz na zdarzenia w węzłach i widzisz, że nazwy węzłów nie są zgodne z żadnym konkretnym wzorcem. Załóżmy, że klaster jest rozproszony w dwóch lokacjach. NODE A, NODE B i NODE C w lokacji 1 i node D & NODE E w lokacji 2.

  • W węźle A: zobaczysz zdarzenia dla węzłów B, D, E.
  • W węźle B: zobaczysz zdarzenia dla węzłów C, D, E.
  • W węźle C: zobaczysz zdarzenia dla węzłów A, B, E.
  • W węźle D: zobaczysz zdarzenia dla węzłów A, C, E.
  • W węźle E: zobaczysz zdarzenia dla węzłów B, C, D.
  • Lub inne kombinacje.

Diagram scenariusza C pokazujący, że klaster jest rozproszony w dwóch lokacjach.

Rozwiązanie

Takie zdarzenia są możliwe, gdy kanały sieciowe między węzłami są zadławione, a komunikaty komunikacyjne klastra nie docierają w odpowiednim czasie, co sprawia, że klaster czuje, że komunikacja między węzłami zostanie utracona, co spowoduje usunięcie węzłów z członkostwa w klastrze.

Przegląd sieci klastra

Zalecamy zapoznanie się z sieciami klastrów, sprawdzając następujące trzy opcje jeden po drugim, aby kontynuować ten przewodnik rozwiązywania problemów.

Sprawdzanie wykluczenia programu antywirusowego

Wyklucz następujące lokalizacje systemu plików ze skanowania wirusów na serwerze z uruchomionymi usługami klastra:

  • Ścieżka monitora udziału plików
  • Folder %Systemroot%\Cluster

Skonfiguruj składnik skanowania w czasie rzeczywistym w oprogramowaniu antywirusowym, aby wykluczyć następujące katalogi i pliki:

  • Domyślny katalog konfiguracji maszyny wirtualnej (C:\ProgramData\Microsoft\Windows\Hyper-V)

  • Niestandardowe katalogi konfiguracji maszyn wirtualnych

  • Domyślny katalog wirtualnych dysków twardych (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)

  • Niestandardowe katalogi wirtualnych dysków twardych

  • Niestandardowe katalogi danych replikacji, jeśli używasz repliki funkcji Hyper-V

  • Katalogi migawek

  • mms.exe

    Uwaga

    Ten plik może wymagać skonfigurowania jako wykluczenia procesu w oprogramowaniu antywirusowym.

  • Vmwp.exe

    Uwaga

    Ten plik może wymagać skonfigurowania jako wykluczenia procesu w oprogramowaniu antywirusowym.

Ponadto w przypadku korzystania z migracji na żywo razem z udostępnionymi woluminami klastra należy wykluczyć ścieżkę CSV C:\Clusterstorage i wszystkie jej podkatalogi. Jeśli rozwiązujesz problemy z trybem failover lub występują ogólne problemy z usługami klastra i oprogramowaniem antywirusowym, tymczasowo odinstaluj oprogramowanie antywirusowe lub skontaktuj się z producentem oprogramowania, aby ustalić, czy oprogramowanie antywirusowe działa z usługami klastra. W większości przypadków wystarczy wyłączyć oprogramowanie antywirusowe. Nawet jeśli wyłączysz oprogramowanie antywirusowe, sterownik filtru jest nadal ładowany po ponownym uruchomieniu komputera.

Sprawdzanie konfiguracji portu sieciowego w zaporze

Usługa klastrowania steruje działaniami klastrów serwera i zarządza bazą danych klastrów. Klaster to zbiór niezależnych komputerów, które działają jak jeden komputer. Menedżerowie, programiści i użytkownicy widzą klaster jako pojedynczy system. Oprogramowanie rozpowszechnia dane między węzły klastrów. Jeśli węzeł ulegnie awarii, inne węzły dostarczają usługi i dane, które wcześniej były udostępniane przez brakujący węzeł. Gdy węzeł zostanie dodany lub naprawiony, oprogramowanie klastra migruje do tego węzła część danych.

Nazwa usługi systemu: ClusSvc

Aplikacja Protocol (Protokół) Porty
Usługa klastrowania UDP 3343
Usługa klastrowania TCP 3343 (Ten port jest wymagany podczas operacji sprzężenia węzła).
RPC TCP 135
Administracja klastra UDP 137
Kerberos UDP/TCP 464*
SMB TCP 445
Losowo przydzielone porty wysokiego poziomu UDP** UDP Losowy numer portu między 1024 a 65 535
Losowy numer portu z zakresu od 49152 do 65535***

Uwaga

Ponadto w celu pomyślnej weryfikacji klastrów trybu failover systemu Windows w systemie Windows Server 2008 lub nowszym zezwalaj na ruch przychodzący i wychodzący dla ICMP4, ICMP6.

Jest to zakres w Windows Server 2012, Windows 8, Windows Server 2008 R2, Windows 7, Windows Server 2008 i Windows Vista.

Ponadto uruchom następujące polecenie, aby sprawdzić konfigurację portu sieciowego w zaporze. Na przykład: to polecenie pomaga określić port 3343 available\open używany dla klastra trybu failover:

netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose

Uruchamianie raportu weryfikacji klastra pod kątem błędów lub ostrzeżeń

Narzędzie do sprawdzania poprawności klastra uruchamia zestaw testów w celu sprawdzenia, czy sprzęt i ustawienia są zgodne z klastrem trybu failover.

Postępuj zgodnie z poniższymi instrukcjami:

  1. Uruchom raport weryfikacji klastra pod kątem błędów lub ostrzeżeń. Aby uzyskać więcej informacji, zobacz Understanding Cluster Validation Tests: Network (Omówienie testów weryfikacji klastra: sieć)

    Zrzut ekranu przedstawiający wyniki po uruchomieniu raportu weryfikacji klastra dla wszelkich błędów lub ostrzeżeń.

  2. Sprawdź, czy nie występują ostrzeżenia i błędy dla sieci. Aby uzyskać więcej informacji, zobacz Understanding Cluster Validation Tests: Network (Omówienie testów weryfikacji klastra: sieć).

    Zrzut ekranu przedstawiający wyniki według kategorii.

    Zrzut ekranu przedstawiający sprawdzanie poprawności konfiguracji zapory systemu Windows w obszarze Sieć.

Sprawdź kolejność powiązań sieci listy

Ten test zawiera listę kolejności, w jakiej sieci są powiązane z kartami w każdym węźle.

Karta Karty i powiązania zawiera listę połączeń w kolejności, w której połączenia są dostępne dla usług sieciowych. Kolejność tych połączeń odzwierciedla kolejność wysyłania ogólnych wywołań/pakietów TCP/IP do przewodu.

Wykonaj poniższe kroki, aby zmienić kolejność powiązań kart sieciowych:

  1. Wybierz pozycję Start, wybierz pozycję Uruchom, wpisz ncpa.cpl, a następnie wybierz przycisk OK. Dostępne połączenia można wyświetlić w sekcji SIEĆ LAN i High-Speed Internet w oknie Connections sieci.
  2. W menu Zaawansowane wybierz pozycję Ustawienia zaawansowane, a następnie wybierz kartę Karty i powiązania .
  3. W obszarze Connections wybierz połączenie, które chcesz przenieść wyżej na liście. Użyj przycisków strzałek, aby przenieść połączenie. Co do zasady karta, która komunikuje się z siecią (łączność z domeną, routing do innych sieci itp., powinna być pierwszą kartą powiązaną (u góry listy).

Węzły klastra to systemy wieloadniowe. Priorytet sieci ma wpływ na klienta DNS dla wychodzącej łączności sieciowej. Karty sieciowe używane do komunikacji z klientem powinny znajdować się u góry w kolejności powiązania. Sieci niekierowe można umieścić na niższym priorytecie. W Windows Server 2012 i Windows Server 2012 R2 karta Sterownik sieci klastra (NETFT.SYS) jest automatycznie umieszczana u dołu listy kolejności powiązań.

Sprawdzanie poprawności komunikacji sieciowej

Opóźnienie w sieci może również spowodować wystąpienie tego problemu. Pakiety mogą nie zostać utracone między węzłami, ale mogą nie dotrzeć do węzłów wystarczająco szybko przed upływem limitu czasu.

Ten test sprawdza, czy przetestowane serwery mogą komunikować się z akceptowalnym opóźnieniem we wszystkich sieciach.

Na przykład w obszarze Weryfikowanie komunikacji sieciowej mogą zostać wyświetlone następujące komunikaty dotyczące problemów z opóźnieniem sieci:

Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks

W przypadku klastra z wieloma lokacjami można zwiększyć wartości limitu czasu. Aby uzyskać więcej informacji, zobacz Configure Heartbeat and DNS Settings in a Multi-Site Failover Cluster (Konfigurowanie ustawień pulsu i dns w klastrze trybu failover w wielu lokacjach).

Skontaktuj się z usługodawcą internetowym, aby uzyskać informacje o wszelkich problemach z łącznością sieci WAN.

Sprawdź, czy napotkasz którykolwiek z następujących problemów.

Utracone pakiety sieciowe między węzłami
  1. Sprawdzanie utraty pakietów przy użyciu wydajności

    Jeśli pakiet zostanie utracony na drucie gdzieś między węzłami, puls zakończy się niepowodzeniem. Możemy łatwo dowiedzieć się, czy jest to problem, używając monitor wydajności, aby przyjrzeć się licznikowi "Interfejs sieciowy\Odebrane odebrane pakiety". Po dodaniu tego licznika przyjrzyj się liczbom Średnia, Minimalna i Maksymalna, a jeśli są one dowolną wartością wyższą niż zero, bufor odbierania musi zostać dostosowany dla karty.

    Zrzut ekranu przedstawiający okno Dodawanie liczników.

    Jeśli na platformie wirtualizacji VMware występuje utrata pakietu sieciowego, zobacz sekcję "Klaster zainstalowany na platformie wirtualizacji VMware".

  2. Uaktualnianie sterowników karty sieciowej

    Ten problem może wystąpić z powodu nieaktualnych sterowników kart sieciowych\Składników integracji (IC)\VmTools lub uszkodzonych kart sieciowych. W przypadku utraty pakietów sieciowych między węzłami na maszynach fizycznych należy zaktualizować sterownik karty sieciowej. Stare lub nieaktualne sterowniki kart sieciowych i/lub oprogramowanie układowe. Czasami prosta błędna konfiguracja karty sieciowej lub przełącznika może również powodować utratę pulsu.

Klaster zainstalowany na platformie wirtualizacji VMware

Sprawdź problemy z kartą VMware w przypadku środowiska VMware.

Ten problem może wystąpić, jeśli pakiety zostaną porzucone podczas dużych wzrostów ruchu. Upewnij się, że nie ma filtrowania ruchu (na przykład z filtrem poczty). Po wyeliminowaniu tej możliwości stopniowo zwiększaj liczbę buforów w systemie operacyjnym gościa i weryfikuj.

Aby zmniejszyć liczbę nagłych spadków ruchu, wykonaj następujące kroki:

  1. Wybierz pozycję Start, wybierz pozycję Uruchom, wpisz devmgmt.msc i naciśnij klawisz Enter.
  2. Rozwiń węzeł Karty sieciowe, kliknij prawym przyciskiem myszy pozycję vmxnet3 i wybierz pozycję Właściwości.
  3. Wybierz kartę Zaawansowane.
  4. Wybierz pozycję Małe bufory Rx i zwiększ wartość. Wartość domyślna to 512, a wartość maksymalna to 8192.
  5. Wybierz pozycję Rx Ring #1 Size (Pierścień Rx nr 1 ) i zwiększ wartość. Wartość domyślna to 1024, a maksymalna to 4096.

Zapoznaj się z następującymi artykułami, aby sprawdzić problemy z kartami VMware w przypadku środowiska VMware:

Zwróć uwagę na przeciążenie sieci

Przeciążenie sieci może również powodować problemy z łącznością sieciową.

Sprawdź, czy sieć jest skonfigurowana zgodnie z zaleceniami ms i dostawcy, zobacz Konfigurowanie sieci klastra trybu failover systemu Windows.

Sprawdzanie konfiguracji sieci

Jeśli nadal nie działa, sprawdź, czy w graficznym interfejsie użytkownika klastra była widoczna sieć partycjonowana lub czy w karcie sieciowej pulsu włączono tworzenie zespołu kart sieciowych.

Jeśli w graficznym interfejsie użytkownika klastra jest widoczna sieć partycjonowana, zobacz "Partycjonowane" sieci klastra , aby rozwiązać ten problem.

Jeśli w karcie sieciowej pulsu włączono tworzenie zespołu kart interfejsu sieciowego, sprawdź funkcje tworzenia zespołu oprogramowania zgodnie z zaleceniami dostawcy zespołu.

Uaktualnianie sterowników karty sieciowej

Ten problem może wystąpić z powodu nieaktualnych sterowników kart sieciowych lub uszkodzonych kart sieciowych.

W przypadku utraty pakietów sieciowych między węzłami na maszynach fizycznych należy zaktualizować sterownik karty sieciowej. Stare lub nieaktualne sterowniki kart sieciowych i/lub oprogramowanie układowe.

Czasami prosta błędna konfiguracja karty sieciowej lub przełącznika może również powodować utratę pulsu.

Sprawdzanie konfiguracji sieci

Jeśli nadal nie działa, sprawdź, czy w graficznym interfejsie użytkownika klastra była widoczna sieć podzielona na partycje, czy włączono tworzenie zespołu kart sieciowych na karcie sieciowej pulsu.