Rozwiązywanie problemów z klastrem przy użyciu identyfikatora zdarzenia 1135
Ten artykuł ułatwia diagnozowanie i rozwiązywanie problemów z identyfikatorem zdarzenia 1135, które może być rejestrowane podczas uruchamiania usługi klastrowania w środowisku klastrowania trybu failover.
Dotyczy: Windows Server 2022, Windows Server 2019, Windows Server 2016, Azure Stack HCI, wersje 21H2 i 20H2
Wypróbuj naszego agenta wirtualnego — może on pomóc w szybkim identyfikowaniu i rozwiązywaniu typowych problemów z replikacją usługi Active Directory.
Strona początkowa
Identyfikator zdarzenia 1135 wskazuje, że co najmniej jeden węzeł klastra został usunięty z aktywnego członkostwa w klastrze trybu failover. Mogą mu towarzyszyć następujące objawy:
Tryb failover klastra\nody usuwane z aktywnego członkostwa w klastrze trybu failover:
Problem z usunięciem węzłów z aktywnego członkostwa w klastrze trybu failover
Identyfikator zdarzenia 1069:
Identyfikator zdarzenia 1069 — dostępność usługi klastrowanej lub aplikacji
Identyfikator zdarzenia 1177 dla utraty kworum:
Identyfikator zdarzenia 1177 — kworum i łączność wymagane dla kworum
Zatrzymano identyfikator zdarzenia 1006 dla usługi klastra:
Identyfikator zdarzenia 1006 — uruchamianie usługi klastrowania
Weryfikacja i testy sieciowe byłyby zalecane jako jeden z początkowych kroków rozwiązywania problemów, aby upewnić się, że nie ma żadnych problemów z konfiguracją, które mogą być przyczyną problemów.
Sprawdź, czy zainstalowano zalecane poprawki
Usługa klastrowania jest podstawowym składnikiem oprogramowania, który kontroluje wszystkie aspekty operacji klastra trybu failover i zarządza bazą danych konfiguracji klastra. Jeśli widzisz identyfikator zdarzenia 1135, zalecamy zainstalowanie poprawek wymienionych w poniższych artykułach i ponowne uruchomienie wszystkich węzłów klastra, a następnie sprawdzenie, czy problem wystąpi ponownie.
- Zalecane poprawki i aktualizacje dla klastrów trybu failover opartych na Windows Server 2012 R2
- Zalecane poprawki i aktualizacje dla klastrów trybu failover opartych na Windows Server 2012
- Zalecane poprawki i aktualizacje dla klastrów trybu failover systemu Windows Server 2008 R2 z dodatkiem SP1
Sprawdź, czy usługa klastra działa we wszystkich węzłach
Wykonaj następujące polecenie zgodnie z systemem operacyjnym Windows, aby sprawdzić, czy usługa klastra jest stale uruchomiona i dostępna.
W przypadku klastra systemu Windows Server 2008 R2
W wierszu polecenia z podwyższonym poziomem uprawnień uruchom polecenie cluster.exe node /stat
.
W przypadku klastra Windows Server 2012 i Windows Server 2012 R2
Uruchom następujące polecenie cmdlet programu PowerShell: Get-ClusterResource
Czy usługa klastrowania jest stale uruchomiona i dostępna we wszystkich węzłach?
Kilka scenariuszy zdarzenia o identyfikatorze 1135
Chcemy przyjrzeć się bliżej dziennikom zdarzeń systemowych we wszystkich węzłach klastra. Przejrzyj identyfikator zdarzenia 1135 widoczny w węzłach i skopiuj wszystkie wystąpienia tego zdarzenia. Dzięki temu będzie ci wygodnie patrzeć na nie i przeglądać.
Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped.
This could also be due to the node having lost communication with other active nodes in the failover cluster.
Run the Validate a Configuration wizard to check your network configuration.
If the condition persists, check for hardware or software errors related to the network adapters on this node.
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.
Istnieją trzy typowe scenariusze:
Scenariusz A
Patrzysz na wszystkie zdarzenia i wszystkie węzły w klastrze wskazują, że węzeł A utracił komunikację.
Może być możliwe, że gdy widzisz dzienniki systemowe w środowisku NODE A, ma on zdarzenia dla wszystkich pozostałych węzłów w klastrze.
Rozwiązanie
Sugeruje to, że w momencie wystąpienia problemu albo z powodu przeciążenia sieci, albo w inny sposób utracono komunikację z węzłem A.
Należy przejrzeć i zweryfikować problemy z konfiguracją sieci i komunikacją. Pamiętaj, aby wyszukać problemy dotyczące węzła A.
Scenariusz B
Patrzysz na zdarzenia w węzłach i powiedzmy, że klaster jest rozproszony w dwóch lokacjach. NODE A, NODE B i NODE C w lokacji 1 i WĘŹLE D & NODE E w lokacji 2.
W węzłach A, B i C zobaczysz, że zarejestrowane zdarzenia dotyczą łączności z węzłami D & E. Podobnie, gdy zobaczysz zdarzenia w węzłach D & E, zdarzenia sugerują, że utraciliśmy komunikację z A, B i C.
Rozwiązanie
Jeśli widzisz podobne działanie, wskazuje to, że wystąpił błąd komunikacji za pośrednictwem linku łączącego te witryny. Zalecamy zapoznanie się z połączeniem między lokacjami, jeśli odbywa się to za pośrednictwem połączenia sieci WAN, zalecamy sprawdzenie połączenia z usługodawcą internetowym.
Scenariusz C
Patrzysz na zdarzenia w węzłach i widzisz, że nazwy węzłów nie są zgodne z żadnym konkretnym wzorcem. Załóżmy, że klaster jest rozproszony w dwóch lokacjach. NODE A, NODE B i NODE C w lokacji 1 i node D & NODE E w lokacji 2.
- W węźle A: zobaczysz zdarzenia dla węzłów B, D, E.
- W węźle B: zobaczysz zdarzenia dla węzłów C, D, E.
- W węźle C: zobaczysz zdarzenia dla węzłów A, B, E.
- W węźle D: zobaczysz zdarzenia dla węzłów A, C, E.
- W węźle E: zobaczysz zdarzenia dla węzłów B, C, D.
- Lub inne kombinacje.
Rozwiązanie
Takie zdarzenia są możliwe, gdy kanały sieciowe między węzłami są zadławione, a komunikaty komunikacyjne klastra nie docierają w odpowiednim czasie, co sprawia, że klaster czuje, że komunikacja między węzłami zostanie utracona, co spowoduje usunięcie węzłów z członkostwa w klastrze.
Przegląd sieci klastra
Zalecamy zapoznanie się z sieciami klastrów, sprawdzając następujące trzy opcje jeden po drugim, aby kontynuować ten przewodnik rozwiązywania problemów.
Sprawdzanie wykluczenia programu antywirusowego
Wyklucz następujące lokalizacje systemu plików ze skanowania wirusów na serwerze z uruchomionymi usługami klastra:
- Ścieżka monitora udziału plików
- Folder %Systemroot%\Cluster
Skonfiguruj składnik skanowania w czasie rzeczywistym w oprogramowaniu antywirusowym, aby wykluczyć następujące katalogi i pliki:
Domyślny katalog konfiguracji maszyny wirtualnej (C:\ProgramData\Microsoft\Windows\Hyper-V)
Niestandardowe katalogi konfiguracji maszyn wirtualnych
Domyślny katalog wirtualnych dysków twardych (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)
Niestandardowe katalogi wirtualnych dysków twardych
Niestandardowe katalogi danych replikacji, jeśli używasz repliki funkcji Hyper-V
Katalogi migawek
mms.exe
Uwaga
Ten plik może wymagać skonfigurowania jako wykluczenia procesu w oprogramowaniu antywirusowym.
Vmwp.exe
Uwaga
Ten plik może wymagać skonfigurowania jako wykluczenia procesu w oprogramowaniu antywirusowym.
Ponadto w przypadku korzystania z migracji na żywo razem z udostępnionymi woluminami klastra należy wykluczyć ścieżkę CSV C:\Clusterstorage i wszystkie jej podkatalogi. Jeśli rozwiązujesz problemy z trybem failover lub występują ogólne problemy z usługami klastra i oprogramowaniem antywirusowym, tymczasowo odinstaluj oprogramowanie antywirusowe lub skontaktuj się z producentem oprogramowania, aby ustalić, czy oprogramowanie antywirusowe działa z usługami klastra. W większości przypadków wystarczy wyłączyć oprogramowanie antywirusowe. Nawet jeśli wyłączysz oprogramowanie antywirusowe, sterownik filtru jest nadal ładowany po ponownym uruchomieniu komputera.
Sprawdzanie konfiguracji portu sieciowego w zaporze
Usługa klastrowania steruje działaniami klastrów serwera i zarządza bazą danych klastrów. Klaster to zbiór niezależnych komputerów, które działają jak jeden komputer. Menedżerowie, programiści i użytkownicy widzą klaster jako pojedynczy system. Oprogramowanie rozpowszechnia dane między węzły klastrów. Jeśli węzeł ulegnie awarii, inne węzły dostarczają usługi i dane, które wcześniej były udostępniane przez brakujący węzeł. Gdy węzeł zostanie dodany lub naprawiony, oprogramowanie klastra migruje do tego węzła część danych.
Nazwa usługi systemu: ClusSvc
Aplikacja | Protocol (Protokół) | Porty |
---|---|---|
Usługa klastrowania | UDP | 3343 |
Usługa klastrowania | TCP | 3343 (Ten port jest wymagany podczas operacji sprzężenia węzła). |
RPC | TCP | 135 |
Administracja klastra | UDP | 137 |
Kerberos | UDP/TCP | 464* |
SMB | TCP | 445 |
Losowo przydzielone porty wysokiego poziomu UDP** | UDP | Losowy numer portu między 1024 a 65 535 Losowy numer portu z zakresu od 49152 do 65535*** |
Uwaga
Ponadto w celu pomyślnej weryfikacji klastrów trybu failover systemu Windows w systemie Windows Server 2008 lub nowszym zezwalaj na ruch przychodzący i wychodzący dla ICMP4, ICMP6.
- Aby uzyskać więcej informacji, zobacz Tworzenie klastra trybu failover Windows Server 2012 kończy się niepowodzeniem z błędem 0xc000005e.
- Aby uzyskać więcej informacji na temat dostosowywania tych portów, zobacz sekcję "Odwołania" w temacie Omówienie usługi i wymagania dotyczące portów sieciowych dla systemu Windows.
Jest to zakres w Windows Server 2012, Windows 8, Windows Server 2008 R2, Windows 7, Windows Server 2008 i Windows Vista.
Ponadto uruchom następujące polecenie, aby sprawdzić konfigurację portu sieciowego w zaporze. Na przykład: to polecenie pomaga określić port 3343 available\open używany dla klastra trybu failover:
netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose
Uruchamianie raportu weryfikacji klastra pod kątem błędów lub ostrzeżeń
Narzędzie do sprawdzania poprawności klastra uruchamia zestaw testów w celu sprawdzenia, czy sprzęt i ustawienia są zgodne z klastrem trybu failover.
Postępuj zgodnie z poniższymi instrukcjami:
Uruchom raport weryfikacji klastra pod kątem błędów lub ostrzeżeń. Aby uzyskać więcej informacji, zobacz Understanding Cluster Validation Tests: Network (Omówienie testów weryfikacji klastra: sieć)
Sprawdź, czy nie występują ostrzeżenia i błędy dla sieci. Aby uzyskać więcej informacji, zobacz Understanding Cluster Validation Tests: Network (Omówienie testów weryfikacji klastra: sieć).
Sprawdź kolejność powiązań sieci listy
Ten test zawiera listę kolejności, w jakiej sieci są powiązane z kartami w każdym węźle.
Karta Karty i powiązania zawiera listę połączeń w kolejności, w której połączenia są dostępne dla usług sieciowych. Kolejność tych połączeń odzwierciedla kolejność wysyłania ogólnych wywołań/pakietów TCP/IP do przewodu.
Wykonaj poniższe kroki, aby zmienić kolejność powiązań kart sieciowych:
- Wybierz pozycję Start, wybierz pozycję Uruchom, wpisz ncpa.cpl, a następnie wybierz przycisk OK. Dostępne połączenia można wyświetlić w sekcji SIEĆ LAN i High-Speed Internet w oknie Connections sieci.
- W menu Zaawansowane wybierz pozycję Ustawienia zaawansowane, a następnie wybierz kartę Karty i powiązania .
- W obszarze Connections wybierz połączenie, które chcesz przenieść wyżej na liście. Użyj przycisków strzałek, aby przenieść połączenie. Co do zasady karta, która komunikuje się z siecią (łączność z domeną, routing do innych sieci itp., powinna być pierwszą kartą powiązaną (u góry listy).
Węzły klastra to systemy wieloadniowe. Priorytet sieci ma wpływ na klienta DNS dla wychodzącej łączności sieciowej. Karty sieciowe używane do komunikacji z klientem powinny znajdować się u góry w kolejności powiązania. Sieci niekierowe można umieścić na niższym priorytecie. W Windows Server 2012 i Windows Server 2012 R2 karta Sterownik sieci klastra (NETFT.SYS) jest automatycznie umieszczana u dołu listy kolejności powiązań.
Sprawdzanie poprawności komunikacji sieciowej
Opóźnienie w sieci może również spowodować wystąpienie tego problemu. Pakiety mogą nie zostać utracone między węzłami, ale mogą nie dotrzeć do węzłów wystarczająco szybko przed upływem limitu czasu.
Ten test sprawdza, czy przetestowane serwery mogą komunikować się z akceptowalnym opóźnieniem we wszystkich sieciach.
Na przykład w obszarze Weryfikowanie komunikacji sieciowej mogą zostać wyświetlone następujące komunikaty dotyczące problemów z opóźnieniem sieci:
Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms**
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms**
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks
W przypadku klastra z wieloma lokacjami można zwiększyć wartości limitu czasu. Aby uzyskać więcej informacji, zobacz Configure Heartbeat and DNS Settings in a Multi-Site Failover Cluster (Konfigurowanie ustawień pulsu i dns w klastrze trybu failover w wielu lokacjach).
Skontaktuj się z usługodawcą internetowym, aby uzyskać informacje o wszelkich problemach z łącznością sieci WAN.
Sprawdź, czy napotkasz którykolwiek z następujących problemów.
Utracone pakiety sieciowe między węzłami
Sprawdzanie utraty pakietów przy użyciu wydajności
Jeśli pakiet zostanie utracony na drucie gdzieś między węzłami, puls zakończy się niepowodzeniem. Możemy łatwo dowiedzieć się, czy jest to problem, używając monitor wydajności, aby przyjrzeć się licznikowi "Interfejs sieciowy\Odebrane odebrane pakiety". Po dodaniu tego licznika przyjrzyj się liczbom Średnia, Minimalna i Maksymalna, a jeśli są one dowolną wartością wyższą niż zero, bufor odbierania musi zostać dostosowany dla karty.
Jeśli na platformie wirtualizacji VMware występuje utrata pakietu sieciowego, zobacz sekcję "Klaster zainstalowany na platformie wirtualizacji VMware".
Uaktualnianie sterowników karty sieciowej
Ten problem może wystąpić z powodu nieaktualnych sterowników kart sieciowych\Składników integracji (IC)\VmTools lub uszkodzonych kart sieciowych. W przypadku utraty pakietów sieciowych między węzłami na maszynach fizycznych należy zaktualizować sterownik karty sieciowej. Stare lub nieaktualne sterowniki kart sieciowych i/lub oprogramowanie układowe. Czasami prosta błędna konfiguracja karty sieciowej lub przełącznika może również powodować utratę pulsu.
Klaster zainstalowany na platformie wirtualizacji VMware
Sprawdź problemy z kartą VMware w przypadku środowiska VMware.
Ten problem może wystąpić, jeśli pakiety zostaną porzucone podczas dużych wzrostów ruchu. Upewnij się, że nie ma filtrowania ruchu (na przykład z filtrem poczty). Po wyeliminowaniu tej możliwości stopniowo zwiększaj liczbę buforów w systemie operacyjnym gościa i weryfikuj.
Aby zmniejszyć liczbę nagłych spadków ruchu, wykonaj następujące kroki:
- Wybierz pozycję Start, wybierz pozycję Uruchom, wpisz
devmgmt.msc
i naciśnij klawisz Enter. - Rozwiń węzeł Karty sieciowe, kliknij prawym przyciskiem myszy pozycję vmxnet3 i wybierz pozycję Właściwości.
- Wybierz kartę Zaawansowane.
- Wybierz pozycję Małe bufory Rx i zwiększ wartość. Wartość domyślna to 512, a wartość maksymalna to 8192.
- Wybierz pozycję Rx Ring #1 Size (Pierścień Rx nr 1 ) i zwiększ wartość. Wartość domyślna to 1024, a maksymalna to 4096.
Zapoznaj się z następującymi artykułami, aby sprawdzić problemy z kartami VMware w przypadku środowiska VMware:
- Węzły usuwane z członkostwa w klastrze trybu failover w programie VMware ESX?.
- Duża utrata pakietów na poziomie systemu operacyjnego gościa na VMXNET3 vNIC w systemie ESXi
Zwróć uwagę na przeciążenie sieci
Przeciążenie sieci może również powodować problemy z łącznością sieciową.
Sprawdź, czy sieć jest skonfigurowana zgodnie z zaleceniami ms i dostawcy, zobacz Konfigurowanie sieci klastra trybu failover systemu Windows.
Sprawdzanie konfiguracji sieci
Jeśli nadal nie działa, sprawdź, czy w graficznym interfejsie użytkownika klastra była widoczna sieć partycjonowana lub czy w karcie sieciowej pulsu włączono tworzenie zespołu kart sieciowych.
Jeśli w graficznym interfejsie użytkownika klastra jest widoczna sieć partycjonowana, zobacz "Partycjonowane" sieci klastra , aby rozwiązać ten problem.
Jeśli w karcie sieciowej pulsu włączono tworzenie zespołu kart interfejsu sieciowego, sprawdź funkcje tworzenia zespołu oprogramowania zgodnie z zaleceniami dostawcy zespołu.
Uaktualnianie sterowników karty sieciowej
Ten problem może wystąpić z powodu nieaktualnych sterowników kart sieciowych lub uszkodzonych kart sieciowych.
W przypadku utraty pakietów sieciowych między węzłami na maszynach fizycznych należy zaktualizować sterownik karty sieciowej. Stare lub nieaktualne sterowniki kart sieciowych i/lub oprogramowanie układowe.
Czasami prosta błędna konfiguracja karty sieciowej lub przełącznika może również powodować utratę pulsu.
Sprawdzanie konfiguracji sieci
Jeśli nadal nie działa, sprawdź, czy w graficznym interfejsie użytkownika klastra była widoczna sieć podzielona na partycje, czy włączono tworzenie zespołu kart sieciowych na karcie sieciowej pulsu.
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla