Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Podsumowanie
W tym artykule rozwiązano problemy, które mogą wystąpić podczas planowanej operacji opróżniania węzła klastra, jeśli udostępnione woluminy klastra przestaną odpowiadać i wprowadzać stan oczekiwania w trybie offline. Taka sytuacja może zakłócić operacje wejścia/wyjścia i spowodować niepowodzenie maszyn wirtualnych hostowanych na woluminach, które są objęte problemem.
Objawy
Podczas planowanej operacji opróżniania węzła klastra występują następujące objawy:
- Woluminy CSV nie odpowiadają i utknęły w stanie oczekiwania w trybie offline.
- Operacje we/wy są wstrzymane przez około 20–30 minut.
- Proces podsystemu hostingu zasobów (RHS) został zakończony i spowodował eksmisji węzła, którego dotyczy problem, z klastra.
- Węzeł, którego dotyczy problem, jest właścicielem kworum. Ten warunek powoduje brak odpowiedzi w ogólnym zarządzaniu klastrem.
- Wszystkie maszyny wirtualne hostowane na woluminach, których dotyczy problem, kończą się niepowodzeniem.
- Inne woluminy w tym samym węźle zostaną pomyślnie przełączene w tryb failover i nie zostaną naruszone.
- Dzienniki wskazują powtarzające się przekroczenia limitu czasu i błędy zasobów dla woluminów, których dotyczy problem.
- Występują problemy związane z siecią, w tym utrata pakietów wykryta przez adapter NetFT (Network Fault Tolerant).
- Nie można ustanowić łączności wielokanałowej protokołu SMB (bloku komunikatów serwera) z powodu niespójnych ustawień adaptera.
Przyczyna
Główną przyczyną tego problemu jest kombinacja czynników:
- Węzeł, który przechodzi operację opróżniania, jest właścicielem klastra. Ten warunek wzmacnia efekt operacji.
- Blokady plików na woluminach, których dotyczy problem, utrudniają migrację i powodują przekroczenia limitu czasu oraz kolejne błędy.
- Występuje przeciążenie sieci. Adapter NetFT zgłasza utratę pakietów podczas próby przełączenia awaryjnego.
- Niespójne ustawienia karty sieciowej między węzłami uniemożliwiają łączność wielokanałową protokołu SMB.
- Proces przeciążania zasobów wyzwala błędy zasobów, co prowadzi do zakończenia procesu RHS i rozpoczęcia operacji odzyskiwania klastra.
Rezolucja
Aby rozwiązać te problemy i zapobiec przyszłym wystąpieniom, wykonaj następujące kroki:
Analiza dzienników i diagnostyka: zbierz przeanalizowane dzienniki klastra, raporty weryfikacji klastra i dane zrzutu błędów, aby zidentyfikować czynniki przyczyniające się.
Konfiguracja sieci:
- Upewnij się, że ustawienia karty sieciowej są jednolite we wszystkich węzłach klastra, aby włączyć łączność wielokanałową protokołu SMB.
- Zwiększ przepustowość sieci lub zmniejsz przeciążenie, aby uniknąć utraty pakietów podczas operacji trybu failover.
Zagadnienia dotyczące własności klastra:
- Dokładnie zaplanuj operacje opróżniania węzłów.
- Przed rozpoczęciem konserwacji upewnij się, że role krytyczne, takie jak przynależność kworum, zostały przeniesione do innych węzłów.
Zapobiegawcze:
- Przejrzyj mechanizmy blokowania plików, aby zmniejszyć ryzyko niepowodzenia migracji.
- Wykonaj regularne testy weryfikacji klastra, aby zidentyfikować i rozwiązać potencjalne niespójności lub błędy konfiguracji.