Udostępnij przez


Współdzielone woluminy klastra nie odpowiadają podczas planowanego wyłączenia węzła klastra

Podsumowanie

W tym artykule rozwiązano problemy, które mogą wystąpić podczas planowanej operacji opróżniania węzła klastra, jeśli udostępnione woluminy klastra przestaną odpowiadać i wprowadzać stan oczekiwania w trybie offline. Taka sytuacja może zakłócić operacje wejścia/wyjścia i spowodować niepowodzenie maszyn wirtualnych hostowanych na woluminach, które są objęte problemem.

Objawy

Podczas planowanej operacji opróżniania węzła klastra występują następujące objawy:

  • Woluminy CSV nie odpowiadają i utknęły w stanie oczekiwania w trybie offline.
  • Operacje we/wy są wstrzymane przez około 20–30 minut.
  • Proces podsystemu hostingu zasobów (RHS) został zakończony i spowodował eksmisji węzła, którego dotyczy problem, z klastra.
  • Węzeł, którego dotyczy problem, jest właścicielem kworum. Ten warunek powoduje brak odpowiedzi w ogólnym zarządzaniu klastrem.
  • Wszystkie maszyny wirtualne hostowane na woluminach, których dotyczy problem, kończą się niepowodzeniem.
  • Inne woluminy w tym samym węźle zostaną pomyślnie przełączene w tryb failover i nie zostaną naruszone.
  • Dzienniki wskazują powtarzające się przekroczenia limitu czasu i błędy zasobów dla woluminów, których dotyczy problem.
  • Występują problemy związane z siecią, w tym utrata pakietów wykryta przez adapter NetFT (Network Fault Tolerant).
  • Nie można ustanowić łączności wielokanałowej protokołu SMB (bloku komunikatów serwera) z powodu niespójnych ustawień adaptera.

Przyczyna

Główną przyczyną tego problemu jest kombinacja czynników:

  • Węzeł, który przechodzi operację opróżniania, jest właścicielem klastra. Ten warunek wzmacnia efekt operacji.
  • Blokady plików na woluminach, których dotyczy problem, utrudniają migrację i powodują przekroczenia limitu czasu oraz kolejne błędy.
  • Występuje przeciążenie sieci. Adapter NetFT zgłasza utratę pakietów podczas próby przełączenia awaryjnego.
  • Niespójne ustawienia karty sieciowej między węzłami uniemożliwiają łączność wielokanałową protokołu SMB.
  • Proces przeciążania zasobów wyzwala błędy zasobów, co prowadzi do zakończenia procesu RHS i rozpoczęcia operacji odzyskiwania klastra.

Rezolucja

Aby rozwiązać te problemy i zapobiec przyszłym wystąpieniom, wykonaj następujące kroki:

  1. Analiza dzienników i diagnostyka: zbierz przeanalizowane dzienniki klastra, raporty weryfikacji klastra i dane zrzutu błędów, aby zidentyfikować czynniki przyczyniające się.

  2. Konfiguracja sieci:

    • Upewnij się, że ustawienia karty sieciowej są jednolite we wszystkich węzłach klastra, aby włączyć łączność wielokanałową protokołu SMB.
    • Zwiększ przepustowość sieci lub zmniejsz przeciążenie, aby uniknąć utraty pakietów podczas operacji trybu failover.
  3. Zagadnienia dotyczące własności klastra:

    • Dokładnie zaplanuj operacje opróżniania węzłów.
    • Przed rozpoczęciem konserwacji upewnij się, że role krytyczne, takie jak przynależność kworum, zostały przeniesione do innych węzłów.
  4. Zapobiegawcze:

    • Przejrzyj mechanizmy blokowania plików, aby zmniejszyć ryzyko niepowodzenia migracji.
    • Wykonaj regularne testy weryfikacji klastra, aby zidentyfikować i rozwiązać potencjalne niespójności lub błędy konfiguracji.