이벤트 ID 1135의 클러스터 문제 해결

이 문서는 장애 조치(failover) 클러스터링 환경에서 클러스터 서비스를 시작하는 동안 기록될 수 있는 이벤트 ID 1135를 진단하고 resolve 데 도움이 됩니다.

적용 대상: Windows Server 2022, Windows Server 2019, Windows Server 2016, Azure Stack HCI, 버전 21H2 및 20H2

가상 에이전트 사용해 보기 - 일반적인 Active Directory 복제 문제를 신속하게 식별하고 해결하는 데 도움이 될 수 있습니다.

시작 페이지

이벤트 ID 1135는 하나 이상의 클러스터 노드가 활성 장애 조치(failover) 클러스터 멤버 자격에서 제거되었음을 나타냅니다. 다음과 같은 증상이 동반될 수 있습니다.

문제의 원인이 될 수 있는 구성 문제가 없는지 확인하기 위해 초기 문제 해결 단계 중 하나로 유효성 검사 및 네트워크 테스트를 권장합니다.

클러스터 서비스는 장애 조치(failover) 클러스터 작업의 모든 측면을 제어하고 클러스터 구성 데이터베이스를 관리하는 필수 소프트웨어 구성 요소입니다. 이벤트 ID 1135가 표시되면 다음 문서에 언급된 수정 사항을 설치하고 클러스터의 모든 노드를 다시 부팅한 다음 문제가 다시 발생하는지 관찰하는 것이 좋습니다.

모든 노드에서 실행되는 클러스터 서비스 확인

Windows 운영 시스템에 따라 다음 명령을 따라 클러스터 서비스가 지속적으로 실행되고 사용 가능한지 확인합니다.

Windows Server 2008 R2 클러스터의 경우

관리자 권한 명령 프롬프트에서 cluster.exe node /stat를 실행합니다.

Windows Server 2012 및 Windows Server 2012 R2 클러스터의 경우

다음 PowerShell cmdlet을 실행합니다. Get-ClusterResource

클러스터 서비스가 지속적으로 실행되고 모든 노드에서 사용할 수 있나요?

이벤트 ID 1135의 여러 시나리오

클러스터의 모든 노드에서 시스템 이벤트 로그를 자세히 살펴보려고 합니다. 노드에 표시되는 이벤트 ID 1135를 검토하고 이 이벤트의 모든 인스턴스를 복사합니다. 이렇게 하면 편리하게 보고 검토할 수 있습니다.

Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped. 
This could also be due to the node having lost communication with other active nodes in the failover cluster. 
Run the Validate a Configuration wizard to check your network configuration. 
If the condition persists, check for hardware or software errors related to the network adapters on this node. 
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.

다음과 같은 세 가지 일반적인 시나리오가 있습니다.

시나리오 A

모든 이벤트를 살펴보고 클러스터의 모든 노드는 NODE A가 통신을 끊었다는 것을 나타냅니다.

노드 A, 노드 B 및 노드 C가 성공적으로 통신하는 것을 보여 주는 다이어그램

노드 A가 노드 B 및 노드 C와의 통신을 끊은 것을 보여 주는 다이어그램

노드 A에서 시스템 로그가 표시되면 클러스터에 남아 있는 모든 노드에 대한 이벤트가 있을 수 있습니다.

해결 방법

이는 문제가 발생할 때 네트워크 정체 또는 노드 A에 대한 통신이 손실되었음을 시사합니다.

네트워크 구성 및 통신 문제를 검토하고 유효성을 검사해야 합니다. 노드 A와 관련된 문제를 찾아야 합니다.

시나리오 B

노드의 이벤트를 살펴보고 클러스터가 두 사이트에 분산되어 있다고 가정해 보겠습니다. 사이트 1의 NODE A, NODE B 및 NODE C, 사이트 2의 NODE D & NODE E.

사이트 1이 WAN 링크를 통해 사이트 2와 성공적으로 통신하고 있음을 보여 주는 다이어그램

노드 A, B 및 C에서 기록된 이벤트는 Nodes D & E에 연결하기 위한 것임을 알 수 있습니다. 마찬가지로 Nodes D & E에서 이벤트가 표시되면 A, B 및 C와의 통신이 끊어지게 됩니다.

사이트 1이 사이트 2와의 WAN 링크 연결을 끊은 것을 보여 주는 다이어그램.

해결 방법

유사한 활동이 표시되면 이러한 사이트를 연결하는 링크를 통해 통신 오류가 발생했음을 나타냅니다. 사이트 간 연결을 검토하는 것이 좋습니다. 이 연결이 WAN 연결을 통해서인 경우 ISP로 연결에 대해 확인하는 것이 좋습니다.

시나리오 C

노드의 이벤트를 살펴보면 노드 이름이 특정 패턴으로 집계되지 않는 것을 볼 수 있습니다. 클러스터가 두 사이트에 분산되어 있다고 가정해 보겠습니다. 사이트 1의 NODE A, NODE B 및 NODE C, 사이트 2의 NODE D & NODE E.

  • 노드 A: 노드 B, D, E에 대한 이벤트가 표시됩니다.
  • 노드 B: 노드 C, D, E에 대한 이벤트가 표시됩니다.
  • 노드 C: 노드 A, B, E에 대한 이벤트가 표시됩니다.
  • 노드 D: 노드 A, C, E에 대한 이벤트가 표시됩니다.
  • 노드 E: 노드 B, C, D에 대한 이벤트가 표시됩니다.
  • 또는 다른 조합.

클러스터가 두 사이트에 분산되어 있음을 보여 주는 시나리오 C의 다이어그램

해결 방법

이러한 이벤트는 노드 간의 네트워크 채널이 막히고 클러스터 통신 메시지가 적시에 도달하지 않아 클러스터 멤버 자격에서 노드가 제거되어 노드 간의 통신이 손실되었다고 느낄 수 있습니다.

클러스터 네트워크 검토

이 문제 해결 가이드를 계속하려면 다음 세 가지 옵션을 하나씩 확인하여 클러스터 네트워크를 검토하는 것이 좋습니다.

바이러스 백신 제외 확인

Cluster Services를 실행하는 서버의 바이러스 검사에서 다음 파일 시스템 위치를 제외합니다.

  • FileShare 미러링 모니터 서버의 경로
  • %Systemroot%\Cluster 폴더

다음 디렉터리와 파일을 제외하도록 바이러스 백신 소프트웨어 내에서 실시간 검사 구성 요소를 구성합니다.

  • 기본 가상 머신 구성 디렉터리(C:\ProgramData\Microsoft\Windows\Hyper-V)

  • 사용자 지정 가상 머신 구성 디렉터리

  • 기본 가상 하드 디스크 드라이브 디렉터리(C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)

  • 사용자 지정 가상 하드 디스크 드라이브 디렉터리

  • Hyper-V 복제본을 사용하는 경우 사용자 지정 복제 데이터 디렉터리

  • 스냅샷 디렉터리

  • mms.exe

    참고

    이 파일은 바이러스 백신 소프트웨어 내에서 프로세스 제외로 구성해야 할 수 있습니다.

  • Vmwp.exe

    참고

    이 파일은 바이러스 백신 소프트웨어 내에서 프로세스 제외로 구성해야 할 수 있습니다.

또한 클러스터 공유 볼륨과 함께 라이브 마이그레이션을 사용하는 경우 CSV 경로 C:\Clusterstorage 및 모든 하위 디렉터리를 제외합니다. 장애 조치(failover) 문제 또는 클러스터 서비스 및 바이러스 백신 소프트웨어가 설치된 일반적인 문제를 해결하는 경우 바이러스 백신 소프트웨어를 일시적으로 제거하거나 소프트웨어 제조업체와 검사 제거하여 바이러스 백신 소프트웨어가 클러스터 서비스에서 작동하는지 여부를 확인합니다. 대부분의 경우 바이러스 백신 소프트웨어를 사용하지 않도록 설정하는 것만으로는 충분하지 않습니다. 바이러스 백신 소프트웨어를 사용하지 않도록 설정하더라도 컴퓨터를 다시 시작할 때 필터 드라이버가 로드됩니다.

방화벽에서 네트워크 포트 구성 확인

클러스터 서비스는 서버 클러스터 작동을 제어하고 클러스터 데이터베이스를 관리합니다. 클러스터는 단일 컴퓨터의 역할을 하는 독립적인 컴퓨터의 집합입니다. 관리자, 프로그래머 및 사용자는 클러스터를 단일 시스템으로 인식합니다. 소프트웨어는 클러스터의 노드로 데이터를 배포합니다. 한 노드에 오류가 발생하면 다른 노드에서 오류가 발생한 노드가 제공하던 서비스와 데이터를 제공합니다. 노드가 추가되거나 복구되면 클러스터 소프트웨어가 일부 데이터를 이 노드로 마이그레이션합니다.

시스템 서비스 이름: ClusSvc

응용 프로그램 Protocol(프로토콜) 포트
클러스터 서비스 UDP 3343
클러스터 서비스 TCP 3343(이 포트는 노드 조인 작업 도중 필요함)
RPC TCP 135
클러스터 관리 UDP 137
Kerberos UDP/TCP 464*
SMB TCP 445
임의로 할당된 높은 UDP 포트** UDP 1024~65535 사이의 임의 포트 번호
49152에서 65535*** 사이의 난수 포트 번호

참고

또한 Windows Server 2008 이상의 Windows 장애 조치(Failover) 클러스터에서 유효성 검사를 성공적으로 수행하려면 ICMP4, ICMP6에 대한 인바운드 및 아웃바운드 트래픽을 허용합니다.

이 범위는 Windows Server 2012, Windows 8, Windows Server 2008 R2, Windows 7, Windows Server 2008 및 Windows Vista의 범위입니다.

또한 다음 명령을 실행하여 방화벽에서 네트워크 포트 구성을 검사. 예: 이 명령은 장애 조치(failover) 클러스터에 사용되는 포트 3343 사용 가능\열기를 확인하는 데 도움이 됩니다.

netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose

오류 또는 경고에 대한 클러스터 유효성 검사 보고서 실행

클러스터 유효성 검사 도구는 테스트 모음을 실행하여 하드웨어 및 설정이 장애 조치(failover) 클러스터링 호환되는지 확인합니다.

이 지침을 따릅니다.

  1. 오류 또는 경고에 대해 클러스터 유효성 검사 보고서를 실행합니다. 자세한 내용은 클러스터 유효성 검사 테스트 이해: 네트워크를 참조하세요.

    오류 또는 경고에 대한 클러스터 유효성 검사 보고서를 실행한 후의 결과 스크린샷

  2. 네트워크에 대한 경고 및 오류를 확인합니다. 자세한 내용은 클러스터 유효성 검사 테스트 이해: 네트워크를 참조하세요.

    범주별 결과 스크린샷

    네트워크에서 Windows 방화벽 구성 유효성 검사 스크린샷

네트워크 바인딩 순서 나열 확인

이 테스트는 네트워크가 각 노드의 어댑터에 바인딩되는 순서를 나열합니다.

어댑터 및 바인딩 탭에는 네트워크 서비스에서 연결에 액세스하는 순서대로 연결이 나열됩니다. 이러한 연결의 순서는 일반 TCP/IP 호출/패킷이 유선으로 전송되는 순서를 반영합니다.

아래 단계에 따라 네트워크 어댑터의 바인딩 순서를 변경합니다.

  1. 시작을 선택하고 실행을 선택하고 ncpa.cpl입력한 다음 확인을 선택합니다. 네트워크 Connections 창의 LAN 및 High-Speed 인터넷 섹션에서 사용 가능한 연결을 볼 수 있습니다.
  2. 고급 메뉴에서 고급 설정을 선택한 다음 어댑터 및 바인딩 탭을 선택합니다.
  3. Connections 영역에서 목록에서 더 높이 이동하려는 연결을 선택합니다. 화살표 단추를 사용하여 연결을 이동합니다. 일반적으로 네트워크(도메인 연결, 다른 네트워크로 라우팅 등)와 대화하는 카드 카드 첫 번째 바인딩(목록의 맨 위)이어야 합니다.

클러스터 노드는 다중 홈 시스템입니다. 네트워크 우선 순위는 아웃바운드 네트워크 연결에 대한 DNS 클라이언트에 영향을 줍니다. 클라이언트 통신에 사용되는 네트워크 어댑터는 바인딩 순서의 맨 위에 있어야 합니다. 라우팅되지 않은 네트워크는 우선 순위가 낮아질 수 있습니다. Windows Server 2012 및 Windows Server 2012 R2에서 클러스터 네트워크 드라이버(NETFT.SYS) 어댑터는 바인딩 순서 목록의 맨 아래에 자동으로 배치됩니다.

네트워크 통신 유효성 검사 확인

네트워크의 대기 시간으로 인해 이 문제가 발생할 수도 있습니다. 패킷은 노드 간에 손실되지 않을 수 있지만 시간 제한 기간이 만료되기 전에 노드에 충분히 빨리 도착하지 못할 수 있습니다.

이 테스트는 테스트된 서버가 모든 네트워크에서 허용 가능한 대기 시간과 통신할 수 있음을 확인합니다.

예: 네트워크 통신 유효성 검사에서 네트워크 대기 시간 문제에 대해 다음 메시지가 표시 될 수 있습니다.

Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks

다중 사이트 클러스터의 경우 제한 시간 값을 늘릴 수 있습니다. 자세한 내용은 다중 사이트 장애 조치(failover) 클러스터에서 하트비트 및 DNS 설정 구성을 참조하세요.

ISP에 WAN 연결 문제가 있는지 확인합니다.

다음 문제가 발생하는지 확인합니다.

노드 간에 손실된 네트워크 패킷
  1. 성능을 사용하여 패킷 손실 확인

    노드 사이의 어딘가에 있는 와이어에서 패킷이 손실되면 하트비트가 실패합니다. 성능 모니터 사용하여 "네트워크 인터페이스\삭제된 패킷 수신됨" 카운터를 확인하여 이것이 문제인지 쉽게 확인할 수 있습니다. 이 카운터를 추가한 후 평균, 최소 및 최대 숫자를 살펴보고 값이 0보다 높은 경우 어댑터에 대해 수신 버퍼를 조정해야 합니다.

    카운터 추가 창의 스크린샷.

    VMware 가상화 플랫폼에서 네트워크 패킷이 손실된 경우 "VMware 가상화 플랫폼에 설치된 클러스터" 섹션을 참조하세요.

  2. NIC 드라이버 업그레이드

    이 문제는 오래된 NIC 드라이버\IC(통합 구성 요소)\VmTools 또는 결함이 있는 NIC 어댑터로 인해 발생할 수 있습니다. 물리적 컴퓨터의 노드 간에 네트워크 패킷이 손실된 경우 네트워크 어댑터 드라이버 업데이트를 받으세요. 드라이버 및/또는 펌웨어를 카드 이전 또는 오래된 네트워크입니다. 때때로 네트워크 카드 또는 스위치를 잘못 구성하면 하트비트가 손실될 수도 있습니다.

VMware 가상화 플랫폼에 설치된 클러스터

VMware 환경의 경우 VMware 어댑터 문제를 확인합니다.

이 문제는 트래픽이 많은 버스트 중에 패킷이 삭제되는 경우에 발생할 수 있습니다. 트래픽 필터링이 발생하지 않는지 확인합니다(예: 메일 필터 사용). 이러한 가능성을 제거한 후 게스트 운영 체제의 버퍼 수를 점진적으로 늘리고 확인합니다.

버스트 트래픽 감소량을 줄이려면 다음 단계를 수행합니다.

  1. 시작을 선택하고, 실행을 선택하고, 를 입력 devmgmt.msc 하고, Enter 키를 누릅니.
  2. 네트워크 어댑터를 확장하고vmxnet3을 마우스 오른쪽 단추로 클릭하고 속성을 선택합니다.
  3. 고급 탭을 선택합니다.
  4. 작은 Rx 버퍼를 선택하고 값을 늘입니다. 기본값은 512이고 최대값은 8192입니다.
  5. Rx 링 #1 크기를 선택하고 값을 늘입니다. 기본값은 1024이고 최대값은 4096입니다.

다음 문서를 확인하여 VMware 환경의 경우 VMware 어댑터 문제를 확인합니다.

네트워크 정체를 알 수 있습니다.

네트워크 정체로 인해 네트워크 연결 문제가 발생할 수도 있습니다.

네트워크가 MS 및 공급업체 권장 사항에 따라 구성되었는지 확인합니다. Windows 장애 조치(failover) 클러스터 네트워크 구성을 참조하세요.

네트워크 구성 확인

그래도 작동하지 않는 경우 클러스터 GUI에서 분할된 네트워크를 보았거나 하트비트 NIC에서 NIC 팀을 사용하도록 설정한 경우 검사.

클러스터 GUI에 분할된 네트워크가 표시되면 "분할된" 클러스터 네트워크를 참조하여 문제를 해결합니다.

하트비트 NIC에서 NIC 팀을 사용하도록 설정한 경우 팀 공급업체의 권장 사항에 따라 팀 소프트웨어 기능을 검사.

NIC 드라이버 업그레이드

이 문제는 오래된 NIC 드라이버 또는 결함이 있는 NIC 어댑터로 인해 발생할 수 있습니다.

물리적 컴퓨터의 노드 간에 네트워크 패킷이 손실된 경우 네트워크 어댑터 드라이버 업데이트를 갖습니다. 드라이버 및/또는 펌웨어를 카드 이전 또는 오래된 네트워크입니다.

때때로 네트워크 카드 또는 스위치를 잘못 구성하면 하트비트가 손실될 수도 있습니다.

네트워크 구성 확인

그래도 작동하지 않는 경우 클러스터 GUI에서 분할된 네트워크를 보았는지 또는 하트비트 NIC에서 NIC 팀을 사용하도록 설정했는지 검사.