다음을 통해 공유


Windows Server와 Azure 로컬 환경에서의 장애 조치 클러스터링

장애 조치(failover) 클러스터링은 중요한 환경에서 고가용성 및 중단 없는 작업을 보장하는 강력한 전략입니다. 여기에는 노드라고 하는 독립 컴퓨터의 구성이 포함되며, 이 컴퓨터는 현재 클러스터형 역할이라고 하는 애플리케이션 및 서비스의 가용성과 확장성을 향상시키기 위해 함께 작동합니다. 이러한 노드는 물리적 케이블 연결과 소프트웨어를 통해 상호 연결됩니다.

하나 이상의 노드에서 오류가 발생하면 나머지 노드는 장애 조치(failover)라는 프로세스인 워크로드를 자동으로 인수하여 중단을 최소화합니다. 또한 클러스터된 역할의 상태는 지속적으로 모니터링됩니다. 문제가 발견되면 역할을 다시 시작하거나 다른 노드로 마이그레이션하여 원활한 작업을 유지합니다. 이러한 사전 예방적 접근 방식을 통해 하드웨어 또는 소프트웨어 오류가 발생하더라도 서비스를 일관되게 사용할 수 있습니다.

네트워킹은 클러스터 노드와 외부 클라이언트 간의 안정적인 통신 및 효율적인 데이터 교환을 가능하게 함으로써 장애 조치(failover) 클러스터에서 중요한 역할입니다. 클러스터는 종종 하트비트 신호 및 클러스터 관리와 같은 내부 기능에 전용 프라이빗 네트워크를 사용하는 반면, 별도의 공용 네트워크는 클라이언트 액세스 및 애플리케이션 데이터를 처리합니다. 이 네트워크 분리는 외부 중단으로부터 중요한 클러스터 트래픽을 격리하여 성능 및 보안을 향상시킵니다. 또한 내결함성을 높여 내부 클러스터 작업이 중단 없이 유지되고 클라이언트 연결이 장애 조치(failover) 이벤트 중에 고가용성을 유지하도록 합니다.

클러스터의 상태는 하트비트 신호를 통해 지속적으로 모니터링되므로 문제를 감지하는 데 도움이 됩니다. 문제가 발생하면 시스템에서 서비스 연속성을 유지하기 위해 장애 조치(failover)를 자동으로 시작할 수 있습니다. 중요한 데이터를 보호하고 조직 표준을 충족하기 위해 장애 조치(failover) 클러스터는 암호화와 같은 강력한 보안 조치를 통합하여 전송 중 및 미사용 데이터를 보호합니다. 또한 세분화된 액세스 제어를 사용하여 사용 권한 및 액세스 권한을 효과적으로 관리합니다.

Azure Local의 장애 조치(failover) 클러스터링에 대한 자세한 내용은 클러스터 및 풀 쿼럼이해를 참조하세요.

활성 및 수동 장애 조치(failover) 구성

장애 조치(failover) 클러스터는 활성-활성 및 활성-수동의 두 가지 기본 구성에서 설정할 수 있습니다. 각 구성에는 고유의 절충점이 있으며, 활성-활성 구성은 성능 및 리소스 효율성에 중점을 두는 반면, 활성-수동 구성은 장애 조치 시나리오에서 단순성 및 안정성을 강조합니다. 선택은 특정 조직의 요구 사항과 클러스터형 애플리케이션의 중요도에 따라 달라집니다.

설정 수술
활동 중 활성-활성 장애 조치(failover) 클러스터에서 모든 노드는 활성 상태이며 동시에 함께 작동하여 클러스터 전체의 워크로드를 분산합니다. 이 구성은 사용 가능한 모든 노드 간에 작업, 처리 능력 또는 서비스를 분산하여 리소스를 효율적으로 사용합니다. 작동 방식은 다음과 같습니다.

  • 부하 분산: 각 노드는 전체 워크로드의 일부를 처리하여 성능을 향상시키고 단일 노드가 병목 상태가 되지 않도록 합니다. 이 동일한 배포는 여러 노드가 동시에 요청을 서비스하기 때문에 응답성과 처리량을 향상시킬 수 있습니다.
  • 리소스 사용률: 활성-활성 설정은 모든 노드가 작동하고 클러스터의 성능에 기여하기 때문에 리소스 사용률을 최대화합니다. 이 설정은 사용 가능한 리소스를 최대화하는 것이 중요한 환경에 적합합니다.
  • 내결함성: 한 노드가 실패하면 클러스터의 나머지 노드는 워크로드를 계속 처리할 수 있습니다. 노드가 손실되면 일시적으로 전체 용량이 감소할 수 있지만, 시스템은 서비스 중단 없이 계속 작동합니다.
  • 수동 활성-수동 장애 조치(failover) 클러스터에서 일부 노드는 활성으로 지정되고 다른 노드는 대기 상태이며 활성 노드가 실패할 경우 인수할 준비가 됩니다. 작동 방식은 다음과 같습니다.

  • 대기 노드: 수동 노드는 기본적으로 정상 작업 중에 작업이나 서비스를 처리하지 않고 "대기 중" 상태입니다. 이러한 노드는 활성 노드에 오류가 발생할 경우 책임을 맡도록 준비됩니다.
  • 장애 조치 프로세스: 오류가 감지되면 실패한 노드의 책임을 맡기 위해 대기 노드가 활성화됩니다. 여기에는 서비스의 연속성을 보장하기 위해 수동 노드를 신속하게 온라인 상태로 만드는 작업이 포함됩니다.
  • 리소스 할당: 활성-수동 구성은 대기 노드가 유휴 상태로 유지되므로 정상적인 작업 중에 사용 가능한 하드웨어 리소스를 완전히 사용하지 못할 수 있습니다. 그러나 이 설정은 관리가 더 간단할 수 있으며 특정 조건에서 예측 가능한 성능을 보장할 수 있습니다.
  • 단순성 및 안정성: 활성-수동 설정은 운영 효율성을 극대화하는 것보다 안정성과 예측 가능성이 더 중요한 애플리케이션에 유리할 수 있습니다. 활성-활성 구성에 비해 구현 및 유지 관리가 더 쉬운 경우가 많습니다.
  • 장애 조치 클러스터링 기능

    장애 조치(failover) 클러스터링에서는 가동 시간을 최대화하고, 데이터 무결성을 보장하며, 중요한 워크로드의 관리를 간소화하도록 설계된 포괄적인 기능 집합을 제공합니다. 이러한 기능을 통해 조직은 서비스 연속성을 유지하고, 리소스를 효율적으로 관리하고, 하드웨어 또는 소프트웨어 오류로부터 신속하게 복구할 수 있습니다. 장애 조치(failover) 클러스터링에서 제공하는 일부 기능은 다음과 같습니다.

    • 클러스터 노드 및 쿼럼:

      클러스터 노드는 클러스터가 올바르게 작동하는 데 필요한 클러스터 멤버의 최소 투표 수인 쿼럼이라고 하는 것을 유지하기 위해 공동 작업합니다. 이 메커니즘은 클러스터의 분할 부분이 독립적으로 작동하여 잠재적으로 불일치를 일으킬 수 있는 분할 브레인 시나리오를 방지합니다. 노드 과반수, 노드 및 디스크 과반수, 노드 및 파일 공유 과반수, 과반수 없음(디스크 전용)과 같은 쿼럼 모델은 투표가 할당되고 계산되는 방법을 결정합니다. 예를 들어 노드 과반수는 각 노드에 투표를 할당하고 노드 및 디스크 과반수는 디스크 또는 파일 공유의 추가 투표를 통합합니다.

    • 스토리지 구성:

      장애 조치(failover) 클러스터의 주목할 만한 기능은 여러 노드가 동일한 스토리지에 동시에 액세스할 수 있는 CSV(클러스터 공유 볼륨)이며, 이를 통해 성능 손실 없이 원활한 디스크 관리 및 조정이 가능합니다. CSV는 장애 조치(failover) 클러스터의 스토리지 구성에 필수적인 부분입니다. CSV는 효율적인 디스크 액세스를 용이하게 하여 노드가 스토리지 작업을 공동으로 처리할 수 있도록 합니다.

    • 사전 모니터링 및 관리:

      장애 조치 클러스터는 노드 및 그 역할의 상태를 모니터링하기 위해 하트비트 신호를 사용합니다. 이러한 신호는 노드 오류 또는 서비스 중단과 같은 문제를 감지하는 데 도움이 됩니다. 이러한 문제가 감지되면 시스템은 장애 조치(failover) 절차를 자동으로 시작하여 연속성을 보장하고 가동 중지 시간을 최소화할 수 있습니다.

    • 보안 및 규정 준수:

      보안은 데이터 및 클러스터 작업을 보호하기 위해 암호화 및 액세스 제어와 같은 기능을 통합하는 장애 조치(failover) 클러스터의 중요한 측면입니다. 클러스터는 조직이 보안 데이터 처리 및 안정적인 시스템 성능을 보장하여 중요한 애플리케이션에 대한 규정 준수 요구 사항을 충족하도록 지원합니다. 이를 통해 엄격한 데이터 보호 및 규정 준수가 필요한 환경에 적합합니다.

    • 사용 사례:

      장애 조치(failover) 클러스터링에는 재해 복구, 부하 분산 및 고성능 컴퓨팅을 비롯한 몇 가지 실용적인 애플리케이션이 있습니다. 고가용성을 제공하여 중요한 애플리케이션을 지원하므로 기업은 불리한 조건에서도 운영을 유지할 수 있습니다. 예를 들어 재해 복구 시나리오에서 클러스터는 영향을 받지 않는 노드로 작업을 전송하여 서비스를 신속하게 복원할 수 있습니다.

      • 장애 조치(failover) 클러스터링을 통해 물리적 서버 또는 가상 머신에서 실행되는 중요한 애플리케이션 및 서비스(클러스터된 역할)에 대한 고가용성 또는 지속적인 가용성을 보장합니다. 오류가 발생하면 다른 노드에서 이러한 역할을 신속하게 이동하거나 다시 시작하여 가동 중지 시간을 최소화하고 일관된 성능 및 중복성을 유지할 수 있습니다.

      • Microsoft SQL Server 및 Hyper-V 가상 머신과 같은 애플리케이션은 하드웨어 또는 소프트웨어 오류 발생 시에도 최소한의 서비스 중단을 경험하여 장애 조치(failover) 클러스터링의 이점을 누릴 수 있습니다.

    장애 조치 클러스터링 리소스

    이 큐레이팅된 리소스 테이블은 장애 조치(failover) 클러스터링을 효과적으로 이해하고, 계획하고, 배포하고, 관리할 수 있도록 설계되었습니다.

    이해 계획 배포
    장애 조치 클러스터링의 새로운 사항 장애 조치 클러스터링의 하드웨어 요구 사항 및 스토리지 옵션 계획 페일오버 클러스터 생성
    애플리케이션 데이터용 스케일 아웃 파일 서버 CSV(클러스터 공유 볼륨) 사용 2노드 파일 서버 배포
    클러스터 및 풀 쿼럼 Storage Spaces Direct를 사용한 게스트 가상 머신 클러스터 Active Directory Domain Services에서 클러스터 컴퓨터 계정 사전 준비
    장애 도메인 인식 Active Directory에서 클러스터 계정 구성
    간소화된 SMB 다중 채널 및 다중 NIC 클러스터 네트워크 쿼럼 없이 장애 조치 클러스터 복구
    VM 부하 분산 쿼럼 감시자를 배포
    클러스터 세트 클러스터 운영 체제 순차적 업그레이드
    클러스터 선호도 동일한 하드웨어에서 장애 조치 클러스터 업그레이드
    Active Directory 독립형 클러스터 배포
    관리 도구 및 설정 커뮤니티 리소스
    클러스터 인식 업데이트 장애 조치 클러스터링 PowerShell 명령렛 Failover Cluster 포럼
    보건 서비스 클러스터 인식 업데이트용 PowerShell cmdlet 장애 조치 클러스터링 블로그
    클러스터 도메인 마이그레이션
    Windows 오류 보고를 사용하여 문제 해결 중