장애 조치(failover) 클러스터링은 중요한 환경에서 고가용성 및 중단 없는 작업을 보장하는 강력한 전략입니다. 여기에는 노드라고 하는 독립 컴퓨터의 구성이 포함되며, 이 컴퓨터는 현재 클러스터형 역할이라고 하는 애플리케이션 및 서비스의 가용성과 확장성을 향상시키기 위해 함께 작동합니다. 이러한 노드는 물리적 케이블 연결과 소프트웨어를 통해 상호 연결됩니다.
하나 이상의 노드에서 오류가 발생하면 나머지 노드는 장애 조치(failover)라는 프로세스인 워크로드를 자동으로 인수하여 중단을 최소화합니다. 또한 클러스터된 역할의 상태는 지속적으로 모니터링됩니다. 문제가 발견되면 역할을 다시 시작하거나 다른 노드로 마이그레이션하여 원활한 작업을 유지합니다. 이러한 사전 예방적 접근 방식을 통해 하드웨어 또는 소프트웨어 오류가 발생하더라도 서비스를 일관되게 사용할 수 있습니다.
네트워킹은 클러스터 노드와 외부 클라이언트 간의 안정적인 통신 및 효율적인 데이터 교환을 가능하게 함으로써 장애 조치(failover) 클러스터에서 중요한 역할입니다. 클러스터는 종종 하트비트 신호 및 클러스터 관리와 같은 내부 기능에 전용 프라이빗 네트워크를 사용하는 반면, 별도의 공용 네트워크는 클라이언트 액세스 및 애플리케이션 데이터를 처리합니다. 이 네트워크 분리는 외부 중단으로부터 중요한 클러스터 트래픽을 격리하여 성능 및 보안을 향상시킵니다. 또한 내결함성을 높여 내부 클러스터 작업이 중단 없이 유지되고 클라이언트 연결이 장애 조치(failover) 이벤트 중에 고가용성을 유지하도록 합니다.
클러스터의 상태는 하트비트 신호를 통해 지속적으로 모니터링되므로 문제를 감지하는 데 도움이 됩니다. 문제가 발생하면 시스템에서 서비스 연속성을 유지하기 위해 장애 조치(failover)를 자동으로 시작할 수 있습니다. 중요한 데이터를 보호하고 조직 표준을 충족하기 위해 장애 조치(failover) 클러스터는 암호화와 같은 강력한 보안 조치를 통합하여 전송 중 및 미사용 데이터를 보호합니다. 또한 세분화된 액세스 제어를 사용하여 사용 권한 및 액세스 권한을 효과적으로 관리합니다.
Azure Local의 장애 조치(failover) 클러스터링에 대한 자세한 내용은 클러스터 및 풀 쿼럼이해를 참조하세요.
활성 및 수동 장애 조치(failover) 구성
장애 조치(failover) 클러스터는 활성-활성 및 활성-수동의 두 가지 기본 구성에서 설정할 수 있습니다. 각 구성에는 고유의 절충점이 있으며, 활성-활성 구성은 성능 및 리소스 효율성에 중점을 두는 반면, 활성-수동 구성은 장애 조치 시나리오에서 단순성 및 안정성을 강조합니다. 선택은 특정 조직의 요구 사항과 클러스터형 애플리케이션의 중요도에 따라 달라집니다.
설정 | 수술 |
---|---|
활동 중 | 활성-활성 장애 조치(failover) 클러스터에서 모든 노드는 활성 상태이며 동시에 함께 작동하여 클러스터 전체의 워크로드를 분산합니다. 이 구성은 사용 가능한 모든 노드 간에 작업, 처리 능력 또는 서비스를 분산하여 리소스를 효율적으로 사용합니다. 작동 방식은 다음과 같습니다. |
수동 | 활성-수동 장애 조치(failover) 클러스터에서 일부 노드는 활성으로 지정되고 다른 노드는 대기 상태이며 활성 노드가 실패할 경우 인수할 준비가 됩니다. 작동 방식은 다음과 같습니다. |
장애 조치 클러스터링 기능
장애 조치(failover) 클러스터링에서는 가동 시간을 최대화하고, 데이터 무결성을 보장하며, 중요한 워크로드의 관리를 간소화하도록 설계된 포괄적인 기능 집합을 제공합니다. 이러한 기능을 통해 조직은 서비스 연속성을 유지하고, 리소스를 효율적으로 관리하고, 하드웨어 또는 소프트웨어 오류로부터 신속하게 복구할 수 있습니다. 장애 조치(failover) 클러스터링에서 제공하는 일부 기능은 다음과 같습니다.
클러스터 노드 및 쿼럼:
클러스터 노드는 클러스터가 올바르게 작동하는 데 필요한 클러스터 멤버의 최소 투표 수인 쿼럼이라고 하는 것을 유지하기 위해 공동 작업합니다. 이 메커니즘은 클러스터의 분할 부분이 독립적으로 작동하여 잠재적으로 불일치를 일으킬 수 있는 분할 브레인 시나리오를 방지합니다. 노드 과반수, 노드 및 디스크 과반수, 노드 및 파일 공유 과반수, 과반수 없음(디스크 전용)과 같은 쿼럼 모델은 투표가 할당되고 계산되는 방법을 결정합니다. 예를 들어 노드 과반수는 각 노드에 투표를 할당하고 노드 및 디스크 과반수는 디스크 또는 파일 공유의 추가 투표를 통합합니다.
스토리지 구성:
장애 조치(failover) 클러스터의 주목할 만한 기능은 여러 노드가 동일한 스토리지에 동시에 액세스할 수 있는 CSV(클러스터 공유 볼륨)이며, 이를 통해 성능 손실 없이 원활한 디스크 관리 및 조정이 가능합니다. CSV는 장애 조치(failover) 클러스터의 스토리지 구성에 필수적인 부분입니다. CSV는 효율적인 디스크 액세스를 용이하게 하여 노드가 스토리지 작업을 공동으로 처리할 수 있도록 합니다.
사전 모니터링 및 관리:
장애 조치 클러스터는 노드 및 그 역할의 상태를 모니터링하기 위해 하트비트 신호를 사용합니다. 이러한 신호는 노드 오류 또는 서비스 중단과 같은 문제를 감지하는 데 도움이 됩니다. 이러한 문제가 감지되면 시스템은 장애 조치(failover) 절차를 자동으로 시작하여 연속성을 보장하고 가동 중지 시간을 최소화할 수 있습니다.
보안 및 규정 준수:
보안은 데이터 및 클러스터 작업을 보호하기 위해 암호화 및 액세스 제어와 같은 기능을 통합하는 장애 조치(failover) 클러스터의 중요한 측면입니다. 클러스터는 조직이 보안 데이터 처리 및 안정적인 시스템 성능을 보장하여 중요한 애플리케이션에 대한 규정 준수 요구 사항을 충족하도록 지원합니다. 이를 통해 엄격한 데이터 보호 및 규정 준수가 필요한 환경에 적합합니다.
사용 사례:
장애 조치(failover) 클러스터링에는 재해 복구, 부하 분산 및 고성능 컴퓨팅을 비롯한 몇 가지 실용적인 애플리케이션이 있습니다. 고가용성을 제공하여 중요한 애플리케이션을 지원하므로 기업은 불리한 조건에서도 운영을 유지할 수 있습니다. 예를 들어 재해 복구 시나리오에서 클러스터는 영향을 받지 않는 노드로 작업을 전송하여 서비스를 신속하게 복원할 수 있습니다.
장애 조치(failover) 클러스터링을 통해 물리적 서버 또는 가상 머신에서 실행되는 중요한 애플리케이션 및 서비스(클러스터된 역할)에 대한 고가용성 또는 지속적인 가용성을 보장합니다. 오류가 발생하면 다른 노드에서 이러한 역할을 신속하게 이동하거나 다시 시작하여 가동 중지 시간을 최소화하고 일관된 성능 및 중복성을 유지할 수 있습니다.
Microsoft SQL Server 및 Hyper-V 가상 머신과 같은 애플리케이션은 하드웨어 또는 소프트웨어 오류 발생 시에도 최소한의 서비스 중단을 경험하여 장애 조치(failover) 클러스터링의 이점을 누릴 수 있습니다.
장애 조치 클러스터링 리소스
이 큐레이팅된 리소스 테이블은 장애 조치(failover) 클러스터링을 효과적으로 이해하고, 계획하고, 배포하고, 관리할 수 있도록 설계되었습니다.
관리 | 도구 및 설정 | 커뮤니티 리소스 |
---|---|---|
클러스터 인식 업데이트 | 장애 조치 클러스터링 PowerShell 명령렛 | Failover Cluster 포럼 |
보건 서비스 | 클러스터 인식 업데이트용 PowerShell cmdlet | 장애 조치 클러스터링 블로그 |
클러스터 도메인 마이그레이션 | ||
Windows 오류 보고를 사용하여 문제 해결 중 |