편집

다음을 통해 공유


재해 복구를 위해 Azure Stack HCI 확장 클러스터 사용

Azure Stack HCI
Azure Blob Storage
Azure Backup
Azure Monitor

다음 참조 아키텍처에서는 확대 클러스터링을 사용하여 Azure Stack HCI의 재해 복구를 설계하고 구현하는 방법을 보여 줍니다.

아키텍처

스토리지 복제본을 통해 복제되는 스토리지 볼륨 및 클러스터 성능 기록이 있는 활성-활성 및 활성-수동 Azure Stack HCI 확대 클러스터를 보여 주는 다이어그램. 활성-활성 모드에서는 두 사이트 모두에서 Azure Stack HCI VM을 호스트하는 각 방향의 복제 트래픽이 있습니다. 활성-수동 모드에서 복제는 활성 사이트에서 Azure Stack HCI VM을 호스트하는 단방향입니다.

이 아키텍처의 Visio 파일을 다운로드합니다.

구성 요소

아키텍처에서 통합하고 있는 구성 요소와 기능은 다음과 같습니다.

  • Azure Stack HCI(22H2). Azure Stack HCI 는 하이브리드 온-프레미스 환경에서 가상화된 Windows 및 Linux 워크로드 및 해당 스토리지를 호스트하는 데 사용할 수 있는 HCI(하이퍼 컨버지드 인프라) 클러스터 솔루션입니다. 4~16개의 실제 노드로 확장된 클러스터를 구성할 수 있습니다.
  • 스토리지 복제본. 스토리지 복제본은 재해 복구를 위해 서버 또는 클러스터 간에 볼륨 복제를 가능하게 하는 Windows Server 기술입니다.
  • 라이브 마이그레이션. 라이브 마이그레이션은 인식되는 가동 중지 시간 없이 실행되는 VM(가상 머신)을 한 Hyper-V 호스트에서 다른 Hyper-V 호스트로 원활하게 이동할 수 있는 Windows Server의 Hyper-V 기능입니다.
  • 클라우드 감시. 클라우드 감시는 Microsoft Azure Blob Storage를 사용하여 클러스터 쿼럼에서 투표를 제공하는 장애 조치(failover) 클러스터 쿼럼 감시입니다.

시나리오 정보

일반적으로 5ms 왕복 네트워크 대기 시간 범위 내에서 Azure Stack HCI VM의 자동 장애 조치(failover) 및 두 물리적 위치 간의 파일 공유를 사용하여 이 아키텍처를 재해 복구에 사용합니다.

권장 사항

대부분의 시나리오에 적용되는 권장 사항은 다음과 같습니다. 재정의하는 특정 요구 사항이 없는 경우 이러한 권장 사항을 따릅니다.

확대 클러스터를 사용하여 Azure Stack HCI에서 호스트되는 가상화된 워크로드 및 파일 공유에 대한 자동 재해 복구 구현

Azure Stack HCI의 기본 제공 복원력을 향상시키려면 사이트당 하나의 그룹이 있는 두 개의 노드 그룹으로 구성된 Azure Stack HCI 확대 클러스터를 구현합니다. 각 그룹에는 최소 두 개의 노드가 포함되어야 합니다. 클러스터의 총 노드 수는 Azure Stack HCI 클러스터가 지원하는 최대 노드 수를 초과할 수 없습니다. 노드는 표준 HCI 하드웨어 요구 사항을 충족해야 합니다.

스트레치된 Azure Stack HCI 클러스터는 스토리지 복제본을 사용하여 해당 물리적 사이트의 두 노드 그룹에서 호스트되는 스토리지 볼륨 간에 동기 스토리지 복제를 수행합니다. 오류가 기본 사이트의 가용성에 영향을 주는 경우 클러스터는 잠재적 가동 중지 시간을 최소화하기 위해 해당 워크로드를 정상 작동하는 사이트의 노드로 자동 전환합니다. 주 사이트에서 계획되거나 예상되는 가동 중지 시간의 경우 Hyper-V 라이브 마이그레이션을 사용하여 워크로드를 다른 사이트로 원활하게 전환하여 가동 중지 시간을 완전히 방지할 수 있습니다. 이 시나리오에서는 스토리지 위치를 염두에 두어야 합니다. 먼저 스토리지 복제본에 대한 복제 방향을 반대로 전환한 다음 VM의 실시간 마이그레이션을 수행해야 합니다. 라이브 마이그레이션이 완료될 때까지 성능에 영향을 줍니다.

참고 항목

동기 복제는 장애 조치(failover) 중에 파일 시스템 수준에서 데이터 손실이 없는 크래시 일관성을 보장합니다.

주의

확대 클러스터에 적용되는 동기 복제 요구 사항은 복제된 사이트에 있는 클러스터 노드의 두 그룹 간에 왕복 네트워크 대기 시간을 5ms로 제한합니다. 물리적 네트워크 연결 특성에 따라 이 제약 조건은 일반적으로 약 20~30 물리적 마일로 변환됩니다.

참고

스토리지 복제본의 서명 및 암호화 기능은 복제 트래픽을 자동으로 보호합니다.

고려 사항

Microsoft Azure Well-Architected Framework는 이 참조 아키텍처에서 따르는 기본 원칙 세트입니다. 다음 고려 사항은 이러한 원칙의 컨텍스트에서 구성되었습니다.

안정성

안정성은 애플리케이션이 고객에 대한 약속을 충족할 수 있도록 합니다. 자세한 내용은 안정성 핵심 요소 개요를 참조하세요.

  • 사이트 수준 장애 도메인. Azure Stack HCI 확대 클러스터의 각 물리적 사이트는 추가 복원력을 제공하는 고유한 장애 도메인을 나타냅니다. 장애 도메인은 단일 실패 지점을 공유하는 하드웨어 구성 요소 집합입니다. 특정 수준에 대한 내결함성을 확보하려면 해당 수준에 여러 장애 도메인이 필요합니다.

참고

각 위치가 별도의 AD DS 사이트에 해당하는 경우 클러스터 프로비전 프로세스에서 사이트 할당을 자동으로 구성합니다. 두 위치를 나타내는 별도의 AD DS 사이트가 없지만 노드가 서로 다른 두 서브넷에 있는 경우 클러스터 프로비전 프로세스는 서브넷 할당에 따라 사이트를 식별합니다. 노드가 동일한 서브넷에 있는 경우 사이트 할당을 명시적으로 정의해야 합니다.

  • 사이트 인식. 사이트 인식을 사용하면 기본 사이트를 지정하여 가상화된 워크로드의 배치를 제어할 수 있습니다. 확대 클러스터의 기본 사이트를 지정하면 사이트 수준에서 워크로드를 그룹화하고 쿼럼 투표 옵션을 사용자 지정하는 기능을 포함한 많은 이점을 누릴 수 있습니다. 기본적으로 콜드 시작 중에 모든 가상 머신은 기본 사이트를 사용하지만 클러스터 역할 또는 그룹 수준에서 기본 사이트를 구성할 수도 있습니다. 이렇게 하면 활성-활성 모드에서 특정 가상 머신을 해당 사이트에 할당할 수 있습니다. 쿼럼 관점에서 기본 설정 사이트 선택은 해당 사이트를 선호하는 방식으로 투표 할당에 영향을 줍니다. 예를 들어 확대 클러스터 노드를 호스트하는 두 사이트 간의 연결이 실패하고 클러스터 감시에 연결할 수 없는 경우 기본 설정 사이트는 온라인 상태로 유지되고 다른 사이트의 노드는 제거됩니다.

  • 스토리지 공간 다이렉트 볼륨 복구 속도 향상. 스토리지 공간 다이렉트는 클러스터 노드 중 하나 종료 또는 지역화된 하드웨어 오류와 같이 해당 스토리지 풀 내의 디스크 가용성에 영향을 주는 이벤트에 따라 자동 다시 동기화를 제공합니다. Azure Stack HCI는 Windows Server 2019보다 훨씬 더 세밀하게 작동하는 향상된 다시 동기화 프로세스를 구현합니다. 이 프로세스는 다시 동기화 작업 기간을 크게 줄이고 여러 겹치는 하드웨어 오류의 잠재적 영향을 최소화합니다.

  • 복원력 제한. Azure Stack HCI는 여러 수준의 복원력을 제공하지만 하이퍼 수렴형 아키텍처로 인해 해당 복원력은 클러스터 쿼럼뿐만 아니라 풀 쿼럼에서 적용되는 한도의 적용을 받습니다.

  • 추가 복원력 이점을 제공하는 다양한 Azure 서비스와 통합. Azure Stack HCI 클러스터에서 실행되는 가상화된 워크로드를 Azure BackupAzure Site Recovery와 같은 Azure 서비스와 통합할 수 있습니다.

  • 장애 조치(failover) 가속화. 네트워크 인프라와 해당 구성을 최적화하여 사이트 수준 장애 조치(failover)를 빠르게 완료할 수 있습니다. 예를 들어 확대된 VLAN(가상 LAN), 네트워크 추상화 디바이스 및 클러스터된 리소스를 나타내는 DNS 레코드의 더 짧은 TTL(Time to Live) 값을 활용할 수 있습니다. 또한 클러스터된 VM이 격리된 상태에서 실행될 수 있는 기간을 결정하는 기본 복원 기간을 낮추는 것이 좋습니다.

주의

SDN에서 확대 클러스터를 사용하는 것은 고급 구성으로 간주되며, 추가 지원을 받으려면 시스템 통합자 또는 Microsoft 지원에 문의하세요.

보안

우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안 요소의 개요를 참조하세요.

  • 전송 중 보호. 스토리지 복제본은 패킷 서명, AES-128-GCM 전체 데이터 암호화, Intel AES-NI 암호화 가속 지원 및 사전 인증 무결성 중간자(man-in-the-middle) 공격 방지를 포함하는 복제 트래픽에 대한 기본 제공 보안을 제공합니다. 또한 스토리지 복제본은 복제 노드 간의 인증에 Kerberos AES256을 활용합니다.

  • 미사용 암호화 Azure Stack HCI는 데이터 볼륨에 대해 BitLocker 드라이브 암호화를 지원하므로, FIPS 140-2 및 HIPAA 같은 표준을 쉽게 준수할 수 있습니다.

  • 추가 보안 이점을 제공하는 다양한 Azure 서비스와 통합. Azure Stack HCI 클러스터에서 실행되는 가상화된 워크로드를 클라우드용 Microsoft Defender와 같은 Azure 서비스와 통합할 수 있습니다.

  • 방화벽에 편리한 구성. 스토리지 복제본 트래픽에는 복제 노드 간에 제한된 수의 열린 포트가 필요합니다.

주의

스토리지 복제본 및 Azure Stack HCI 확대 클러스터는 AD DS 환경 내에서 작동해야 합니다. Azure Stack HCI 확대 클러스터 배포를 계획하는 경우 클러스터 노드를 호스트하는 각 사이트에서 AD DS 도메인 컨트롤러에 연결해야 합니다.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.

  • 활성-활성 및 활성-수동 구성. Azure Stack HCI 확대 클러스터는 능동-수동 및 능동-능동 모드를 지원합니다. 활성-수동 모드에서 지정된 주 사이트는 재해 복구 기능을 제공하는 다른 사이트에 단방향으로 복제합니다. 활성-활성 모드에서 두 사이트는 각각의 볼륨을 서로에게 단방향으로 복제하여 어느 한 사이트에서 오류가 발생하는 경우 장애 조치(failover) 기능을 제공합니다. 능동-능동 모드는 전용 재해 복구 사이트가 필요하지 않으므로 비즈니스 연속성 비용을 최소화하는 데 도움이 됩니다.

  • 클라우드 감시 및 파일 공유 감시. 감시 리소스는 Azure Stack HCI 클러스터 내의 필수 구성 요소입니다. Azure 클라우드 감시 또는 파일 공유 감시를 선택하여 구현합니다. Azure 클라우드 감시는 스플릿 브레인 시나리오를 방지하기 위해 중재 지점으로 지정한 Azure 스토리지 계정의 Blob을 사용합니다. 파일 공유 감시는 동일한 목표를 달성하기 위해 SMB(서버 메시지 블록) 파일 공유를 사용합니다.

참고

클러스터의 모든 서버 노드에 안정적인 인터넷 연결이 있는 경우 Azure 클라우드 감시는 Azure Stack HCI 확대 클러스터에 권장되는 선택 사항입니다. 해당 Azure 요금은 무시할 수 있습니다. 클러스터 상태 변경에 해당하는 업데이트가 자주 발생하지 않는 작은 Blob의 가격을 기반으로 합니다. 확대 클러스터와 관련된 시나리오에서 파일 공유 감시는 세 번째 사이트에 상주해야 하며, 이에 따라 세 번째 사이트를 이미 사용할 수 있고 확대 클러스터 노드를 호스트하는 사이트에 대한 기존의 안정적인 연결이 없는 경우 구현 비용이 크게 증가할 수 있습니다.

  • 데이터 중복 제거. Azure Stack HCI 및 스토리지 복제본은 데이터 중복 제거를 지원합니다. Windows Server 2019부터 중복 제거는 Azure Stack HCI에 권장되는 파일 시스템인 ReFS(복원 파일 시스템)로 포맷된 볼륨에서 사용할 수 있습니다. 중복 제거는 파일의 중복 부분을 식별하고 한 번만 저장하여 사용 가능한 스토리지 용량을 늘리는 데 도움이 됩니다.

주의

데이터 중복 제거 서버 역할 서비스를 원본 서버와 대상 서버 모두에 설치해야 하지만 Azure Stack HCI 확대 클러스터 내의 대상 노드에서 데이터 중복 제거를 사용하도록 설정하지 마세요. 데이터 중복 제거는 쓰기를 관리하므로 원본 클러스터 노드에서만 실행해야 합니다. 대상 노드는 항상 각 볼륨의 중복 제거된 복사본을 받습니다.

운영 우수성

운영 우수성은 애플리케이션을 배포하고 프로덕션에서 계속 실행하는 운영 프로세스를 다룹니다. 자세한 내용은 운영 우수성 핵심 요소 개요를 참조하세요.

참고

확대 클러스터에 대한 볼륨 및 가상 디스크를 만드는 것은 단일 사이트 클러스터보다 더 복잡합니다. 확대 클러스터에는 각 사이트마다 데이터/로그 볼륨 쌍 하나씩 두 개의 데이터 볼륨과 두 개의 로그 볼륨으로 구성된 최소 4개의 볼륨이 필요합니다. Windows Admin Center를 사용하여 복제된 데이터 볼륨을 만드는 경우 프로세스는 주 사이트의 로그 볼륨과 보조 사이트의 데이터 및 로그 복제 볼륨 모두를 자동으로 프로비전하여 각각에 필요한 크기 및 구성 설정이 있는지 확인합니다.

  • Windows PowerShell을 사용하여 자동화된 확대 클러스터 프로비전스토리지 관리 지원. PowerShell은 Azure Stack HCI 서버 중 하나에서 로컬로 또는 관리 컴퓨터에서 원격으로 실행할 수 있습니다.

  • 추가 운영 이점을 제공하는 다양한 Azure 서비스와 통합. Azure Stack HCI 클러스터에서 실행되는 가상화된 워크로드를 Azure Monitor 및 Azure Automation(변경 내용 추적 및 인벤토리업데이트 관리 포함) 솔루션과 같은 Azure 서비스와 통합할 수 있습니다. 초기 필수 등록 절차에 따라 Azure Stack HCI 클러스터는 Azure Arc를 모니터링 및 청구에 활용할 수 있습니다. Azure Arc 통합은 Azure PolicyLog Analytics와 같은 다른 하이브리드 서비스와의 향상된 통합을 제공합니다. 등록은 Azure Stack HCI 클러스터를 나타내는 Azure Resource Manager 리소스 만들기를 트리거하여 Azure 관리 평면을 Azure Stack HCI로 효과적으로 확장합니다.

성능 효율성

성능 효율성은 사용자가 배치된 요구 사항을 효율적인 방식으로 충족하기 위해 워크로드의 크기를 조정할 수 있는 기능입니다. 자세한 내용은 성능 효율성 핵심 요소 개요를 참조하세요.

  • 복제 트래픽 최적화. Azure Stack HCI 확대 클러스터에 대한 인프라를 설계하는 경우 사이트 간에 흐르는 추가 스토리지 복제본, 라이브 마이그레이션 및 스토리지 복제본 클러스터 성능 기록 트래픽을 고려합니다. 동기 복제에는 확대 클러스터 사이트 간에 1Gb 이상의 RDMA(원격 직접 메모리 액세스) 또는 이더넷/TCP 연결이 필요합니다. 그러나 복제 트래픽의 양에 따라 더 빠른 RDMA 연결이 필요할 수 있습니다. 또한 복원력 이점을 제공하고 Hyper-V 라이브 마이그레이션 트래픽에서 스토리지 복제본 트래픽을 분리할 수 있는 사이트 간에 여러 연결을 프로비전해야 합니다.

주의

RDMA는 기본적으로 동일한 서브넷의 동일한 사이트에 있는 클러스터 노드 간의 모든 트래픽에 사용하도록 설정됩니다. RDMA는 사이트 간 또는 서로 다른 서브넷 간에 사용하지 않도록 설정되며 지원되지 않습니다. SMB 다이렉트를 사이트 간 트래픽에 사용하지 않도록 설정하거나 동일한 사이트 내의 노드 간 트래픽에서 분리하는 추가 프로비전을 구현해야 합니다.

  • 시드된 초기 동기화 지원. 초기 동기화 시간을 최소화해야 하거나 확대 클러스터를 호스트하는 두 사이트 간에 사용 가능한 대역폭이 제한된 시나리오에서 시드된 초기 동기화를 구현할 수 있습니다.

  • 스토리지 I/O 처리 최적화. 성능 계층, 볼륨 및 섹터 크기 조정, 디스크 유형, 파일 시스템을 포함하여 복제된 데이터 및 로그 볼륨의 최적 구성을 보장합니다.

참고

Windows Admin Center는 확대 클러스터 볼륨을 프로비전하는 데 사용하는 경우 최적의 구성을 자동으로 할당합니다.

다음 단계