가용성 영역을 사용한 지역 내 복구 및 지역 간 지리적 재해 복구(Azure Event Grid)

이 문서에서는 가용성 영역이 있는 지역에서 오류가 발생할 때 Azure Event Grid가 Event Grid 리소스 정의 및 데이터의 자동 지역 내 복구를 지원하는 방법을 설명합니다. 또한 짝을 이루는 지역이 있는 지역에서 오류가 발생할 때 Event Grid가 Event Grid 리소스 정의(데이터 없음)를 다른 지역으로 자동 복구하는 방법을 설명합니다.

가용성 영역을 사용한 지역 내 복구

Azure 가용성 영역은 로컬 오류를 허용하는 각 Azure 지역 내에서 물리적으로 분리된 위치입니다. 왕복 대기 시간이 2밀리초 미만인 고성능 네트워크로 연결됩니다. 각 가용성 영역은 독립적인 전원, 냉각 및 네트워킹 인프라를 갖춘 하나 이상의 데이터 센터로 구성됩니다. 하나의 영역이 영향을 받는 경우 지역 서비스, 용량 및 고가용성은 나머지 두 영역에서 지원됩니다. 가용성 영역에 대한 자세한 내용은 지역 및 가용성 영역을 참조하세요. 이 문서에서는 가용성 영역이 있는 지역 목록도 볼 수 있습니다.

항목, 시스템 항목, 도메인, 이벤트 구독 및 이벤트 데이터에 대한 Event Grid 리소스 정의는 지역의 가용성 영역 3곳(사용 가능한 경우)에 걸쳐 자동으로 복제됩니다. 가용성 영역 중 하나에 장애가 발생하면 Event Grid 리소스는 사용자의 개입 없이 다른 가용성 영역으로 자동으로 장애 조치(failover)합니다. 현재 이 기능을 제어(사용 또는 사용 안 함)할 수 없습니다. 기존 지역에서 가용성 영역 지원을 시작하면 기존 Event Grid 리소스가 이 기능을 활용하기 위해 자동으로 장애 조치(failover)됩니다. 고객이 수행할 작업은 없습니다.

다른 지역을 사용하여 국지적 재해, 지역적 또는 대규모 지리적 재해로부터 보호하는 가용성 영역을 보여주는 다이어그램.

지역 간 지리적 재해 복구

Azure 지역에 장기간 중단이 발생하는 경우 비즈니스 연속성을 이루기 위해 대체 지역에 대한 장애 조치(failover) 옵션에 관심이 있을 수 있습니다. 많은 Azure 지역에는 지리적 쌍이 있으나 일부 지역에는 없습니다. 쌍을 이룬 지역이 있는 지역 목록은 모든 지역에 대한 Azure 지역 간 복제 쌍을 참조하세요.

지리적 쌍이 있는 지역의 경우 Event Grid는 사용자 지정 항목, 시스템 항목 및 도메인에 대해 쌍을 이루는 지역으로 게시 트래픽을 장애 조치(failover)하는 기능을 제공합니다. 뒤에서 Event Grid는 항목, 시스템 항목, 도메인 및 이벤트 구독의 리소스 정의를 쌍을 이루는 지역에 자동으로 동기화합니다. 그러나 이벤트 데이터는 쌍을 이루는 지역에 복제되지 않습니다. 정상 상태에서 이벤트는 해당 리소스에 대해 선택한 지역에 저장됩니다. 지역 중단이 발생하고 Microsoft가 장애 조치(failover)를 시작하면 새 이벤트가 지리적으로 연결된 지역으로 흐르기 시작하고 사용자 개입 없이 해당 지역에서 발송됩니다. 원래 지역에서 게시되고 수락된 이벤트는 중단이 완화된 후 해당 지역에서 발송됩니다.

Microsoft 시작 장애 조치(failover)는 해당 지역의 Event Grid 리소스를 상응하는 지역 쌍 지역으로 장애 조치(failover)하는 드문 상황에서 Microsoft에 의해 실행됩니다. Microsoft는 이 옵션이 행사되는 시기를 결정할 권리를 보유합니다. 이 메커니즘에는 사용자의 트래픽이 장애 조치(failover)되기 전 사용자 동의가 포함되지 않습니다.

항목 또는 도메인에 대한 구성을 업데이트하여 이 기능을 사용하거나 사용하지 않도록 설정할 수 있습니다. Microsoft 시작 장애 조치(failover)를 사용하도록 설정하려면 지역 간 옵션(기본값)을 선택하고 사용하지 않도록 설정하려면 영역을 선택합니다. 이 설정을 구성하는 자세한 단계는 데이터 보존 구성을 참조하세요. "지역"을 선택하면 어떤 종류의 데이터도 Microsoft에서 다른 지역으로 복제되지 않으며 사용자는 고유한 재해 복구 계획을 정의할 수 있습니다. 자세한 내용은 Azure Event Grid 토픽 및 도메인에 대한 고유한 재해 복구 계획 수립을 참조하세요.

Event Grid 사용자 지정 항목에 대한 구성 페이지를 보여 주는 스크린샷.

다음은 Microsoft에서 시작한 장애 조치(failover) 기능을 사용하지 않도록 설정하려는 몇 가지 이유입니다.

  • Microsoft에서 시작한 장애 조치(failover)는 최선을 다해 수행됩니다.
  • 일부 지역 쌍은 조직의 데이터 보존 요구 사항을 충족하지 않습니다.

이러한 경우 권장 옵션은 Azure Event Grid 항목 및 도메인에 대한 고유한 재해 복구 계획을 수립하는 것입니다. 이 옵션은 약간의 활동이 필요하지만 더 빠른 장애 조치(failover)를 가능하게 하고 보조 지역 선택을 제어할 수 있습니다. Azure Event Grid 항목에 대한 클라이언트 쪽 재해 복구를 구현하려면 Azure Event Grid 항목에 대한 고유한 클라이언트 쪽 재해 복구 빌드를 참조하세요.

RTO 및 RPO

재해 복구는 다음과 같은 두 가지 메트릭을 사용하여 측정됩니다.

  • RPO(복구 지점 목표): 손실될 수 있는 데이터의 분 또는 시간입니다.
  • RTO(복구 시간 목표): 서비스가 다운될 수 있는 분 또는 시간입니다.

Event Grid의 자동 장애 조치(failover)에서는 메타데이터(토픽, 도메인, 이벤트 구독) 및 데이터(이벤트)에 대한 RPO 및 RTO가 다릅니다. 다음과는 다른 사양이 필요한 경우 자체적으로 토픽 상태 API를 사용하여 클라이언트 쪽 장애 조치를 계속 구현할 수 있습니다.

복구 지점 목표(RPO)

  • 메타데이터 RPO: 0분. 해당 리소스의 경우 리소스가 만들어지거나 업데이트되거나 삭제되면 리소스 정의가 지역 쌍에 동기식으로 복제됩니다. 장애 조치가 발생하면 메타데이터가 손실되지 않습니다.

  • 데이터 RPO: 장애 조치(failover)가 발생하면 쌍을 이루는 지역에서 새 데이터가 처리됩니다. 영향을 받는 지역의 가동 중단이 완화되자마자 처리되지 않은 이벤트가 해당 지역에서 전달됩니다. 지역 복구에 이벤트에 설정된 수명 값보다 긴 시간이 필요한 경우 데이터가 삭제될 수 있습니다. 이러한 데이터 손실을 완화하려면 이벤트 구독에 대해 데드 레터 대상을 설정하는 것이 좋습니다. 영향을 받은 지역이 손실되어 복구할 수 없는 경우 일부 데이터가 손실됩니다. 최상의 시나리오에서 구독자는 게시 속도를 유지하며 몇 초간의 데이터만 손실됩니다. 최악의 시나리오에서는 구독자가 이벤트를 적극적으로 처리하지 않으며 최대 수명이 24시간인 경우 데이터 손실이 최대 24시간일 수 있습니다.

RTO(복구 시간 목표)

  • 메타데이터 RTO: 장애 조치(failover) 의사 결정은 쌍을 이루는 지역의 사용 가능한 용량과 같은 요소를 기반으로 하며 60분 이상 지속될 수 있습니다. 장애 조치(failover)가 시작되면 5분 이내에 Event Grid가 토픽 및 구독에 대한 만들기/업데이트/삭제 호출을 수락하기 시작합니다.

  • 데이터 RTO: 위 정보와 동일합니다.

Important

  • 서버 쪽 재해 복구의 경우 쌍을 이루는 지역에 추가 트래픽을 처리할 추가 용량이 없으면 Event Grid에서 장애 조치(failover)를 시작할 수 없습니다. 복구는 최선을 다해 수행됩니다.
  • 이 기능 사용에는 요금이 부과되지 않습니다.
  • 파트너 네임스페이스 및 파트너 항목에 대해서는 지리적 재해 복구가 지원되지 않습니다.

다음 단계

Azure Event Grid 토픽에 대한 고유한 클라이언트 쪽 재해 복구 구축을 참조하세요.