비즈니스 연속성 및 재해 복구 플랜 개발

완료됨

조직에서 애플리케이션의 사이트 복구 전략을 디자인하도록 요구합니다. 먼저 하이브리드 환경의 사이트 복구를 빌드하기 위한 특정 요구 사항을 이해해야 합니다. 또한 Azure에서 도움을 줄 수 있는 도구를 파악해야 합니다.

이 단원에서는 핵심 인프라, RTO(복구 시간 목표) 및 RPO(복구 지점 목표)를 식별하는 방법을 알아봅니다. 사용 중인 모든 PaaS(Platform as a Service) 서비스와 관련 있을 수도 있는 요구 사항을 알아봅니다. 백업 및 재해 복구를 계획하는 방법에 대해서도 알아봅니다. 또한 사이트 복구 솔루션을 빌드하는 데 도움이 되는 몇 가지 Azure 기능을 살펴봅니다.

비즈니스 연속성 및 재해 복구

적절한 사이트 복구 솔루션을 디자인할 수 있도록 BCDR 계획을 개발해야 합니다. BCDR은 중대한 이벤트가 발생한 후 애플리케이션을 작동 상태로 복원하는 데 도움이 되는 프로세스를 나타냅니다. 이 이벤트는 지진과 같은 자연 재해일 수 있습니다. 또는 데이터베이스 삭제와 같이 본질적으로 기술적일 수 있습니다. 이 이벤트는 일반적으로 더 광범위하며 복구하는 데 더 큰 활동이 필요합니다.

성공적인 재해 복구 프로세스를 고안하려면 먼저 오류가 발생할 수 있는 비즈니스 영향에 어떤 종류가 있는지 평가해야 합니다. 복구 프로세스를 최대한 많이 자동화하는 것이 좋습니다. 일부 재해 복구 프로세스에는 사용자가 입력해야 하는 과정이 반드시 필수적이므로 프로세스를 완벽하게 문서화해야 합니다. 또한 정기적으로 재해를 시뮬레이트해야 하므로 복구 프로세스가 계속 적용됩니다.

주요 관련자 및 인프라 식별

애플리케이션의 지속적인 작동에 관련이 있는 모든 사용자를 식별합니다. 이 관련자는 외부 또는 내부 사용자일 수 있습니다. 지원 직원 및 BCDR 프로세스의 수동 입력에 필요한 모든 사용자는 관련자입니다. 애플리케이션을 사용하는 다른 애플리케이션 및 서비스도 관련자일 수 있습니다.

애플리케이션의 환경을 구성하는 인프라를 식별합니다. 이 인프라는 일반적으로 VM(가상 머신), 네트워크 리소스, 스토리지 리소스 및 이러한 리소스와 함께 실행되는 기타 서비스입니다.

복구 지점 목표 및 복구 시간 목표 식별

RPO는 재해가 발생한 경우 애플리케이션에 허용되는 데이터 손실 분량을 나타냅니다. 예를 들어 애플리케이션이 다운된 경우 복구 후 30분이 경과되지 않은 데이터로만 애플리케이션을 실행할 수 있음을 알 수 있습니다. 일부 애플리케이션은 더 오래된 데이터로 작동할 수 있지만, 다른 애플리케이션의 경우 항상 최신 데이터로 실행하는 것이 중요합니다.

RTO는 애플리케이션에 허용되는 최대 가동 중지 기간입니다. 예를 들어, 장시간 중단으로 인해 발생할 수 있는 비즈니스 손실을 고려하면 애플리케이션이 4시간 이상 다운되는 것을 용납할 수 없을 수도 있습니다. 중요한 애플리케이션에는 더 짧은 RTO가 필요합니다.

RPO를 데이터 손실로 보여 주고 RTO를 재해로부터 복구하는 시간으로 보여 주는 다이어그램

애플리케이션의 RPO와 RTO는 계약 또는 규정 요구 사항의 영향을 받을 수 있습니다. RPO와 RTO는 애플리케이션마다 다를 수도 있습니다. 중요한 애플리케이션이 적을수록 RPO 및 RTO 값이 더 클 수 있지만, 중요 비즈니스용 애플리케이션은 가동 중지 시간 및 데이터 손실의 허용 오차가 더 작을 수 있습니다. 조직의 위험과 가동 중지 및 데이터 손실로 인해 발생하는 비용에 대한 이해도에 따라 RTO와 RPO를 계산합니다.

PaaS 요구 사항 식별

관리하는 애플리케이션의 가동 중지 시간과 복구는 제어할 수 있지만 이 방법은 PaaS 서비스에는 해당하지 않을 수 있습니다. 사용하는 PaaS 서비스에는 BCDR 계획에서 고려해야 할 고유한 가용성 보장 및 복구 계획이 있을 수 있습니다.

BCDR 계획에 복구 기능을 통합할 수 있도록 사용하는 서비스를 식별하고 인벤토리에 추가합니다. 관련 요구 사항 및 BCDR 프로세스에 미치는 영향을 이해하는 것이 중요합니다.

Azure Site Recovery

Azure Site Recovery는 Azure, 온-프레미스 및 다른 클라우드 공급자에서 애플리케이션에 대한 BCDR 기능을 제공하는 서비스입니다. Site Recovery에는 재해 복구를 자동화하는 데 도움이 되는 계획이 있습니다. 이를 통해 가상 머신의 장애 조치 방식과 장애 조치 성공 후 재시작 순서를 정의할 수 있습니다. 이 방식으로 Site Recovery를 통해 작업을 자동화하고 RTO를 추가로 줄일 수 있습니다. 또한 Site Recovery를 사용하여 장애 조치 및 복구 프로세스의 전반적인 효과를 주기적으로 테스트할 수 있습니다.

미국 동부 지역에 있는 가상 머신 3개의 워크로드를 미국 서부 지역으로 복제할 때 Azure Site Recovery의 역할을 보여 주는 다이어그램

데이터 백업

백업을 통해 애플리케이션의 데이터가 실수로 삭제되거나 손상되지 않도록 보호할 수 있습니다. 백업은 BCDR 플랜에서 중요한 역할을 합니다.

RPO는 백업 프로세스를 정기적으로 실행하는 빈도 및 방법에 따라 달라집니다. 예를 들어 백업 프로세스가 2시간마다 실행되도록 구성되고 다음 백업 전에 5분 동안 재해가 발생하면 1시간 55분 분량의 데이터가 손실됩니다. 백업을 더 자주 수행하면 감소한 RPO가 달성됩니다. 전체 플랜에는 자세한 백업 프로세스를 포함해야 합니다.

백업 프로세스에 Azure Backup을 사용할 수 있습니다. Azure Backup 서비스는 모든 Azure 관리형 데이터 자산의 보안 백업을 제공합니다. 해당 서비스는 제로 인프라 솔루션을 사용하여 예측 가능한 비용의 대규모 관리를 통해 셀프 서비스 백업 및 복원을 가능하게 합니다.

Azure Backup은 Azure 및 온-프레미스 VM의 특수 백업 솔루션을 제공합니다. Azure Backup을 사용하면 Azure VM에서 실행되는 SQL Server 또는 SAP HANA 같은 워크로드에 엔터프라이즈급 백업 및 복원 옵션을 사용할 수도 있습니다.

Azure Backup과 Azure Site Recovery는 결함 및 실패에 대한 사이트 복원력을 개선하는 데 중점을 둡니다. 그러나 Azure Backup의 기본 목표는 과거로 돌아갈 수 있는 상태 저장 데이터의 복사본을 유지 관리하는 것입니다. Site Recovery는 거의 실시간으로 데이터를 복제하고 장애 조치(failover)가 가능합니다. Azure Backup에 대해 자세히 알아보세요.

Azure 복원력 기능

Azure에는 애플리케이션과 인프라의 복원력을 보장하는 데 도움이 되는 여러 가지 기능이 있습니다. Azure 복원력 기능에는 지역 페어링, 가용성 집합, 가용성 영역이 포함됩니다.

지역 연결

모든 Azure 지역은 다른 지역과 쌍으로 연결됩니다. 지역 쌍에서 지역은 동시에 업데이트되지 않습니다. 대신, 기능은 하나씩 업데이트됩니다. 한 지역에 무슨 일이 일어나면, 그 쌍의 다른 지역이 사용 가능해집니다.

이 지역 쌍은 복제에도 사용됩니다. 스토리지 서비스와 많은 PaaS 서비스는 연결된 지역에서 복제되며 장애 조치 쌍을 가집니다. BCDR 계획의 일부로 지역 연결을 통해 제공되는 격리를 활용해야 합니다. 오류에서 복구하는 데 걸리는 시간을 줄이고 가용성을 높입니다.

가용성 집합

가용성 집합은 Azure의 논리적 그룹화 기능입니다. VM 리소스를 가용성 집합 내에 배치하면 Azure 데이터 센터 내에 배포될 때 해당 VM 리소스가 서로 격리되도록 할 수 있습니다. 가용성 집합은 업데이트 도메인과 장애 도메인으로 구성됩니다.

가용성 집합의 업데이트 도메인 및 장애 도메인을 보여 주는 다이어그램

업데이트 도메인을 사용하면 Azure 데이터 센터의 VM 호스트에 유지 관리를 위해 가동 중지 시간이 필요할 때 애플리케이션 서버의 하위 집합이 계속 실행되는 것을 보장할 수 있습니다. VM 호스트에 대한 대부분의 업데이트는 VM 호스트에서 실행되는 VM에 영향을 주지 않고 수행할 수 있지만 이러한 유형의 업데이트가 불가능한 경우가 있습니다.

모든 VM에 동시에 업데이트가 발생하지 않도록 Azure 데이터 센터는 UD(업데이트 도메인)로 논리적으로 구분됩니다. 호스트에 적용해야 하는 성능 업데이트 및 중요 보안 패치와 같은 유지 관리 이벤트가 발생하는 경우 해당 유지 관리 이벤트는 업데이트 도메인을 통해 순차적으로 진행됩니다. 업데이트 도메인을 통해 시퀀싱을 사용하면 플랫폼 업데이트와 패치 적용 중에 전체 데이터 센터를 사용할 수 없게 됩니다.

장애 도메인은 데이터 센터의 물리적 섹션을 나타내고 가용성 집합에서 서버의 랙 다양성을 보장하는 데 도움이 됩니다. 장애 도메인은 데이터 센터 내 공유 하드웨어의 물리적 분리와 일치합니다. 공유 하드웨어에는 서버 랙에 있는 물리적 서버를 지원하는 전원, 냉각 및 네트워크 하드웨어가 포함됩니다.

서버를 지원하는 하드웨어를 사용할 수 없게 되면 가동 중단은 해당 서버 랙에만 영향을 줍니다. 가용성 집합에 VM을 배치하면 여러 장애 도메인에 자동으로 분산됩니다. 하드웨어 오류가 발생하면 일부 VM에만 영향을 줍니다.

가용성 영역

가용성 영역은 한 지역 내의 독립적인 물리적 데이터센터 위치입니다. 가용성 영역에는 자체 전원, 냉각 및 네트워킹이 포함됩니다. 리소스를 배포할 때 가용성 영역을 고려하면 데이터센터 중단으로부터 워크로드를 보호하고 한 지역에서 현재 상태를 유지하는 데 도움이 될 수 있습니다.

영역 서비스는 (가상 머신처럼) 지역 내의 특정 영역에 배포할 수 있는 서비스입니다. 다른 서비스는 영역 중복 서비스로, 특정 Azure 지역의 가용성 영역에서 복제됩니다. 두 유형은 모두 Azure 지역 내에서 단일 실패 지점이 없도록 보장하는 데 도움이 됩니다.

하나에 오류가 있지만 다른 두 개에 영향을 주지 않는 가용성 영역 세 개를 보여 주는 다이어그램

지식 점검

1.

Azure Backup과 Azure Site Recovery의 차이점은 무엇인가요?

2.

가상 머신의 고가용성에 기여하는 Azure 기능은 무엇인가요?