Azure의 비즈니스 연속성 관리

Azure는 업계에서 가장 성숙하고 존경받는 비즈니스 연속성 관리 프로그램 중 하나를 유지합니다. Azure에서 비즈니스 연속성의 목표는 서비스가 고객 대면(Azure 제품의 일부)이든 내부 지원 플랫폼 서비스이든 관계없이 모든 독립적으로 복구 가능한 서비스에 대한 복구 가능성과 복원력을 빌드하고 발전시키는 것입니다.

비즈니스 연속성을 이해하려면 많은 제품이 여러 서비스로 구성되어 있다는 점에 유의해야 합니다. Azure에서 각 서비스는 도구를 통해 정적으로 식별되며 개인 정보 보호, 보안, 인벤토리, 위험 비즈니스 연속성 관리 및 기타 기능에 사용되는 측정 단위입니다. 서비스의 기능을 제대로 측정하기 위해 서비스 형식에 관계없이 각 서비스에는 사용자, 프로세스 및 기술의 세 가지 요소가 포함됩니다.

An image describing how elements such as people (those who work on the service and are required to support it), process (any process to do tasks that support the service), and technology (the technology used to deliver the service or the technology provided as the service itself) combine to create a service that benefits a cloud user.

예시:

  • 지원 센터나 팀과 같은 사용자를 기반으로 하는 업무 프로세스가 있는 경우 서비스 제공은 사용자가 하는 일입니다. 사용자는 프로세스와 기술을 사용하여 서비스를 수행합니다.
  • Azure Virtual Machines와 같은 서비스형 기술이 있는 경우 서비스 제공은 운영을 지원하는 사용자 및 프로세스와 함께 기술입니다.

공동 책임 모델

Azure에서 제공하는 많은 제품은 여러 지역에서 재해 복구를 설정하도록 요구하며 이는 Microsoft의 책임이 아닙니다. 모든 Azure 서비스가 자동으로 데이터를 복제하거나 실패한 지역에서 자동으로 대체되어 활성화된 다른 활성화된 지역으로 교차 복제되는 것은 아닙니다. 이러한 경우 복구 및 복제를 구성할 책임이 있습니다.

Microsoft는 기본 인프라 및 플랫폼 서비스를 사용할 수 있는지 확인합니다. 그러나 일부 시나리오에서는 선택한 경우 다중 지역 용량에서 배포 및 스토리지를 복제해야 하는 사용량이 필요합니다. 이러한 예는 공유 책임 모델을 보여 줍니다. 이는 비즈니스 연속성 및 재해 복구 전략의 근본적인 핵심 요소입니다.

책임 분담

모든 온-프레미스 데이터 센터에서 전체 스택을 소유합니다. 자산을 클라우드로 전송하면 일부 책임이 Microsoft로 이전합니다. 다음 다이어그램은 배포 형식에 따라 사용자와 Microsoft 간의 책임 영역 및 구분을 보여 줍니다.

A visual showing what responsibilities belong to the cloud customer versus the cloud provider.

공유 책임 모델의 좋은 예는 가상 머신의 배포입니다. 지역 장애 발생 시 복원을 위해 지역 간 복제를 설정하려면 대체 사용 지역에 중복 가상 머신 집합을 배포해야 합니다. Azure는 오류가 있는 경우 이러한 서비스를 자동으로 복제하지 않습니다. 필요한 자산을 배포하는 것은 사용자의 책임입니다. 주 지역을 수동으로 변경하는 프로세스를 마련하거나 트래픽 관리자를 사용하여 검색하고 자동으로 장애 조치(failover)해야 합니다.

고객 지원 재해 복구 서비스에는 모두 지침을 제공하는 공용 설명서가 있습니다. 고객 지원 재해 복구에 대한 공용 설명서의 예는 Azure Data Lake Analytics를 참조하세요.

공유 책임 모델에 대한 자세한 내용은 Microsoft 보안 센터를 참조하세요.

비즈니스 연속성 규정 준수: 서비스 수준 책임

각 서비스는 Azure 비즈니스 연속성 관리자 도구에서 비즈니스 연속성 재해 복구 레코드를 작성해야 합니다. 서비스 소유자는 이 도구를 사용하여 페더레이션 모델 내에서 작업하여 다음을 포함하는 요구 사항을 완료하고 통합할 수 있습니다.

  • 서비스 속성: 서비스와 재해 복구 및 복원력을 달성하는 방법을 정의하고 재해 복구의 책임 당사자(기술)를 식별합니다. 복구 소유권에 대한 자세한 내용은 이전 섹션 및 다이어그램의 공유 책임 모델에 대한 설명을 참조하세요.

  • 비즈니스 영향 분석: 이 분석은 서비스 소유자가 영향 표 전체에서 서비스의 중요도를 기반으로 RTO(복구 시간 목표) 및 RPO(복구 지점 목표)를 정의하는 데 도움이 됩니다. 운영, 법률, 규제, 브랜드 이미지 및 재정적 영향이 복구의 대상으로 사용됩니다.

    참고 항목

    이 데이터는 내부 측정 전용이므로 Microsoft는 서비스에 대한 RTO 또는 RPO를 게시하지 않습니다. 모든 고객 약속 및 측정값은 치명적인 손실에만 적용되는 RTO 또는 RPO보다 더 넓은 범위를 다루기 때문에 SLA 기반입니다.

  • 종속성: 각 서비스는 중요도에 관계없이 작동하는 데 필요한 종속성(기타 서비스)을 매핑하고 런타임, 복구에만 필요하거나 둘 다에 매핑합니다. 스토리지 종속성이 있는 경우 저장 대상을 정의하는 다른 데이터가 매핑되고 특정 시점 스냅샷이 필요한 경우 등이 있습니다.

  • 인력: 서비스의 정의에서 언급한 바와 같이 서비스를 지원할 수 있는 인력의 위치와 양을 파악하여 단일 장애 지점이 없도록 하고, 중요 직원이 단일 위치에 함께 있어 장애가 발생하지 않도록 분산되어 있는지 확인하는 것이 중요합니다.

  • 외부 공급자: Microsoft는 포괄적인 외부 공급자 목록을 유지하며 중요한 것으로 간주되는 공급자의 역량을 평가합니다. 서비스에서 종속성으로 식별되는 경우 공급자 기능을 서비스 요구 사항과 비교하여 타사 중단으로 인해 Azure 서비스가 중단되지 않도록 합니다.

  • 복구 등급: 이 등급은 Azure 비즈니스 연속성 관리 프로그램에 고유합니다. 이 등급은 복원력 점수를 만들기 위해 몇 가지 핵심 요소를 측정합니다.

    • 장애 조치(failover) 의지: 프로세스가 있을 수 있지만 단기 중단에 대한 첫 번째 선택이 아닐 수 있습니다.
    • 장애 조치(failover) 자동화.
    • 장애 조치(failover) 결정 자동화.

    가장 안정적이고 가장 짧은 장애 조치(failover) 시간은 자동화되고 사용자의 결정이 필요하지 않은 서비스입니다. 자동화된 서비스는 하트비트 모니터링 또는 가상 트랜잭션을 사용하여 서비스가 다운되었는지 확인하고 즉각적인 수정을 시작합니다.

  • 복구 계획 및 테스트: Azure는 모든 서비스가 상세한 복구 계획을 가지고 있고 치명적인 중단으로 인해 서비스가 실패한 것처럼 해당 계획을 테스트할 것을 요구합니다. 유사한 기술과 액세스 권한을 가진 사용자가 작업을 완료할 수 있도록 복구 계획을 작성해야 합니다. 서면 계획은 사용 가능한 실무 전문가에 의존하는 것을 방지합니다.

    테스트는 프로덕션 또는 준프로덕션 환경에서의 자체 테스트 및 카나리아 지역 집합의 Azure 전체 지역 다운 드릴의 일부로 수행되는 등 여러 가지 방법으로 수행됩니다. 이렇게 사용하도록 설정된 지역은 프로덕션 지역과 동일하지만 서비스에 영향을 주지 않고 사용하지 않도록 설정할 수 있습니다. 전체 서비스가 동시에 영향을 받기 때문에 테스트는 통합된 것으로 간주됩니다.

  • 고객 지원: 재해 복구를 설정할 책임이 있는 경우 Azure에는 공용 설명서 지침이 있어야 합니다. 이러한 모든 서비스의 경우 프로세스에 대한 설명서 및 세부 정보에 대한 링크가 제공됩니다.

비즈니스 연속성 규정 준수 확인

서비스가 비즈니스 연속성 관리 레코드를 작성하면 승인을 위해 제출해야 합니다. 이는 전체 레코드의 완전성과 품질을 검토하는 비즈니스 연속성 관리 경험이 풍부한 실무자에게 할당됩니다. 레코드가 모든 요구 사항을 충족하면 승인됩니다. 그렇지 않은 경우 재작업 요청과 함께 거부됩니다. 이 프로세스는 양 당사자가 비즈니스 연속성 규정 준수가 충족되고 작업이 서비스 소유자만 증명된다는 데 동의하도록 합니다. Azure 내부 감사 및 규정 준수 팀은 최상의 데이터가 제출되도록 정기적인 임의 샘플링도 수행합니다.

서비스 테스트

Microsoft와 Azure는 재해 복구 및 가용성 영역 준비에 대한 광범위한 테스트를 수행합니다. 서비스는 주요 플랫폼 장애 조치(failover)에 의존하지 않는 서비스에 대한 독립적인 복구 가능성을 입증하기 위해 프로덕션 또는 사전 프로덕션 환경에서 자체 테스트됩니다.

실제 지역 다운 시나리오에서 서비스가 유사하게 복구될 수 있도록 하기 위해 프로덕션과 일치하는 완전히 배포된 지역인 카나리아 환경에서 "pull-the-plug" 형식 테스트가 수행됩니다. 예를 들어, 클러스터, 랙 및 전원 장치는 전체 지역 장애를 시뮬레이션하기 위해 문자 그대로 꺼집니다.

이러한 테스트 중에 Azure는 검색, 알림, 응답 및 복구에 동일한 프로덕션 프로세스를 사용합니다. 어떤 개인도 드릴을 기대하지 않으며 복구를 위해 의존하는 엔지니어는 일반적인 대기 회전 리소스입니다. 이 타이밍은 실제 이벤트 중에 사용할 수 없는 실무 전문가에 의존하는 것을 방지합니다.

이러한 테스트에는 Microsoft 공용 설명서에 따라 재해 복구를 설정할 책임이 있는 서비스가 포함됩니다. 서비스 팀은 고객이 지원하는 재해 복구가 예상대로 작동하고 제공된 지침이 정확함을 보여 주기 위해 고객과 유사한 인스턴스를 만듭니다.

인증에 대한 자세한 내용은 Microsoft 보안 센터 및 규정 준수 섹션을 참조하세요.

다음 단계