클라우드 관리에서 보호 및 복구

아티클
07/11/2023

잠재적인 워크로드 중단을 준비하기 전에 클라우드 관리 팀은 먼저 다음 요구 사항을 충족하는지 확인해야 합니다.

계획대로 팀은 재해가 발생할 때 오류가 발생할 것이라는 가정으로 시작해야 합니다. 중단에 대한 준비를 통해 팀은 오류를 더 빨리 감지하고 더 빨리 복구할 수 있습니다. 이 분야의 초점은 시스템 장애가 발생한 직후에 수행되는 단계에 있습니다. 중단이 발생할 때 워크로드를 신속하게 복구할 수 있도록 워크로드를 보호하려면 어떻게 해야 할까요?

어떤 기술 솔루션도 100% 가동 시간을 보장하는 SLA를 일관되게 제공할 수 없습니다. 중복 아키텍처가 가장 많은 솔루션은 "여섯 자리의 9" 또는 99.9999%의 작동 시간을 제공한다고 주장합니다. 그러나 "여섯 자리의 9" 솔루션조차도 주어진 연도에 31.6초 동안 중단됩니다. 솔루션이 가동 시간의 "6 9s"에 도달하는 데 필요한 크고 지속적인 운영 투자를 보증하는 것은 드뭅니다.

보호 및 복구 대화 번역

비즈니스 운영에 전력을 공급하는 워크로드는 다음으로 구성됩니다.

애플리케이션
데이터
VM(가상 머신)
기타 자산

각 자산에는 보호 및 복구에 대한 고유한 접근 방식이 필요할 수 있습니다. 이 분야의 중요한 목표는 비즈니스 논의의 시작점을 제공할 수 있는 관리 기준 내에서 일관된 약정을 수립하는 것입니다.

최소한 클라우드 관리 팀은 빠른 복구와 최소한의 데이터 손실에 대한 명확한 약속으로 각 자산에 대한 기준 접근 방식을 만들어야 합니다.

RTO(복구 시간 목표)

복구 시간 목표는 재해가 발생하기 전에 시스템을 해당 상태로 복구하는 데 걸리는 시간입니다. 여기에는 다음이 필요한 시간이 포함됩니다.

VM 및 애플리케이션에 최소한의 기능 복원
애플리케이션에 필요한 데이터를 복원합니다.

비즈니스 측면에서 RTO는 비즈니스 프로세스가 서비스 중단된 시간을 나타냅니다. 중요 업무용 워크로드의 경우 이 변수는 상대적으로 낮아야 비즈니스 프로세스를 신속하게 다시 시작할 수 있습니다. 우선 순위가 낮은 워크로드의 경우 표준 수준의 RTO는 회사 성과에 눈에 띄는 영향을 미치지 않을 수 있습니다.

비즈니스는 중요하지 않은 워크로드에 대한 표준 RTO를 설정하는 관리 기준을 만들어야 합니다. 그러면 기업은 복구 시간에 대한 추가 투자를 정당화하는 방법으로 해당 기준을 사용할 수 있습니다.

RPO(복구 지점 목표)

대부분의 클라우드 관리 시스템에서는 어떤 형태의 데이터 보호가 주기적으로 데이터를 캡처하고 저장합니다. 복구 지점은 데이터가 마지막으로 캡처된 시간을 나타냅니다. 시스템에 장애가 발생하면 가장 최근의 복구 지점으로만 복구할 수 있습니다.

복구 지점 목표는 가장 최근의 복구 지점에서 중단까지 측정됩니다. RPO가 시간 단위로 측정되면 시스템 오류로 인해 마지막 복구 지점과 중단 사이의 시간 동안 데이터가 손실됩니다. RPO가 일 단위로 측정되면 시스템 오류로 인해 마지막 복구 지점과 중단 사이의 일 동안 데이터가 손실됩니다. 1일 RPO는 이론적으로 장애로 이어지는 당일 모든 트랜잭션의 손실을 초래합니다.

중요 업무용 시스템의 경우 몇 분 또는 몇 초 만에 RPO를 측정하면 수익 또는 수익 손실을 방지하는 데 도움이 될 수 있습니다. 그러나 RPO가 짧을수록 일반적으로 관리 비용이 증가합니다. 이러한 비용을 최소화하기 위해 기업은 허용되는 가장 긴 RPO에 중점을 둔 관리 기준을 만들어야 합니다. 그러면 비즈니스는 더 많은 투자를 보장하는 특정 플랫폼 또는 워크로드의 RPO를 줄일 수 있습니다.

워크로드 보호 및 복구

IT 환경의 대부분의 워크로드는 특정 비즈니스 또는 기술 프로세스를 지원합니다. 비즈니스 운영에 체계적인 영향을 미치지 않는 시스템은 일반적으로 시스템을 신속하게 복구하거나 데이터 손실을 최소화하는 데 필요한 투자 증가를 보증하지 않습니다. 기준을 설정하면 비즈니스는 일관되게 관리할 수 있는 가격대에서 필요한 복구 지원 수준을 파악할 수 있습니다. 이를 이해하면 비즈니스 이해 관계자가 복구에 대한 투자 증가의 가치를 평가하는 데 도움이 됩니다.

다양한 자산에 대한 특정 RPO/RTO 약정을 포함하는 향상된 기준인 대부분의 클라우드 관리 팀의 경우 상호 비즈니스 약정에 가장 유리한 경로를 제공합니다. 다음 섹션에서는 비즈니스가 반복 가능한 프로세스를 통해 보호 및 복구 기능을 쉽게 추가할 수 있도록 하는 몇 가지 일반적인 향상된 기준을 간략하게 설명합니다.

데이터 보호 및 복구

데이터는 디지털 경제에서 가장 가치 있는 자산이라고 할 수 있습니다. 프로덕션 워크로드를 구동하는 데이터의 손실로 인해 수익 또는 수익이 손실됩니다. 가장 일반적인 향상된 기준은 데이터를 효과적으로 보호하고 복구하는 기능입니다. 클라우드 관리 팀은 공통 데이터 플랫폼을 지원하는 향상된 관리 기준을 제공하는 것이 좋습니다.

클라우드 관리 팀은 플랫폼 작업을 구현하기 전에 PaaS(Platform as a Service) 데이터 플랫폼에 대해 향상된 작업을 지원하는 것이 일반적입니다. instance 경우 클라우드 관리 팀이 Azure SQL Database 또는 Azure Cosmos DB 솔루션에 대해 더 높은 빈도의 백업 또는 다단계 복제를 쉽게 적용할 수 있습니다. 이렇게 하면 개발 팀이 데이터 플랫폼을 현대화하여 RPO를 쉽게 개선할 수 있습니다.

이 사고 프로세스에 대한 자세한 내용은 플랫폼 운영 분야를 참조하세요.

VM 보호 및 복구

대부분의 워크로드는 솔루션의 다양한 측면을 호스팅하는 가상 머신에 다소 의존합니다. 비즈니스는 시스템 오류 후 워크로드가 프로세스를 지원하도록 일부 가상 머신을 신속하게 복구해야 합니다.

이러한 가상 머신의 가동 중지 시간 1분마다 수익 손실 또는 수익 감소가 발생할 수 있습니다. VM 가동 중지 시간이 기업의 회계 실적에 직접적인 영향을 미치는 경우 RTO가 매우 중요합니다. 클라우드 관리 팀은 가상 머신을 보조 사이트에 복제하고 핫 웜 복구 모델이라고 하는 모델인 자동화된 복구를 사용하여 가상 머신을 신속하게 복구할 수 있습니다. 또한 팀은 핫 핫 또는 고가용성 모델이라고 하는 접근 방식에서 기능적인 보조 사이트에 가상 머신을 복제할 수 있습니다. 핫 핫 접근 방식은 비용이 더 많이 들지만 가장 높은 복구 상태를 제공합니다.

이러한 각 모델은 RTO를 줄여 기업이 비즈니스 기능을 더 빠르게 복원하는 데 도움이 됩니다. 그러나 각 모델은 클라우드 관리 비용을 크게 증가시킵니다.

또한 고가용성을 위한 복제 외에도 다음과 같은 시나리오에서 백업을 사용하도록 설정해야 합니다.

실수로 삭제
데이터 손상(data corruption)
랜섬웨어 공격

이 사고 프로세스에 대한 자세한 내용은 워크로드 작업 분야를 참조하세요.

다음 단계

이 관리 기준 구성 요소가 충족되면 팀은 플랫폼 운영 및 워크로드 작업의 중단을 방지하기 위해 미리 살펴볼 수 있습니다.

플랫폼 운영 워크로드 작업