Virtual Machines의 안정성
이 문서에는 가용성 영역 및 지역 간 재해 복구 및 비즈니스 연속성을 사용하는 VM 지역 복원력에 대한 자세한 정보가 포함되어 있습니다.
가용성 영역 지원
Azure 가용성 영역은 각 Azure 지역 내에서 물리적으로 분리된 세 개 이상의 데이터 센터 그룹입니다. 각 영역 내의 데이터 센터에는 독립적인 전원, 냉각, 네트워킹 인프라가 장착되어 있습니다. 가용성 영역은 로컬 영역이 실패한 경우에 한 영역이 영향을 받는 경우 나머지 두 영역에서 지역 서비스, 용량 및 고가용성을 지원하도록 설계되었습니다.
오류는 소프트웨어 및 하드웨어 오류에서 지진, 홍수 및 화재와 같은 이벤트에 이르기까지 다양합니다. Azure 서비스의 중복성과 논리적 격리로 인해 오류 허용성에 도달합니다. Azure의 가용성 영역에 대한 자세한 내용은 지역 및 가용성 영역을 참조하세요.
Azure 가용성 영역 지원 서비스는 적절한 수준의 복원력과 유연성을 제공하도록 설계되었습니다. 두 가지 방법으로 구성할 수 있습니다. 영역 간 자동 복제를 사용하는 영역 중복 또는 특정 영역에 고정된 인스턴스를 사용하는 영역일 수 있습니다. 이러한 방식을 결합할 수도 있습니다. 영역 및 영역 중복 아키텍처에 대한 자세한 내용은 가용성 영역 및 지역 사용에 대한 권장 사항을 참조하세요.
가상 머신은 지원되는 Azure 지역당 세 개의 가용성 영역이 있는 가용성 영역을 지원하며, 이는 영역 중복 및 영역이기도 합니다. 자세한 내용은 가용성 영역 지원을 참조하세요. 고객은 가용성을 위해 가상 머신을 구성하고 마이그레이션할 책임이 있습니다.
가용성 영역 준비 옵션에 대한 자세한 내용은 다음을 참조하세요.
- VM에 대한 가용성 옵션을 참조하세요.
- 가용성 영역 서비스 및 지역 지원 검토
- 가용성 영역으로 기존 Azure VM 마이그레이션
필수 조건
가상 머신 SKU는 해당 지역의 영역에서 사용할 수 있어야 합니다. 가용성 영역을 지원하는 지역을 검토하려면 지원되는 지역 목록을 참조하세요.
VM SKU는 해당 지역의 영역에서 사용할 수 있어야 합니다. VM SKU 가용성을 확인하려면 다음 방법 중 하나를 사용합니다.
- PowerShell을 사용하여 VM SKU 가용성을 확인합니다.
- Azure CLI를 사용하여 VM SKU 가용성을 확인합니다.
- 기본 서비스로 이동합니다.
SLA 개선 사항
가용성 영역은 물리적으로 분리되어 있고 고유한 전원, 네트워크 및 냉각을 제공하기 때문에 SLA(서비스 수준 계약)가 증가합니다. 자세한 내용은 Virtual Machines에 대한 SLA를 참조하세요.
가용성 영역을 사용하도록 설정된 리소스 만들기
다음 배포 옵션에서 가용성 영역이 사용하도록 설정된 VM(가상 머신)을 만들어 시작합니다.
영역 장애 조치 지원
Site Recovery 서비스를 사용하여 다른 영역으로 장애 조치(failover)되도록 가상 머신을 설정할 수 있습니다. 자세한 내용은 Site Recovery를 참조하세요.
내결함성
가상 머신은 클러스터의 다른 서버로 장애 조치할 수 있으며, 새 서버에서 VM의 운영 체제가 다시 시작됩니다. 재해 복구를 위한 장애 조치(failover) 프로세스, 복구 계획에서 가상 머신 수집 및 재해 복구 훈련을 실행하여 내결함성 솔루션이 성공하도록 해야 합니다.
자세한 내용은 사이트 복구 프로세스를 참조하세요.
영역 다운 환경
영역 전체가 중단되는 동안 가상 머신 서비스의 자체 복구가 기본 용량의 균형을 유지하여 정상 영역으로 조정될 때까지 잠시 성능이 저하될 수 있음을 예상해야 합니다. 자동 복구는 영역 복원에 의존하지 않습니다. Microsoft 관리형 서비스 자동 복구 상태는 다른 영역의 용량을 사용하여 손실된 영역을 보완합니다.
또한 전체 지역의 가동 중단 가능성에 대비해야 합니다. 전체 지역에 서비스 중단이 발생하는 경우 데이터의 로컬 중복 복사본을 일시적으로 사용할 수 없게 됩니다. 지역 복제를 사용하는 경우 Azure Storage Blob 및 테이블의 다른 사본 3개는 다른 지역에 저장됩니다. 전체 지역 가동 중단 또는 주 지역을 복구할 수 없는 재해가 발생하는 경우 Azure는 지역 복제 영역에 모든 DNS 항목을 다시 매핑합니다.
영역 중단 준비 및 복구
Azure 가상 머신 애플리케이션이 배포된 전체 지역의 서비스가 중단되는 동안 Azure 가상 머신에 대해 다음 지침이 제공됩니다.
- VM용 Azure Site Recovery 사용 및 구성.
- Azure Site Recovery가 구성되지 않은 경우 Azure Service Health 대시보드 상태 확인
- VM에 대해 Azure Backup 서비스가 작동하는 방식 검토
- Azure VM 백업의 지원 매트릭스 참조
- 환경에 가장 적합한 VM 복원 옵션 및 시나리오 결정
짧은 대기 시간 디자인
지역 간(보조 지역), 구독 간(미리 보기) 및 영역 간(미리 보기)은 대기 시간이 짧은 가상 머신 솔루션을 설계할 때 고려할 수 있는 옵션입니다. 이러한 옵션에 대한 자세한 내용은 지원되는 복원 방법을 참조하세요.
Important
영역 인식 배포를 옵트아웃하여 기본 오류의 격리로부터 보호를 포기합니다. 가용성 영역을 지원하지 않거나 가용성 영역 구성에서 옵트아웃하는 SKU를 사용하면 영역 배치 및 분리를 준수하지 않는 리소스(이러한 리소스의 기본 종속성 포함)에 의존하게 됩니다. 이러한 리소스는 영역 다운 시나리오에서 살아남을 것으로 예상되지 않아야 합니다. 이러한 리소스를 활용하는 솔루션은 재해 복구 전략을 정의하고 다른 지역에서 솔루션의 복구를 구성해야 합니다.
안전한 배포 기술
가용성 영역 격리를 선택하는 경우 애플리케이션 코드와 애플리케이션 업그레이드에 안전한 배포 기술을 활용해야 합니다. Azure Site Recovery 구성 외에도 VM에 대해 다음과 같은 안전한 배포 기술 중 하나를 구현합니다.
Microsoft는 계획된 유지 관리 업데이트를 주기적으로 수행하므로 기본 인프라에 필요한 업데이트를 적용하기 위해 가상 머신을 다시 부팅해야 하는 경우는 드물 수 있습니다. 더 자세히 알아보려면 예약된 유지 관리 중 가용성 고려 사항을 참조하세요.
다른 영역에서 다음 노드 집합을 업그레이드하기 전에 다음 작업을 수행해야 합니다.
- 예상 지역의 가상 머신 서비스 상태에 대한 Azure Service Health 대시보드 확인
- VM에서 복제가 사용하도록 설정되어 있는지 확인
가용성 영역 지원으로 마이그레이션
VM을 가용성 영역 지원으로 마이그레이션하는 방법을 알아보려면 Virtual Machines 및 Virtual Machine Scale Sets를 가용성 영역 지원으로 마이그레이션을 참조하세요.
- VM을 다른 구독 또는 리소스 그룹으로 이동
- Azure Resource Mover
- 가용성 영역으로 Azure VM 이동
- 지역 유지 관리 구성 리소스 이동
지역 간 재해 복구 및 비즈니스 연속성
DR(재해 복구)은 가동 중지 시간 및 데이터 손실을 초래하는 자연 재해 또는 실패한 배포와 같은 영향이 큰 이벤트로부터 복구하는 것입니다. 원인에 관계없이 최상의 재해 해결책은 잘 정의되고 테스트된 DR 계획과 DR을 적극적으로 지원하는 애플리케이션 디자인입니다. 재해 복구 계획을 만들기 전에 재해 복구 전략을 디자인하기 위한 권장 사항을 참조하세요.
DR과 관련하여 Microsoft는 공유 책임 모델을 사용합니다. 공유 책임 모델에서 Microsoft는 기준 인프라 및 플랫폼 서비스를 사용할 수 있도록 보장합니다. 동시에 많은 Azure 서비스는 데이터를 자동으로 복제하거나 실패한 지역에서 대체하여 사용하도록 설정된 다른 지역으로 교차 복제하지 않습니다. 이러한 서비스의 경우 자신의 워크로드에 적합한 재해 복구 계획을 설정할 책임이 있습니다. Azure PaaS(Platform as a Service) 제품에서 실행되는 대부분의 서비스는 DR을 지원하는 기능과 지침을 제공하며, 서비스별 기능을 사용하여 빠른 복구를 지원하여 DR 계획을 개발하는 데 도움이 될 수 있습니다.
지역 간 복원을 사용하여 쌍을 이루는 지역을 통해 Azure VM을 복원할 수 있습니다. 지역 간 복원을 사용하면 백업이 보조 지역에서 수행되는 경우 선택한 복구 지점에 대한 모든 Azure VM을 복원할 수 있습니다. 지역 간 복원에 대한 자세한 내용은 복원 옵션에서 지역 간 테이블 행 항목을 참조하세요.
다중 지역 지리의 재해 복구
지역 전체의 서비스 중단이 발생하는 경우 Microsoft는 가상 머신 서비스를 복원하기 위해 성실히 작업합니다. 그러나 가장 높은 수준의 가용성을 달성하려면 다른 애플리케이션별 백업 전략에 의존해야 합니다. 자세한 내용은 재해 복구를 위한 데이터 전략의 섹션을 참조하세요.
중단 검색, 알림 및 관리
가상 머신의 하드웨어 또는 물리적 인프라가 예기치 않게 실패할 수 있습니다. 예기치 않은 오류에는 로컬 네트워크 오류, 로컬 디스크 오류 또는 기타 랙 수준 오류가 포함될 수 있습니다. 이러한 오류가 감지되면 Azure 플랫폼에서 가상 머신을 동일한 데이터 센터의 정상적인 물리적 컴퓨터로 자동으로 마이그레이션(복구)합니다. 복구 과정 중에 가상 머신에서 가동 중지(재부팅)가 발생하고 경우에 따라 임시 드라이브가 손실됩니다. 연결된 OS 및 데이터 디스크는 항상 유지됩니다.
가상 머신 서비스 중단에 대한 자세한 내용은 재해 복구 지침을 참조하세요.
재해 복구 및 중단 검색 설정
가상 머신에 대한 재해 복구를 설정할 때 Azure Site Recovery에서 제공하는 내용을 이해합니다. 아래 방법을 사용하여 가상 머신에 대한 재해 복구를 사용하도록 설정합니다.
- 보조 Azure 지역에 Azure VM의 재해 복구 설정
- Recovery Services 자격 증명 모음 만들기
- Linux 가상 머신에 대한 재해 복구 설정
- Windows 가상 머신에 대한 재해 복구 설정
- 다른 지역으로 가상 머신 장애 조치
- 주 지역으로 가상 머신 장애 조치
단일 지역 지리의 재해 복구
재해 복구를 설정하면 Azure VM이 다른 대상 지역에 지속적으로 복제됩니다. 중단이 발생하는 경우 VM을 보조 지역으로 장애 조치하고, 해당 지역에서 액세스할 수 있습니다.
Site Recovery를 사용하여 Azure VM을 복제할 때 모든 VM 디스크가 지속적으로 대상 지역에 비동기적으로 복제됩니다. 복구 지점은 몇 분마다 만들어지므로 몇 분 단위로 RPO(복구 지점 목표)가 부여됩니다. 프로덕션 애플리케이션 또는 진행 중인 복제에 영향을 주지 않고 재해 복구 훈련을 원하는 만큼 수행할 수 있습니다. 자세한 내용은 Azure로 재해 복구 훈련 실행을 참조하세요.
자세한 내용은 Azure VM 아키텍처 구성 요소 및 지역 페어링을 참조하세요.
용량과 사전 예방적 재해 복구 복원력
Microsoft와 해당 고객은 공동 책임 모델에 따라 운영됩니다. 공동 책임은 고객 지원 DR(고객 책임 서비스)의 경우 배포 및 제어하는 모든 서비스에 대한 DR을 처리해야 한다는 의미입니다. 복구가 사전 예방적으로 수행되도록 하려면, 사전 할당되지 않은 사용자에게 영향을 미치는 시점에 용량이 보장되지 않으므로 항상 보조 기능을 미리 배포해야 합니다.
가상 머신을 배포하기 위해 Virtual Machine Scale Sets에서 유연한 오케스트레이션 모드를 사용할 수 있습니다. 유연한 오케스트레이션 모드는 모든 VM 크기에 사용할 수 있습니다. 유연한 오케스트레이션 모드는 또한 지역 내 또는 가용성 영역 내의 장애 도메인에 VM을 분산하여 고가용성 보장(최대 1000개 VM)을 제공합니다.