Azure VMware Solution 은 전용 운영 체제 미설치 Azure 인프라에서 빌드된 VMware vSphere 클러스터를 포함하는 프라이빗 클라우드를 제공합니다. 온-프레미스 환경에서 워크로드를 마이그레이션하고, 새 VM(가상 머신)을 배포하고, 프라이빗 클라우드에서 Azure 서비스를 사용할 수 있습니다. VMware와 Azure 네이티브 기능의 조합을 사용하여 워크로드의 고가용성 및 복원력을 사용하도록 설정할 수 있습니다.
Azure를 사용하는 경우 안정성은 공유 책임입니다. Microsoft는 복원력 및 복구를 지원하는 다양한 기능을 제공합니다. 이러한 기능이 사용하는 모든 서비스 내에서 작동하는 방식을 이해하고 비즈니스 목표 및 가동 시간 목표를 충족하는 데 필요한 기능을 선택할 책임이 있습니다.
이 문서에서는 일시적인 오류, 가용성 영역 중단 및 지역 중단을 비롯한 잠재적인 중단 및 문제에 대해 Azure VMware Solution을 복원할 수 있도록 하는 방법을 설명합니다. 또한 백업을 사용하여 다른 유형의 문제에서 복구하는 방법을 설명하고 Azure VMware Solution SLA(서비스 수준 계약)에 대한 몇 가지 주요 정보를 강조 표시합니다.
프로덕션 배포 권장 사항
Azure VMware Solution 배포에는 다양한 영역에서 신중한 계획이 필요하며 종종 여러 Azure 서비스가 필요합니다. 자세한 지침은 Well-Architected Framework의 Azure VMware Solution 워크로드 를 참조하세요.
안정성 아키텍처 개요
Azure VMware Solution은 VMware vSphere 클러스터와 함께 하이퍼 컨버지드 인프라를 사용합니다.
Azure VMware Solution을 배포할 때 하나 이상의 클러스터가 있는 프라이빗 클라우드를 배포합니다. 각 클러스터에는 컴퓨팅, vSAN을 통한 스토리지 및 VMware NSX를 통한 네트워킹을 제공하는 ESXi 호스트가 포함되어 있습니다. 두 세대의 Azure VMware Solution이 있습니다.
- Gen 1은 노드에 특수한 운영 체제 미설치 하드웨어를 사용하고 전용 네트워킹 방법을 사용합니다. 주요 개념에 대한 자세한 내용은 Azure VMware Solution 프라이빗 클라우드 및 클러스터 개념을 참조하세요.
- Gen 2 는 표준 Azure 가상 머신 유형 및 Azure 가상 네트워크를 사용합니다. 이 아키텍처는 네트워킹 아키텍처를 간소화하고, 데이터 전송 속도를 향상시키고, 워크로드 대기 시간을 줄이며, 다른 Azure 서비스에 액세스할 때 성능을 향상시킵니다.
내결함성
Azure VMware Solution은 인프라 및 애플리케이션 수준에서 오류를 처리하는 몇 가지 메커니즘을 제공합니다.
vSphere HA(고가용성): vSphere HA는 ESXi 호스트 및 VM을 모니터링합니다. 호스트가 실패하면 정상 호스트에서 영향을 받는 VM이 자동으로 다시 시작됩니다. vSphere HA는 기본적으로 사용하도록 설정되며 단일 노드 오류에 대한 컴퓨팅 및 메모리 용량을 예약합니다.
vSAN 내결함성: vSAN 스토리지 정책은 호스트 간에 여러 데이터 복사본을 유지 관리하여 스토리지 수준 일시적인 오류로부터 보호합니다. 스토리지 경로 또는 디스크에 일시적인 문제가 발생하는 경우 vSAN은 정상 스토리지 경로에 대한 장애 조치(failover)를 자동으로 처리합니다.
네트워크 중복성: Azure VMware Solution은 네트워크 수준 일시적인 오류를 처리하기 위해 중복 네트워크 경로 및 여러 VMkernel 네트워크 어댑터를 제공합니다.
일시적인 오류에 대한 복원력
일시적인 오류는 구성 요소에서 짧고 간헐적인 오류입니다. 클라우드와 같은 분산 환경에서 자주 발생하며 작업의 일반적인 부분입니다. 일시적인 오류는 짧은 시간 후에 스스로 수정됩니다. 애플리케이션은 일반적으로 영향을 받는 요청을 다시 시도하여 일시적인 오류를 처리할 수 있는 것이 중요합니다.
모든 클라우드 호스팅 애플리케이션은 클라우드 호스팅 API, 데이터베이스 및 기타 구성 요소와 통신할 때 Azure 임시 오류 처리 지침을 따라야 합니다. 자세한 내용은 임시 오류 처리를 위한 권장 사항을 참조하세요.
Azure VMware Solution VM에서 실행되는 애플리케이션의 경우 표준 일시적인 오류 처리 방법을 구현합니다.
- 지수 백오프를 사용하여 적절한 재시도 정책 구성
- 외부 서비스 호출에 회로 차단기 패턴 사용
- 애플리케이션 상태를 모니터링하고 점진적 성능 저하를 구현하다
- VM 다시 시작의 영향을 줄이기 위해 가능한 경우 상태 비저장 애플리케이션을 설계하세요.
가용성 영역 오류에 대한 복원력
가용성 영역은 Azure 지역 내에서 물리적으로 별도의 데이터 센터 그룹입니다. 한 영역이 실패하면 서비스가 나머지 영역 중 하나로 전환될 수 있습니다.
Azure VMware Solution Gen 1은 지역 내의 두 가용성 영역에 ESXi 호스트를 분산하는 확장된 클러스터를 통해 가용성 영역을 지원합니다. Microsoft는 사용할 영역을 선택합니다. 클러스터는 두 영역에서 활성-활성 구성으로 실행되며 vSAN은 여러 영역에 걸쳐 있습니다. 각 워크로드가 하나 또는 두 개의 영역에 배포되는지 여부를 지정할 수 있습니다.
감시 노드는 분할 브레인 시나리오에 대한 쿼럼을 제공하기 위해 자동으로 세 번째 가용성 영역에 배포됩니다. Microsoft는 감시 노드를 자동으로 관리합니다.
표준 클러스터는 영역 간에 확장되지 않는 클러스터입니다. 표준 클러스터에서 클러스터와 모든 ESXi 호스트는 영역이 아닌 지역 또는 지역 호스트로 간주됩니다. 영역이 아닌 클러스터는 지역 내의 가용성 영역에 배치될 수 있으며 Microsoft는 해당 영역을 선택합니다. 지역의 가용성 영역에 중단이 발생하는 경우 비존 클러스터 및 호스트가 영향을 받는 영역에 있을 수 있으며 가동 중지 시간이 발생할 수 있습니다.
Azure VMware Solution Gen 2는 프라이빗 클라우드의 영역 배포를 지원합니다. 영역 프라이빗 클라우드를 구성하면 각 클러스터와 모든 ESXi 호스트가 선택한 단일 가용성 영역에 배포됩니다.
영역 프라이빗 클라우드는 가용성 영역 오류로부터 보호하지 않습니다. 복원력을 높이기 위해 여러 프라이빗 클라우드를 별도의 가용성 영역에 배포할 수 있지만 각 프라이빗 클라우드를 독립적으로 배포하고 구성해야 합니다.
가용성 영역을 선택하지 않는 경우 프라이빗 클라우드, 해당 클러스터 및 모든 ESXi 호스트는 비 영역 또는 지역 호스트로 간주됩니다. 영역이 아닌 클러스터는 지역 내의 가용성 영역에 배치될 수 있으며 Microsoft는 해당 영역을 선택합니다. 지역의 가용성 영역에서 중단이 발생하는 경우 비존 클러스터는 영향을 받는 영역에 있을 수 있으며 가동 중지 시간이 발생할 수 있습니다.
다른 세대의 가용성 영역 지원에 대한 정보를 보려면 이 페이지의 시작 부분에서 적절한 세대를 선택합니다.
요구 사항
지역 지원: 확장된 클러스터는 확장된 클러스터 구성을 지원하는 일부 Azure 지역에서 사용할 수 있습니다. 현재 지역 지원에 대한 형식 매핑 테이블을 호스트하려면 Azure 지역 가용성 영역을 확인합니다.
최소 호스트: 두 가용성 영역(영역당 3개의 호스트)에 최소 6개의 호스트를 배포하여 확장된 클러스터 구성을 사용하도록 설정합니다. 규모 확장하거나 축소할 때 각 영역의 호스트 수를 같게 유지하도록 쌍으로 크기를 조정해야 합니다.
호스트 SKU: 확장된 클러스터는 AV36, AV36P 및 AV52 호스트 유형에서 지원됩니다. AV64 SKU는 확장된 클러스터에서 지원되지 않습니다.
지역 지원:Azure VMware Solution Gen 2를 지원하고가용성 영역을 지원하는 지역에 영역 프라이빗 클라우드를 배포할 수 있습니다.
고려 사항
지역의 각 가용성 영역은 특정 호스트 유형을 지원할 수 있습니다. 각 영역에서 사용할 수 있는 호스트 유형의 자세한 목록은 호스트 형식 매핑 테이블에 대한 Azure 지역 가용성 영역을 참조하세요.
비용
클러스터의 가용성 영역 구성에 관계없이 클러스터의 각 노드에 대한 비용이 발생합니다. 자세한 가격 책정 정보는 Azure VMware Solution 가격 책정을 참조하세요.
가용성 영역 지원 구성
새 클러스터 배포: 지원되는 지역에 새 Azure VMware Solution 프라이빗 클라우드를 만들 때 배포하는 동안 확장 클러스터로 구성할 수 있습니다. 이 구성은 두 가용성 영역에 호스트를 자동으로 분산합니다. 자세한 내용은 vSAN 확장 클러스터 배포를 참조하세요.
기존 클러스터: 표준 클러스터를 확장 클러스터로 변환하거나 확장된 클러스터를 표준 클러스터로 변환할 수 없습니다. 대신 새 클러스터를 배포하고 워크로드를 마이그레이션해야 합니다.
새 클러스터 배포: 지원되는 지역에 새 Azure VMware Solution 프라이빗 클라우드를 만들 때 해당 가용성 영역을 선택할 수 있습니다.
기존 클러스터: 기존 클러스터의 가용성 영역 구성은 변경할 수 없습니다. 대신 새 클러스터를 배포하고 워크로드를 마이그레이션해야 합니다.
모든 영역이 정상인 경우의 동작
이 섹션에서는 클러스터가 확장되고 모든 가용성 영역이 작동할 때 예상되는 사항에 대해 설명합니다.
지역 간 작업: VM은 가용성 영역의 호스트에서 실행할 수 있습니다. vSphere DRS 선호도 및 선호도 방지 규칙을 사용하여 VM 배치를 제어하여 성능 또는 가용성 요구 사항을 최적화할 수 있습니다.
지역 간 데이터 복제: vSAN은 가용성 영역에서 데이터를 동기적으로 복제합니다. 각 쓰기 작업은 완료 전에 두 영역에서 확인되어 일관된 데이터 무결성을 보장합니다.
이 섹션에서는 클러스터가 영역 프라이빗 클라우드에 배포되고 모든 가용성 영역이 작동할 때 예상되는 사항에 대해 설명합니다.
지역 간 작업: VM은 클러스터의 가용성 영역 내의 호스트에서 실행됩니다.
지역 간 데이터 복제: 다른 영역에 데이터가 복제되지 않습니다.
영역 오류 중 동작
이 섹션에서는 클러스터가 확장되고 가용성 영역 중단이 발생할 때 예상되는 사항에 대해 설명합니다.
- 검색 및 응답: Azure VMware Solution은 영역 오류에 대한 인프라 수준 응답을 관리합니다. vSphere HA는 영역 오류를 자동으로 검색하고 필요한 경우 VM 다시 시작 절차를 시작합니다.
- 알림: 영역이 다운된 경우 Microsoft는 자동으로 알리지 않습니다. 그러나 Azure Resource Health 를 사용하여 개별 리소스의 상태를 모니터링하고 Resource Health 경고를 설정하여 문제를 알릴 수 있습니다. 또한 Azure Service Health를 사용하여 영역 오류를 포함하여 서비스의 전반적인 상태를 파악할 수 있으며, 문제를 알리도록 Service Health 경고를 설정할 수 있습니다.
활성 요청: 실패한 가용성 영역에서 실행되는 모든 VM은 유지되는 가용성 영역의 호스트에서 다시 시작됩니다. 영향을 받는 VM에 대한 활성 요청 및 연결이 종료되고 클라이언트는 다시 시도해야 합니다.
예상 가동 중지 시간: 정상 영역에서 실패한 VM을 다시 시작하는 시간은 일반적으로 VM 구성 및 시작 절차에 따라 몇 분입니다. 확장된 클러스터는 용량 감소로 계속 작동합니다.
실패한 가용성 영역에 감시 노드가 포함되어 있으면 감시 노드에 연결할 수 없게 됩니다. 충분한 데이터 복제본을 사용할 수 있는 한 데이터 호스트 및 실행 중인 워크로드는 즉각적인 데이터 손실 없이 계속 작동합니다. 그러나 vSAN은 이 상태에서 쿼럼 인식을 잃게 되므로 배치 및 복구 결정을 안전하게 내릴 수 없으며 오류, 리밸런싱 및 복구 후 VM 전원 켜기와 같은 특정 작업이 차단됩니다.
예상 데이터 손실: vSAN은 영역 간에 동기 복제를 사용하므로 영역 실패 시 데이터 손실이 발생하지 않습니다.
재배포: vSphere DRS는 VM 워크로드를 생존 가용성 영역에 자동으로 재배포합니다. VMware NSX를 통한 네트워크 트래픽 라우팅은 새 VM 배치에 자동으로 적용됩니다.
이 섹션에서는 클러스터가 영역 프라이빗 클라우드에 배포되고 가용성 영역 중단이 발생할 때 예상되는 사항에 대해 설명합니다.
- 검색 및 응답: 가용성 영역의 손실을 감지해야 합니다. 필요한 경우 다른 가용성 영역에서 미리 생성한 보조 클러스터로 장애 조치(failover)를 시작할 수 있습니다.
- 알림: 영역이 다운된 경우 Microsoft는 자동으로 알리지 않습니다. 그러나 Azure Resource Health 를 사용하여 개별 리소스의 상태를 모니터링하고 Resource Health 경고를 설정하여 문제를 알릴 수 있습니다. 또한 Azure Service Health를 사용하여 영역 오류를 포함하여 서비스의 전반적인 상태를 파악할 수 있으며, 문제를 알리도록 Service Health 경고를 설정할 수 있습니다.
활성 요청: 영향을 받는 VM에 대한 활성 요청 및 연결이 종료되고 클라이언트는 다시 시도해야 합니다.
예상 가동 중지 시간: 영역을 사용할 수 없는 경우 가용성 영역이 복구될 때까지 클러스터 및 해당 워크로드를 사용할 수 없습니다.
예상 데이터 손실: 영역이 복구될 때까지 영향을 받는 영역의 데이터를 사용할 수 없습니다.
재배포: 필요한 경우 정상 영역의 다른 클러스터로 트래픽을 전환해야 합니다.
영역 복구
가용성 영역이 복구되면 vSphere DRS는 필요에 따라 DRS 구성 및 선호도 규칙에 따라 VM을 복구된 영역으로 다시 재배포할 수 있습니다. vMotion 작업을 사용하여 VM 배치를 수동으로 제어할 수도 있습니다.
가용성 영역이 복구되면 영역의 클러스터 및 호스트를 다시 사용할 수 있습니다. 워크로드에 필요한 영역 복구 절차 및 데이터 동기화를 담당합니다.
영역 오류 테스트
다음을 통해 영역 오류를 시뮬레이션할 수 있습니다.
vSphere를 사용하여 호스트를 유지 관리 모드로 전환하여 영역 수준 오류를 시뮬레이션합니다.
시뮬레이션된 실패 시 백업 및 모니터링 시스템이 계속 작동하는지 확인합니다.
- VM 다시 시작 및 네트워크 경로 변경에 대한 애플리케이션 복원력 테스트는 특히 클러스터를 확장하거나 다른 영역의 개별 클러스터에 애플리케이션을 배포하는 경우에 적용됩니다.
Azure VMware Solution은 영역 오류에 대한 인프라 응답을 관리하므로 주로 VM 다시 시작에 대한 애플리케이션의 응답을 테스트해야 합니다.
당신은 영역 오류 시 다른 영역 또는 지역의 다른 클러스터로의 장애 조치(failover)와 같은 모든 인프라 대응을 책임집니다. 응답 프로세스를 철저히 테스트해야 합니다.
지역 전체 오류에 대한 복원력
각 Azure VMware Solution 클러스터는 단일 Azure 지역 내에 배포됩니다. 지역을 사용할 수 없게 되면 프라이빗 클라우드 및 해당 지역 내의 모든 리소스를 사용할 수 없게 됩니다.
그러나 다른 접근 방식을 결합하거나 기존 인프라와 통합하여 특정 비즈니스 요구 사항 및 복구 목표를 충족하는 사용자 지정 다중 지역 솔루션을 디자인할 수도 있습니다.
복원력을 위한 사용자 지정 다중 지역 솔루션
Azure VMware Solution을 사용하여 다중 지역 복원력을 달성하려면 여러 지역에 별도의 프라이빗 클라우드를 배포하고 장애 조치(failover) 및 기타 재해 복구 솔루션을 구현해야 합니다.
다양한 요구 사항을 지원하는 다양한 옵션이 있습니다. 자세한 내용은 Azure VMware: 제한 사항, 호환성 및 알려진 문제에 대한 타사 백업 및 재해 복구 솔루션을 참조하세요.
백업 및 복원
Azure VMware Solution은 관리 구성 요소(사용하도록 설정된 경우 vCenter Server, NSX Manager 및 HCX Manager)를 자동으로 백업합니다. 이러한 관리 백업에서 복원하려면 Azure 지원 요청을 만듭니다.
VM 워크로드의 경우 Azure VMware Solution은 여러 백업 방법을 지원합니다. 자세한 내용은 Azure VMware Solution VM에 대한 Backup 솔루션을 참조하세요.
서비스 유지 관리에 대한 복원력
Azure는 자동 플랫폼 유지 관리를 수행하여 보안 업데이트를 적용하고, 새 기능을 배포하고, 서비스 안정성을 개선합니다.
유지 관리가 Azure VMware Solution의 구성 요소에 미칠 수 있는 영향에 대해 알아보고 유지 관리 책임이 있는 구성 요소와 Microsoft에서 유지 관리하는 구성 요소를 이해하려면 Azure VMware Solution 프라이빗 클라우드 유지 관리 모범 사례를 참조하세요.
클러스터에 대한 유지 관리 기간을 구성하여 유지 관리가 프로덕션 워크로드에 영향을 줄 가능성을 줄일 수 있습니다. 자세한 내용은 Azure VMware Solution에 대한 셀프 서비스 유지 관리 계획(공개 미리 보기)을 참조하세요.
서비스 수준 약정
Azure 서비스의 SLA(서비스 수준 계약)는 각 서비스의 예상 가용성과 해당 가용성 예상 결과치를 달성하기 위해 솔루션이 충족해야 하는 조건을 설명합니다. 자세한 내용은 온라인 서비스 SLA를 참조하세요.
Azure VMware Solution은 워크로드 인프라 및 관리 작업에 대해 다양한 가용성 SLA를 제공합니다.
확장된 클러스터로 구성된 클러스터는 워크로드 인프라 가용성 SLA가 더 높습니다.
그러나 가용성 SLA를 한정하려면 특정 방식으로 클러스터를 구성해야 합니다. 자세한 내용은 SLA 텍스트를 참조하세요.
관련 콘텐츠
- Azure의 안정성
- Azure VMware Solution이란?
- vSAN 확장 클러스터 배포
- VMware HCX를 사용하여 재해 복구 배포
- Azure VMware Solution을 위한 비즈니스 연속성 및 재해 복구
- Azure VMware Solution 워크로드