다음을 통해 공유


Project Flash - Azure Virtual Machine 가용성 모니터링 발전

Flash라는 이름은 프로젝트 팀에서 알려진 것처럼 고객이 VM(가상 머신) 상태를 모니터링할 수 있는 강력하고 안정적이며 신속한 메커니즘을 구축하기 위한 확고한 노력을 의미합니다. 주요 목표는 고객이 실행 가능하고 정확한 원격 분석에 안정적으로 액세스하고, 변경 내용에 대한 경고를 즉시 수신하고, 정기적으로 대규모로 데이터를 모니터할 수 있도록 하는 것입니다. 또한 고객이 고유한 관찰 가능성 요구 사항을 충족하는 데 편리하게 사용할 수 있는 중앙 집중식 일관된 환경을 개발하는 데 중점을 둡니다. 다음을 수행할 수 있도록 하는 것이 우리의 임무입니다.

  • VM 가용성 중단(예: VM 재부팅 및 다시 시작, 네트워크 드라이버 업데이트로 인한 애플리케이션 중지 및 30초 호스트 OS 업데이트)에 대한 정확하고 실행 가능한 데이터와 정확한 오류 세부 정보(예: 플랫폼 대 사용자 시작, 재부팅 대 동결, 계획되지 않은 경우)를 사용합니다.
  • 빠른 디버깅 및 월별 보고를 위해 VM 가용성 추세를 분석 및 경고합니다.
  • 대규모 데이터를 주기적으로 모니터하고 사용자 지정 대시보드를 빌드하여 모든 리소스의 최신 가용성 상태를 업데이트합니다.
  • 영향을 받는 VM, 가동 중지 시간 원인 및 기간, 결과 수정 사항 및 유사한 모든 항목을 자세히 설명하는 자동화된 RCA(근본 원인 분석)를 받아 대상 조사 및 사후 분석을 구현합니다.
  • 신속하게 수정 작업을 트리거하고 최종 사용자의 영향을 방지하기 위해 VM 가용성의 중요한 변경에 대한 즉각적인 알림을 받습니다.
  • 끊임없이 변화하는 워크로드 민감도 및 장애 조치(failover) 요구 사항에 따라 플랫폼 복구 정책을 동적으로 조정하고 자동화합니다.

Flash 솔루션

Flash 이니셔티브는 고객의 다양한 모니터링 요구를 충족하는 솔루션을 개발하는 데 전념하고 있습니다. 특정 요구 사항에 가장 적합한 Flash 모니터링 솔루션을 결정하는 데 도움이 되는 다음 표를 참조하세요.

솔루션 설명
Azure Resource Graph(일반 공급) 규모가 큰 조사, 중앙 집중식 리소스 리포지토리 및 기록 조회를 위해 대규모 고객은 ARG(Azure Resource Graph)를 사용하여 모든 워크로드에서 리소스 가용성 원격 분석을 주기적으로 사용하고자 합니다.
Event Grid 시스템 토픽(공개 미리 보기) 최종 사용자 영향을 방지하기 위해 시간에 민감하고 중요한 완화(다시 배포, VM 작업 다시 시작)를 트리거하기 위해 고객(예: Pearl Abyss, Krafton)은 Event Grid의 이벤트 처리기를 통해 리소스 가용성이 매우 변경된 후 몇 초 이내에 경고를 수신하고자 합니다.
Azure Monitor(공개 미리 보기) 추세를 추적하고 플랫폼 메트릭(CPU, 디스크 등)을 집계하고 정확한 임계값 기반 경고를 설정하기 위해 고객은 Azure Monitor를 통해 기본 VM 가용성 메트릭을 사용하고자 합니다.
Resource Health(일반 공급) 리소스별로 즉각적이고 편리한 포털 UI 상태 검사를 수행하기 위해 고객이 포털에서 RHC 블레이드를 빠르게 볼 수 있습니다. 빠르고 쉬운 문제 해결을 위해 해당 리소스에 대한 상태 검사의 30일 기록 보기에도 액세스할 수 있습니다.

종합 VM 가용성 모니터링

일상적인 유지 관리, 실시간 마이그레이션, 서비스 복구 및 VM 저하 시나리오를 포함하여 VM 가용성을 모니터링하는 전체적인 접근 방식을 위해서는 예약된 이벤트 SE(예약 이벤트)와 Flash 상태 이벤트를 모두 사용하는 것이 좋습니다.

예약된 이벤트는 유지 관리 활동에 앞서 최대 15분 전 사전 알림을 통해 조기 경고를 제공하도록 설계되었습니다. 이 리드 타임을 통해 예정된 가동 중지 시간에 대해 정보에 입각한 결정을 내릴 수 있으므로 회피하거나 대비할 수 있습니다. 향후 유지 관리 준비에 따라 이 15분 동안 해당 이벤트를 승인하거나 작업을 지연할 수 있는 유연성이 확보됩니다.

반면 Flash Health 이벤트는 VM 성능 저하를 포함하여, 진행 중 및 완료 상태인 가용성 중단을 실시간으로 추적하는 데 초점을 맞춥니다. 이 기능을 사용하면 가동 중지 시간을 효과적으로 모니터링하고 관리하여 자동화된 완화, 조사 및 사후 분석을 지원할 수 있습니다.

관찰 활용을 시작하기 위해 고품질의 VM 가용성 데이터를 내보내는 Azure 제품 제품군을 탐색할 수 있습니다. 이러한 제품에는 리소스 상태, 활동 로그, Azure Resource Graph, Azure Monitor 메트릭Azure Event Grid 시스템 토픽 등이 있습니다.

다음 단계

제공되는 솔루션에 대해 자세히 알아보려면 해당 솔루션 문서를 계속 진행합니다.

Azure Virtual Machines를 모니터링하는 방법에 대한 일반적인 개요는 Azure 가상 머신 모니터링Azure 가상 머신 모니터링 참조를 확인하세요.