Project Flash - Azure Resource Health를 사용하여 Azure Virtual Machine 가용성 모니터링

아티클
02/12/2024

Azure Resource Health는 Flash에서 제공하는 하나의 솔루션입니다. Flash는 고객이 VM(가상 머신) 상태를 모니터링할 수 있는 강력하고 안정적이며 신속한 메커니즘을 구축하는 데 전념하는 프로젝트의 내부 이름입니다.

이 문서에서는 Azure Resource Health를 사용하여 Azure Virtual Machine 가용성을 모니터링하는 방법을 설명합니다. Flash 솔루션에 대한 일반적인 개요는 Flash 개요를 참조하세요.

Flash에서 제공하는 다른 솔루션과 관련된 설명서의 경우 다음 문서 중에서 선택합니다.

Azure Resource Health

포털을 통해 개별 리소스에 대해 즉각적이고 사용자에게 친숙한 상태 검사 제공합니다. 고객은 포털의 리소스 상태 블레이드에 빠르게 액세스하고 30일간의 상태 검사 기록을 검토하여 빠르고 간단한 문제 해결을 위한 훌륭한 도구입니다. 기존 Azure Resource Health 기능을 사용하면 Azure 리소스에 영향을 주는 서비스 문제를 진단하고 지원할 수 있습니다. 리소스의 현재 및 과거 상태를 보고하여 각 리소스를 사용할 수 없는 시간 범위를 표시합니다.

그러나 우리는 고객과 파트너가 근본적인 기술 문제의 원인을 이해하고, 모니터링 프로세스에 공급하고, 다른 이해 관계자에게 딸 틈을 설명하고, 궁극적으로 비즈니스 의사 결정을 알리기 위해 문제에 대한 통신을 받을 수 있는 방법을 개선하는 데 관심이 있다는 것을 알고 있습니다.

Azure Resource Health에서 VM 문제의 근본 원인

최근에 VM 오류에 대해 고객과 공유하는 정보를 향상시키고 문제를 야기한 근본 원인에 대한 추가 컨텍스트를 제공하는 리소스 상태 환경 개선 사항을 제공했습니다. 이제 VM의 가용성에 영향을 줄 때 빠른 알림을 받는 것 외에도, 자동화된 RCA(근본 원인 분석) 시스템이 VM 실패로 이어진 실패한 Azure 플랫폼 구성 요소를 식별하면 고객은 나중에 근본 원인이 추가될 것으로 예상할 수 있습니다. 예제를 통해 이 작업이 실제로 어떻게 진행되는지 살펴보겠습니다.

T1 시간에는 네트워킹 문제로 인해 서버 랙이 오프라인 상태가 되어 랙의 VM이 연결이 끊깁니다. 네트워크 아키텍처와 관련된 최근의 안정성 개선 사항은 향후 안정성 향상 블로그 게시물에서 공유될 예정입니다. 이 공간을 시청하세요!

T2 시 Azure의 내부 모니터링은 랙의 VM에 연결할 수 없음을 인식하고 영향을 받는 VM을 새 랙에 다시 배포하여 완화를 시작합니다. 이 시간 동안 VM이 현재 영향을 받고 사용할 수 없음을 고객에게 알리는 주석이 리소스 상태에 전송됩니다.

T3 시간에는 랙 스위치의 맨 위에서 플랫폼 원격 분석, 호스트 머신 및 내부 모니터링 시스템이 RCA 엔진에서 상호 연결되어 오류의 근본 원인을 도출합니다. 계산되면 RCA는 고객이 향후 영향 가능성을 최소화하기 위해 구현할 수 있는 관련 아키텍처 복원력 권장 사항과 함께 리소스 상태에 다시 게시됩니다.

초기 가동 중지 시간 알림 기능은 몇 년 전이지만 근본 원인 문의 게시는 새로운 추가 기능입니다. 이제 이러한 근본 원인을 파생시키는 방법에 대한 세부 정보를 살펴보겠습니다.

근본 원인 분석 엔진

이전 예제를 자세히 살펴보고 RCA 엔진의 작동 방식과 그 뒤에 있는 기술에 대한 세부 정보를 살펴보겠습니다. VM용 RCA 엔진의 핵심은 대용량 로그 원격 분석용으로 최적화된 빅 데이터 서비스인 ADX(Azure Data Explorer )입니다. Azure Data Explorer를 사용하면 Azure 플랫폼을 구성하는 디바이스 및 서비스에서 테라바이트 단위의 로그 원격 분석을 쉽게 구문 분석하고, 함께 조인하고, 상관 관계 정보 스트림을 해석하여 다양한 오류 시나리오의 근본 원인을 도출할 수 있습니다. 이는 다단계 데이터 엔지니어링 프로세스로 끝납니다.

1단계: 가동 중지 시간 검색

근본 원인 분석의 첫 번째 단계는 분석이 실행되는 트리거를 정의하는 것입니다. Virtual Machines의 경우 VM이 예기치 않게 다시 부팅할 때마다 근본 원인을 확인하려고 하므로 트리거는 업 상태에서 다운 상태로 전환되는 VM입니다. 플랫폼 원격 분석에서 이러한 전환을 식별하는 것은 대부분의 시나리오에서 간단하지만 디바이스 오류 또는 전원 손실로 인해 플랫폼 원격 분석이 손실될 수 있는 특정 종류의 인프라 오류와 관련하여 더 복잡합니다. 이러한 오류 클래스를 처리하려면 VM 가용성 전환을 나타내는 데이터 손실 추적과 같은 다른 기술이 필요합니다. Azure Data Explorer는 이 계열 분석 시 뛰어난 기능을 제공하며, 이 프로세스에 대한 자세한 내용은 Microsoft 기술 커뮤니티: Azure Data Explorer에서 Window 함수 및 시계열 함수를 사용하여 가동 중지 시간 계산에서 찾을 수 있습니다.

2단계: 상관 관계 분석

트리거 이벤트가 정의되면(이 경우 VM이 비정상 상태로 전환됨) 다음 단계는 상관 관계 분석입니다. 이 단계에서는 트리거 이벤트의 존재를 사용하여 다음과 같이 Azure 플랫폼의 지점에서 원격 분석의 상관 관계를 지정합니다.

Azure 호스트: VM을 호스팅하는 실제 블레이드입니다.
TOR: 랙 네트워크 스위치의 맨 위입니다.
Azure Storage: Azure Virtual Machines용 Virtual Disks를 호스트하는 서비스입니다.

이러한 각 시스템에는 VM 가동 중지 시간 트리거 이벤트와 구문 분석 및 상관 관계를 설정해야 하는 자체 원격 분석 피드가 있습니다. 이 프로세스는 VM 및 VM이 실패할 수 있는 기본 시스템의 종속성 그래프 이해한 다음, VM 전환 시간에 가까운 시간에 발생한 이벤트를 필터링하여 이러한 모든 종속 시스템의 상태 원격 분석을 함께 조인하여 수행됩니다. Azure Data Explorer의 직관적이고 강력한 쿼리 언어는 시간 창 조인과 같은 문서화된 패턴을 제공하여 임시 원격 분석 스트림의 상관 관계를 함께 지정하는 데 도움이 됩니다. 이 상관 관계 프로세스의 끝부분에는 VM 오류의 원인을 파악하는 데 유용하거나 유용한 정보가 있을 수 있는 모든 종속 시스템의 상관 관계가 있는 플랫폼 원격 분석을 사용하여 VM 가동 중지 시간 전환을 나타내는 데이터 세트가 있습니다.

3단계: 근본 원인 특성

프로세스의 다음 단계는 특성입니다. 이제 모든 관련 데이터를 단일 데이터 세트에서 함께 수집했으므로 특성 규칙이 적용되어 정보를 해석하고 고객 관련 근본 원인 설명으로 변환합니다. TOR 오류의 원래 예제로 돌아가면 상관 관계 분석 후에 해석할 흥미로운 정보가 많이 있을 수 있습니다. 예를 들어 Azure 호스트를 모니터링하는 시스템에는 이 시간 동안 호스트에 대한 연결이 끊어진 로그가 있을 수 있습니다. 또한 가상 디스크 연결 문제와 관련된 신호와 오류에 대한 TOR 디바이스의 명시적 신호가 있을 수 있습니다. 이러한 모든 정보는 이제 검사되고 명시적 TOR 실패 신호는 근본 원인으로 다른 신호보다 우선 순위가 지정됩니다. 이 우선 순위 지정 프로세스와 그 뒤에 있는 규칙은 do기본 전문가와 함께 구성되고 Azure 플랫폼이 발전함에 따라 수정됩니다. 기계 학습 및 변칙 검색 메커니즘은 이러한 특성이 있는 근본 원인을 기반으로 하여 이러한 분류 규칙을 개선하고 이러한 오류 비율의 패턴 변경을 감지하여 안전한 배포 파이프라인으로 다시 공급 할 수 있는 기회를 식별합니다.

4단계: RCA 게시

마지막 단계는 고객에게 표시되는 근본 원인을 Azure Resource Health에 게시하는 것입니다. 게시는 Azure Data Explorer에서 처리된 근본 원인 데이터를 주기적으로 쿼리하고 결과를 리소스 상태 백 엔드로 내보내는 간단한 Azure Functions 애플리케이션에 의해 수행됩니다. 정보 스트림은 다양한 데이터 지연과 함께 제공될 수 있으므로 이 프로세스에서 RCA를 업데이트하여 원래 게시된 보다 구체적인 근본 원인으로 이어지는 더 나은 정보 원본을 반영할 수 있습니다.

앞으로

문제의 근본 원인을 파악하고 고객과 파트너에게 전달하는 것은 시작에 불과합니다. 고객은 이러한 RCA를 가져와서 고객 및 동료와 공유해야 할 수 있습니다. 리소스 RCA를 보다 쉽게 식별하고 추적하고 쉽게 공유할 수 있도록 여기에 작업을 빌드하려고 합니다. 이를 위해 리소스당 고유한 리소스 및 가동 중지 시간 추적 ID를 생성하여 가동 중지 시간을 해당 RCA에 쉽게 일치시킬 수 있도록 백 엔드 변경 작업을 진행하고 있습니다. 또한 RCA를 더 쉽게 전자 메일로 보낼 수 있도록 하고, 결국 VM에 대한 RCA를 구독할 수 있도록 새로운 기능에 대해 노력하고 있습니다. 이 기능을 사용하면 사용 불가 이벤트가 발생한 후 추가 작업이 필요하지 않은 상태에서 받은 편지함에서 직접 RCA에 등록할 수 있습니다.

다음 단계

제공되는 솔루션에 대해 자세히 알아보려면 해당 솔루션 문서를 계속 진행합니다.

Azure Virtual Machines를 모니터링하는 방법에 대한 일반적인 개요는 Azure 가상 머신 모니터링 및 Azure 가상 머신 모니터링 참조를 참조하세요.

다음을 통해 공유

Project Flash - Azure Resource Health를 사용하여 Azure Virtual Machine 가용성 모니터링

Azure Resource Health

Azure Resource Health에서 VM 문제의 근본 원인

근본 원인 분석 엔진

앞으로

다음 단계

피드백

피드백

추가 리소스