Azure Monitor를 사용하여 상태 관리 서비스 오류에 대한 전자 메일 보내기

적용 대상: Windows Server 2022, Windows Server 2019, Windows Server 2016

Azure Monitor는 클라우드 및 온-프레미스 환경에서 원격 분석 데이터를 수집, 분석하고 그에 따라 조치를 취하는 포괄적인 솔루션을 제공함으로써 애플리케이션의 성능과 가용성을 최대화합니다. 애플리케이션을 수행하는 방법과 애플리케이션 및 종속된 리소스에 영향을 주는 문제를 사전에 식별하는 방법을 파악할 수 있습니다.

이는 온-프레미스 하이퍼 수렴형 클러스터에 특히 유용합니다. Azure Monitor를 통합하면 클러스터에 문제가 있는 경우(또는 수집된 데이터에 따라 다른 활동에 플래그를 지정하려는 경우) 전자 메일, 텍스트(SMS) 및 기타 경고를 ping하도록 구성할 수 있습니다. 아래에서는 Azure Monitor의 작동 방식, Azure Monitor를 설치하는 방법 및 알림을 보내도록 구성하는 방법을 간략하게 설명합니다.

System Center를 사용하는 경우 Windows Server 2019 및 Windows Server 2016 저장소 공간 Direct 클러스터를 모두 모니터링하는 저장소 공간 직접 관리 팩을 검사.

이 관리 팩에는 다음이 포함됩니다.

  • 실제 디스크 상태 및 성능 모니터링
  • 스토리지 노드 상태 및 성능 모니터링
  • 스토리지 풀 상태 및 성능 모니터링
  • 볼륨 복원력 유형 및 중복 제거 상태

Azure Monitor 이해

Azure Monitor가 수집하는 모든 데이터는 두 가지 기본 유형인 메트릭 및 로그 중 하나에 해당합니다.

  1. 메트릭은 시간상 특정 지점에서 시스템의 일부 측면을 설명하는 숫자 값입니다. 메트릭은 간단하며 실시간에 가까운 시나리오를 지원할 수 있습니다. Azure Portal의 개요 페이지에 Azure Monitor에서 수집한 데이터가 표시됩니다.

image of metrics ingesting in metrics explorer

  1. 로그에는 각 형식에 대해 다양한 속성 집합이 포함된 레코드로 구성된 다양한 데이터 형식이 포함됩니다. 이벤트 및 추적과 같은 원격 분석은 분석을 위해 모두 결합될 수 있도록 성능 데이터 외에도 로그로 저장됩니다. Azure Monitor에서 수집한 로그 데이터를 쿼리분석하여 수집된 데이터를 신속하게 검색, 통합 및 분석할 수 있습니다. Azure Portal에서 Log Analytics를 사용하여 쿼리를 만들고 테스트한 다음 이러한 도구를 사용하여 데이터를 직접 분석하거나 시각화 또는 경고 규칙에 사용할 쿼리를 저장할 수 있습니다.

image of logs ingesting in log analytics

이러한 경고를 구성하는 방법에 대한 자세한 내용은 아래와 같습니다.

Windows 관리 Center를 사용하여 클러스터 온보딩

Windows 관리 Center를 사용하여 클러스터를 Azure Monitor에 온보딩할 수 있습니다.

Gif of onboarding cluster to Azure Monitor

이 온보딩 흐름 중에는 아래 단계가 내부적으로 수행됩니다. 클러스터를 수동으로 설정하려는 경우 이를 구성하는 방법을 자세히 설명합니다.

상태 관리 서비스 구성

가장 먼저 해야 할 일은 클러스터를 구성하는 것입니다. 아시다시피 상태 관리 서비스 저장소 공간 Direct를 실행하는 클러스터에 대한 일상적인 모니터링 및 운영 환경을 개선합니다.

위에서 본 것처럼 Azure Monitor는 클러스터에서 실행 중인 각 노드에서 로그를 수집합니다. 따라서 다음과 같은 이벤트 채널에 쓰도록 상태 관리 서비스 구성해야 합니다.

Event Channel: Microsoft-Windows-Health/Operational
Event ID: 8465

상태 관리 서비스 구성하려면 다음을 실행합니다.

get-storagesubsystem clus* | Set-StorageHealthSetting -Name "Platform.ETW.MasTypes" -Value "Microsoft.Health.EntityType.Subsystem,Microsoft.Health.EntityType.Server,Microsoft.Health.EntityType.PhysicalDisk,Microsoft.Health.EntityType.StoragePool,Microsoft.Health.EntityType.Volume,Microsoft.Health.EntityType.Cluster"

위의 cmdlet을 실행하여 상태 설정 설정하면 Microsoft-Windows-Health/Operational 이벤트 채널에 기록하려는 이벤트가 발생합니다.

Log Analytics 구성

클러스터에서 적절한 로깅을 설정했으므로 다음 단계는 로그 분석을 올바르게 구성하는 것입니다.

개요 를 제공하기 위해 Azure Log Analytics 는 데이터 센터 또는 기타 클라우드 환경의 물리적 또는 가상 Windows 컴퓨터에서 데이터를 단일 리포지토리로 직접 수집하여 자세한 분석 및 상관 관계를 확인할 수 있습니다.

지원되는 구성을 이해하려면 지원되는 Windows 운영 체제 및 네트워크 방화벽 구성 검토합니다.

Azure 구독이 없는 경우, 시작하기 전에 무료 계정을 만드십시오.

Azure Portal에 로그인

에서 Azure Portal에 https://portal.azure.com로그인합니다.

작업 영역 만들기

아래 나열된 단계에 대한 자세한 내용은 Azure Monitor 설명서를 참조 하세요.

  1. Azure Portal에서 모든 서비스를 클릭합니다. 리소스 목록에서 Log Analytics를 입력합니다. 입력을 시작하면 입력에 따라 목록이 필터링됩니다. Log Analytics를 선택합니다.

    Azure portal

  2. 만들기를 클릭한 다음 다음 항목에 대한 선택 항목을 선택합니다.

    • DefaultLAWorkspace와 같은 Log Analytics 작업 영역의 이름을 제공합니다.

    • 기본으로 선택된 값이 적절하지 않으면 드롭다운 목록에서 선택하여 연결할 구독을 선택합니다.

    • 리소스 그룹의 경우 하나 이상의 Azure 가상 머신을 포함하는 기존 리소스 그룹을 선택합니다.

      Create Log Analytics resource blade

  3. Log Analytics 작업 영역 창에 필요한 정보를 제공한 후 확인을 클릭합니다.

정보가 확인되고 작업 영역이 만들어지는 동안 메뉴의 알림에서 진행률을 추적할 수 있습니다.

작업 영역 ID 및 키 가져오기

Windows용 Microsoft Monitoring Agent를 설치하기 전에 Log Analytics 작업 영역에 대한 작업 영역 ID 및 키가 필요합니다. 이 정보는 에이전트를 올바르게 구성하고 Log Analytics와 성공적으로 통신할 수 있도록 설정 마법사에서 필요합니다.

  1. Azure Portal의 왼쪽 위 모서리에 있는 모든 서비스를 클릭합니다. 리소스 목록에서 Log Analytics를 입력합니다. 입력을 시작하면 입력에 따라 목록이 필터링됩니다. Log Analytics를 선택합니다.
  2. Log Analytics 작업 영역 목록에서 이전에 만든 DefaultLAWorkspace를 선택합니다.
  3. 고급 설정을 선택합니다.

    Log Analytics Advance Settings

  4. 연결된 원본을 선택하고 Windows 서버를 선택합니다.
  5. 작업 영역 ID기본 키오른쪽에 있는 값입니다. 둘 다 일시적으로 저장 - 복사하여 당분간 즐겨찾는 편집기에 붙여넣습니다.

Windows에 에이전트 설치

다음 단계에서는 Microsoft Monitoring Agent를 설치하고 구성합니다. 클러스터의 각 서버에 이 에이전트를 설치하고 Windows Startup에서 에이전트를 실행하도록 지정해야 합니다.

  1. Windows 서버 페이지에서 Windows 운영 체제의 프로세서 아키텍처에 따라 다운로드할 적절한 Windows 에이전트 버전 다운로드를 선택합니다.
  2. 설치를 실행하여 컴퓨터에 에이전트를 설치합니다.
  3. 시작 페이지에서 다음을 클릭합니다.
  4. 사용 조건 페이지에서 라이선스를 읽은 다음 동의를 클릭합니다.
  5. 대상 폴더 페이지에서 기본 설치 폴더를 변경 또는 유지하고 다음을 클릭합니다.
  6. 에이전트 설정 옵션 페이지에서 Azure Log Analytics에 에이전트를 연결하도록 선택하고 다음을 클릭합니다.
  7. Azure Log Analytics 페이지에서 다음을 수행합니다.
    1. 앞에서 복사한 작업 영역 ID작업 영역 키(기본 키) 를 붙여넣습니다. a. 컴퓨터가 프록시 서버를 통해 Log Analytics 서비스와 통신해야 하는 경우 고급을 클릭하고 프록시 서버의 URL 및 포트 번호를 제공합니다. 프록시 서버에 인증이 필요한 경우 사용자 이름과 암호를 입력하여 프록시 서버로 인증한 후 다음을 클릭합니다.
  8. 필요한 구성 설정 제공이 완료되면 다음을 클릭합니다.

    paste Workspace ID and Primary Key

  9. 설치 준비 페이지에서 선택 항목을 검토한 다음 설치를 클릭합니다.
  10. 구성 완료 페이지에서 마침을 클릭합니다.

완료되면 Microsoft Monitoring Agent제어판에 표시됩니다. 구성을 검토하고 에이전트가 Log Analytics에 연결되어 있는지 확인할 수 있습니다. 연결되면 Azure Log Analytics 탭에 Microsoft Monitoring Agent가 Microsoft Log Analytics 서비스에 성공적으로 연결되었다는 메시지가 표시됩니다.

MMA connection status to Log Analytics

지원되는 구성을 이해하려면 지원되는 Windows 운영 체제 및 네트워크 방화벽 구성 검토합니다.

Windows 관리 Center를 사용하여 경고 설정

Windows 관리 센터에서 Log Analytics 작업 영역의 모든 서버에 적용되는 기본 경고를 구성할 수 있습니다.

A short video that shows a user configuring default alerts that will apply to all servers in your Log Analytics workspace.

다음은 옵트인할 수 있는 경고 및 기본 조건입니다.

경고 이름 기본 조건
CPU 사용률 10분 동안 85% 이상
디스크 용량 사용률 10분 동안 85% 이상
메모리 사용률 10분 동안 100MB 미만의 사용 가능한 메모리
하트비트 5분 동안 2회 미만의 비트
시스템 위험 오류 클러스터 시스템 이벤트 로그의 모든 중요 경고
상태 서비스 경고 클러스터의 모든 상태 서비스 오류

Windows 관리 Center에서 경고를 구성하면 Azure의 로그 분석 작업 영역에서 경고를 볼 수 있습니다.

A short video that shows the user accessing the alerts in the log analytics workspace in Azure.

이 온보딩 흐름 중에는 아래 단계가 내부적으로 수행됩니다. 클러스터를 수동으로 설정하려는 경우 이를 구성하는 방법을 자세히 설명합니다.

이벤트 및 성능 데이터 수집

Log Analytics는 장기 분석 및 보고를 위해 지정한 Windows 이벤트 로그 및 성능 카운터에서 이벤트를 수집하고 특정 조건이 감지되면 조치를 취할 수 있습니다. 다음 단계에 따라 Windows 이벤트 로그에서 이벤트 컬렉션을 구성하고 시작할 몇 가지 일반적인 성능 카운터를 구성합니다.

  1. Azure Portal에서 왼쪽 아래 모서리에 있는 추가 서비스를 클릭합니다. 리소스 목록에서 Log Analytics를 입력합니다. 입력을 시작하면 입력에 따라 목록이 필터링됩니다. Log Analytics를 선택합니다.
  2. 고급 설정을 선택합니다.

    Log Analytics Advance Settings

  3. 데이터를 선택한 다음, Windows 이벤트 로그를 선택합니다.
  4. 여기에서 아래 이름을 입력하여 상태 관리 서비스 이벤트 채널을 추가하고 더하기 기호+를 클릭합니다.
    Event Channel: Microsoft-Windows-Health/Operational
    
  5. 테이블에서 심각도 오류경고를 검사.
  6. 페이지 맨 위에 있는 저장을 클릭하여 구성을 저장합니다.
  7. Windows 컴퓨터에서 성능 카운터 컬렉션을 사용하도록 설정하려면 Windows 성능 카운터를 선택합니다.
  8. 새 Log Analytics 작업 영역에 대한 Windows 성능 카운터를 처음 구성할 때 몇 가지 일반적인 카운터를 빠르게 만들 수 있는 옵션이 제공됩니다. 각 항목은 옆에 확인란과 함께 나열됩니다.
    Default Windows performance counters selected
    선택한 성능 카운터 추가를 클릭합니다. 10초 컬렉션 샘플 간격으로 추가되고 미리 설정됩니다.
  9. 페이지 맨 위에 있는 저장을 클릭하여 구성을 저장합니다.

로그 데이터를 기반으로 경고 만들기

지금까지 수행한 경우 클러스터는 Log Analytics에 로그 및 성능 카운터를 보내야 합니다. 다음 단계는 정기적으로 로그 검색을 자동으로 실행하는 경고 규칙을 만드는 것입니다. 로그 검색 결과가 특정 조건과 일치하면 이메일 또는 텍스트 알림을 보내는 경고가 발생합니다. 아래에서 살펴보겠습니다.

쿼리 만들기

로그 검색 포털을 열어 시작합니다.

  1. Azure Portal에서 모든 서비스를 클릭합니다. 리소스 목록에 모니터를 입력합니다. 입력을 시작하면 입력에 따라 목록이 필터링됩니다. 모니터를 선택합니다.
  2. 모니터 탐색 메뉴에서 Log Analytics를 선택한 다음, 작업 영역을 선택합니다.

작업할 일부 데이터를 검색하는 가장 빠른 방법은 테이블의 모든 레코드를 반환하는 간단한 쿼리입니다. 검색 상자에 다음 쿼리를 입력하고 검색 단추를 클릭합니다.

Event

데이터는 기본 목록 보기에서 반환되며 반환된 총 레코드 수를 확인할 수 있습니다.

Simple query

화면 왼쪽에는 직접 수정하지 않고 쿼리에 필터링을 추가할 수 있는 필터 창이 있습니다. 해당 레코드 종류에 대해 몇 가지 레코드 속성이 표시되며, 하나 이상의 속성 값을 선택하여 검색 결과를 좁힐 수 있습니다.

EVENTLEVELNAME에서 오류 옆에 있는 검사 상자를 선택하거나 다음을 입력하여 결과를 오류 이벤트로 제한합니다.

Event | where (EventLevelName == "Error")

Filter

관심 있는 이벤트에 대해 적절한 쿼리를 만든 후 다음 단계를 위해 저장합니다.

경고 만들기

이제 경고를 만드는 예제를 살펴보겠습니다.

  1. Azure Portal에서 모든 서비스를 클릭합니다. 리소스 목록에서 Log Analytics를 입력합니다. 입력을 시작하면 입력에 따라 목록이 필터링됩니다. Log Analytics를 선택합니다.

  2. 왼쪽 창에서 경고를 선택한 다음 페이지 맨 위에서 새 경고 규칙을 클릭하여 새 경고를 만듭니다.

    Create new alert rule

  3. 첫 번째 단계의 경고 만들기 섹션에서 Log Analytics 작업 영역을 리소스로 선택합니다. 로그 기반 경고 신호이므로 이전에 만든 Log Analytics 작업 영역이 둘 이상 있는 경우 드롭다운 목록에서 특정 구독 을 선택하여 결과를 필터링합니다. 드롭다운 목록에서 Log Analytics를 선택하여 리소스 종류를 필터링합니다. 마지막으로, ResourceDefaultLAWorkspace선택한 다음 완료를 클릭합니다.

    Create alert step 1 task

  4. 경고 조건 섹션에서 조건 추가를 클릭하여 저장된 쿼리를 선택한 다음 경고 규칙이 따르는 논리를 지정합니다.

  5. 다음 정보로 경고를 구성합니다. a. 기준 드롭다운 목록에서 미터법을 선택합니다. 메트릭 측정값은 쿼리에서 지정된 임계값을 초과하는 값을 포함한 각 개체에 대해 경고를 만듭니다. b. 조건경우 보다 큼을 선택하고 임계값을 지정합니다. c. 그런 다음 경고를 트리거할 시기를 정의합니다. 예를 들어 연속 위반을 선택할 수 있으며 드롭다운 목록에서 값 3보다 큼을 선택합니다. d. 섹션에 따른 평가에서 기간 값을 30으로, 빈도를 5로 수정합니다. 규칙은 5분마다 실행되고 현재 시간으로부터 지난 30분 이내에 생성된 레코드를 반환합니다. 기간을 더 넓은 기간으로 설정하면 잠재적인 데이터 대기 시간이 발생할 수 있으므로 경고가 발생하지 않는 거짓 부정을 방지하기 위해 쿼리에서 데이터를 반환하도록 합니다.

  6. 완료를 클릭하여 경고 규칙을 완료합니다.

    Configure alert signal

  7. 이제 두 번째 단계로 이동하여 경고 규칙 이름 필드에 경고의 이름 (예: 모든 오류 이벤트에 대한 경고)을 제공합니다. 경고에 대한 세부 정보를 자세히 설명하는 설명을 지정하고 제공된 옵션에서 심각도 값에 대해 Critical(Sev 0)를 선택합니다.

  8. 생성 시 경고 규칙을 즉시 활성화하려면 생성 시 사용 규칙의 기본값을 적용합니다.

  9. 세 번째이자 마지막 단계에서는 경고가 트리거될 때마다 동일한 작업이 수행되고 정의한 각 규칙에 사용할 수 있도록 작업 그룹을 지정합니다. 다음 정보를 사용하여 새 작업 그룹을 구성합니다. a. 새 작업 그룹을선택하면 작업 그룹 추가 창이 나타납니다. b. 작업 그룹 이름의 경우 IT 작업 - 알림같은 짧은 이름(예: itops-n.c)을 지정합니다. 구독리소스 그룹의 기본값이 올바른지 확인합니다. 올바르지 않은 경우 드롭다운 목록에서 올바른 값을 선택합니다. d. 작업 섹션에서 전자 메일 보내기와 같은 작업의 이름을 지정하고 작업 유형 아래에서 드롭다운 목록에서 전자 메일/SMS/푸시/음성을 선택합니다. 추가 정보를 제공하기 위해 전자 메일/SMS/푸시/음성 속성 창이 오른쪽에 열립니다. e. 전자 메일/SMS/푸시/음성 창에서 기본 설정을 선택하고 설정합니다. 예를 들어 전자 메일을 사용하도록 설정하고 메시지를 전달할 유효한 전자 메일 SMTP 주소를 제공합니다. f. 확인을 클릭하여 변경 내용을 저장합니다.

    Create new action group

  10. 확인을 클릭하여 작업 그룹을 완료합니다.

  11. 경고 규칙 만들기를 클릭하여 경고 규칙을 완료합니다. 그 즉시 실행이 시작됩니다.

    Complete creating new alert rule

경고 예

참고로, Azure에서 경고의 예는 다음과 같습니다.

Gif of alert in Azure

다음은 Azure Monitor에서 보낼 전자 메일의 예입니다.

Alert email example

추가 참조