Azure Stack HCI 클러스터를 모니터링하도록 Azure Portal 구성(미리 보기)

적용 대상: Azure Stack HCI, 버전 21H2

중요

이 문서에 설명된 기능에는 최신 Azure Stack HCI 업데이트가 필요합니다. 이전 버전의 Azure Stack HCI는 Insights 타일 대신 모니터링 타일을 표시하며 Insights 메뉴를 사용할 수 없습니다. 새 기능을 얻으려면 최신 업데이트를 설치 하세요.

이 문서에서는 Azure Insights 기능을 사용하도록 설정하여 Azure Stack HCI Insights 사용하여 Azure Stack HCI 클러스터를 모니터링하는 방법을 설명합니다.

아직 등록하지 않은 경우 Azure에 클러스터를 등록해야 합니다. 로그 및 모니터링을 사용하도록 설정한 후에는 Azure Stack HCI Insights 사용하여 클러스터 상태, 성능 및 사용량을 모니터링할 수 있습니다. Azure Portal Azure Stack HCI 클러스터를 모니터링하려면 클러스터의 모든 서버가 Azure Arc를 사용하도록 설정해야 합니다. 2021년 6월 15일 이후에 클러스터를 등록한 경우 기본적으로 발생합니다. 그렇지 않으면 Azure Arc 통합을 사용하도록 설정해야 합니다.

로그 기능(미리 보기)

클러스터를 등록하고 서버를 Arc를 사용하도록 설정하면 Azure Portal 다음이 표시됩니다.

  • 지정된 리소스 그룹의 Azure Stack HCI 리소스입니다.
  • 서버 - 클러스터 <clustername>ArcInstanceResourceGroup의 모든 서버에 대한 Azure Arc 리소스.
  • 노드 탭 아래의 Azure Stack HCI 리소스 페이지에서 서버-Azure Arc 리소스 링크가 있는 노드 .

클러스터 노드가 Arc를 사용하도록 설정되었으므로 이제 Azure Stack HCI 클러스터 리소스 페이지로 이동합니다. 기능 탭 아래에 로그를 사용하도록 설정하는 옵션이 표시됩니다. 이 옵션은 구성되지 않았다고 표시됩니다.

Logs capability under the Capabilities tab

이 기능은 Microsoft Monitoring Agent 설치를 간소화하는 Arc for Servers 확장입니다. Arc for Servers 확장을 사용하여 이 워크플로를 사용하도록 설정하기 때문에 클러스터에 서버를 추가한 경우 서버에 Microsoft Monitoring Agent 자동으로 설치됩니다.

참고

Windows Microsoft Monitoring Agent TCP 포트 443을 통해 Azure Monitor 서비스에 아웃바운드 통신합니다. 서버가 인터넷을 통해 통신하기 위해 방화벽 또는 프록시 서버를 통해 연결하는 경우 이러한 요구 사항을 검토하여 필요한 네트워크 구성을 이해합니다.

Log Analytics 에이전트 확장 구성

Log Analytics 에이전트 확장을 구성하려면 다음을 수행합니다.

  1. 기능 탭에서 로그를 선택합니다.

  2. 기존 작업 영역을 구독에 사용하려면 기존 작업 영역 사용을 선택합니다.

  3. 페이지 아래쪽에서 추가 를 선택합니다.

    Enable Log Analytics on Azure portal

  4. 구성이 완료되면 기능 탭 아래에 로그구성된 것으로 표시됩니다.

  5. 왼쪽의 도구 모음에서 설정 > 확장을 선택합니다. 각 서버가 Microsoft Monitoring Agent 성공적으로 설치되었음을 확인할 수 있습니다.

이제 로그 분석 확장을 성공적으로 설치했습니다.

Log Analytics 사용 안 함

로그 기능을 사용하지 않도록 설정하려면 확장 설정에서 Microsoft Monitoring Agent 제거해야 합니다. 이렇게 하면 Azure의 Log Analytics 작업 영역이나 Azure에 있는 데이터가 삭제되지 않으므로 수동으로 삭제해야 합니다.

클러스터의 모든 서버에서 Microsoft Monitoring Agent 제거하려면 다음 단계를 수행합니다.

  1. 왼쪽의 도구 모음에서 설정 > 확장을 선택합니다.
  2. MicrosoftMonitoringAgent 확인란을 선택합니다.
  3. [제거]를 클릭한 다음 [예]를 클릭합니다.

Insights 기능(미리 보기)

Insights 이전에는 "모니터링"으로 알려졌으며 리소스를 모니터링하고 클러스터, 서버, 가상 머신, 스토리지 등에 대한 유용한 인사이트를 제공하는 데 사용됩니다.

Cluster portal screen

온-프레미스 Azure Stack HCI 클러스터에서 생성된 데이터는 Azure의 Log Analytics 작업 영역에서 수집됩니다. 해당 작업 영역 내에서 클러스터의 상태에 대한 데이터를 수집할 수 있습니다. 기본적으로 모니터링은 매시간 다음 로그를 수집합니다.

  • 상태 관리(Microsoft-windows-health/operational)
  • SDDC 관리(Microsoft-Windows-SDDC-Management/Operational; 이벤트 ID: 3000, 3001, 3002, 3003, 3004)

로그 수집 빈도를 변경하려면 이벤트 로그 채널을 참조하세요.

Insights 사용

Insights 사용하도록 설정하면 유용한 상태 메트릭을 제공하여 현재 Log Analytics 작업 영역과 연결된 모든 Azure Stack HCI 클러스터를 모니터링할 수 있습니다. Azure Portal 이 기능을 사용하도록 설정하려면 다음 단계를 수행합니다.

  1. 기능 탭에서 Insights 선택합니다. 그런 다음 켜기를 선택합니다.
  2. 이제 Insights 기능 탭에 구성된 것으로 표시됩니다.

Portal screen to enable Insights

Microsoft-windows-sddc-management/operationalmicrosoft-windows-health/operational Windows 이벤트 채널이 Windows 이벤트 로그 아래 Log Analytics 작업 영역에 추가됩니다.

Portal workspace for Windows event logs

이러한 로그를 수집하면 분석에서 개별 서버, 드라이브, 볼륨 및 VM의 상태를 표시합니다. 기본적으로 5개의 성능 카운터가 추가됩니다.

Windows performance counters

성능 카운터

다음 표에서는 모니터링되는 성능 카운터에 대해 설명합니다.

성능 카운터 설명
Memory(*)\Available Bytes 사용 가능한 바이트는 프로세스에 할당하거나 시스템 사용을 위해 즉시 사용할 수 있는 실제 메모리 양(바이트)입니다.
Network Interface(*)\Bytes Total/sec 프레이밍 문자를 포함하여 각 네트워크 어댑터를 통해 바이트를 보내고 받는 속도입니다. Bytes Total/sec는 Received/sec 및 Bytes Sent/sec의 합계입니다.
Processor(_Total)% Processor Time 모든 프로세스 스레드가 프로세서를 사용하여 명령을 실행하는 데 사용한 경과된 시간의 백분율입니다.
RDMA 활동(*)\RDMA 인바운드 바이트/초 초당 네트워크 어댑터에 의해 RDMA를 통해 수신된 데이터의 비율입니다.
RDMA 활동(*)\RDMA 아웃바운드 바이트/초 초당 네트워크 어댑터에 의해 RDMA를 통해 전송되는 데이터의 속도입니다.

Insights 사용하도록 설정한 후 데이터를 수집하는 데 최대 15분이 걸릴 수 있습니다. 프로세스가 완료되면 다음 스크린샷과 같이 왼쪽 탐색의 Insights(미리 보기) 탭 아래에서 클러스터의 상태에 대한 풍부한 시각화를 볼 수 있습니다.

Server visualizations

Insights 시각화

Insights 사용하도록 설정되면 다음 표에서 모든 리소스에 대한 세부 정보를 제공합니다.

의료

클러스터에 상태 오류를 제공합니다.

메트릭 설명 단위 예제
오류 상태 오류에 대한 간단한 설명입니다. 링크를 클릭하면 추가 정보가 포함된 측면 패널이 열립니다. 단위 없음 PoolCapacityThresholdExceeded
오류 리소스 종류 오류가 발생한 리소스의 유형입니다. 단위 없음 StoragePool
오류 리소스 ID 상태 오류가 발생한 리소스의 고유 ID입니다. 고유 ID {1245340c-780b-4afc-af3c-f9bdc4b12f8a}: SP:{c57f23d1-d784-4a42-8b59-4edd8e70e830}
심각도 오류의 심각도는 경고 또는 위험일 수 있습니다. 단위 없음 경고
초기 오류 시간 서버가 마지막으로 업데이트된 시점의 타임스탬프입니다. Datetimestamp 4/9/2022, 12:15:42 오후

서버

메트릭 설명 단위 예제
서버 클러스터에 있는 서버의 이름입니다. 단위 없음 VM-1
마지막으로 업데이트한 날짜 서버가 마지막으로 업데이트된 시점의 타임스탬프입니다. Datetimestamp 4/9/2022, 12:15:42 오후
상태 클러스터의 서버 리소스 상태입니다. 정상, 경고, 위험 및 기타일 수 있습니다. 정상
CPU 사용량 프로세스에서 CPU를 사용한 시간의 백분율입니다. 백분율 56%
메모리 사용량 서버 프로세스의 메모리 사용량은 Counter Process\Private Bytes와 메모리 매핑된 데이터의 크기와 같습니다. 백분율 16%
논리 프로세서 논리 프로세서의 수입니다. 개수 2
CPU CPU 수입니다. 개수 2
작동 시간 컴퓨터, 특히 컴퓨터가 작동 중인 시간입니다. Days/min/sec 2.609시간
사이트 서버가 속한 네트워크 주소입니다. IP 주소 사이트 2001:4888:31:13c::/64
도메인 이름 서버가 속한 로컬 도메인입니다. 단위 없음 Contoso.local

가상 머신

클러스터에 있는 모든 가상 머신의 상태를 제공합니다. VM은 실행, 중지됨, 실패 또는 기타 상태(알 수 없음, 시작, 스냅샷, 저장, 중지, 일시 중지, 다시 시작, 일시 중지, 일시 중단됨) 중 하나일 수 있습니다.

메트릭 설명 단위 예제
서버 서버의 이름입니다. 단위 없음 Sample-VM-1
마지막 업데이트 날짜 이렇게 하면 서버가 마지막으로 업데이트된 시점의 datetimestamp가 제공됩니다. Datetimestamp 4/9/2022, 12:24:02 오후
총 VM 수 서버 노드의 VM 수입니다. 개수 0/0 실행 중
실행 중 서버 노드에서 실행되는 VM의 수입니다. 개수 2
중지됨 서버 노드에서 중지된 VM의 수입니다. 개수 3
실패 서버 노드에서 실패한 VM의 수입니다. 개수 2
기타 VM이 다음 상태(알 수 없음, 시작, 스냅샷, 저장, 중지, 일시 중지, 다시 시작, 일시 중지됨, 일시 중단됨) 중 하나에 있는 경우 "기타"로 간주됩니다. 개수 2

다음 표에서는 클러스터의 볼륨 상태를 제공합니다.

메트릭 설명 단위 예제
볼륨 볼륨의 이름 단위 없음 ClusterPerformanceHistory
마지막으로 업데이트한 날짜 스토리지가 마지막으로 업데이트된 날짜/타임스탬프입니다. Datetimestamp 4/14/2022, 2:58:55 오후
상태 볼륨의 상태입니다. 정상, 경고, 위험 및 기타. 정상
총 용량 보고 기간 동안 디바이스의 총 용량(바이트). 바이트 25B
사용할 수 있는 용량 보고 기간 동안 사용 가능한 용량(바이트) 바이트 20B
Iops 초당 입출력 작업 수입니다. 초당 45/s
처리량 Application Gateway에서 제공하는 초당 바이트 수입니다. 초당 바이트 수 5B/s
대기 시간 I/O 요청을 완료하는 데 걸리는 시간입니다. 두 번째 10초
복원력 오류에서 복구할 용량입니다. 데이터 가용성을 최대화합니다. 단위 없음 3방향 미러
중복 제거 디스크에 저장해야 하는 데이터의 실제 바이트 양을 줄이는 프로세스입니다. 사용 가능 여부 예/아니요
파일 시스템 파일 시스템의 형식입니다. 단위 없음 ReFS

Insights 사용 안 함

인사이트를 사용하지 않도록 설정하려면 다음 단계를 수행합니다.

  1. 기능 탭에서 Insights 선택합니다.

  2. Insights 사용 안 함을 선택합니다.

    Portal screen for disabling Insights

Insights 기능을 사용하지 않도록 설정하면 상태 관리 서비스 및 SDDC 관리 로그가 더 이상 수집되지 않습니다. 그러나 기존 데이터는 삭제되지 않습니다. 해당 데이터를 삭제하려면 Log Analytics 작업 영역으로 이동하여 데이터를 수동으로 삭제합니다.

업데이트 필요

Insights 타일에는 다음과 같은 경우에 업데이트 필요 메시지가 표시됩니다.

  • Windows 이벤트 로그의 상태 이벤트가 삭제됩니다.
  • Loganalytics 작업 영역의 5개 성능 카운터 중 전부 또는 전부가 삭제됩니다.

Insights 다시 사용하도록 설정하려면

  • 기능 아래에서 Insights 타일 선택합니다.
  • 업데이트를 선택하여 시각화를 다시 확인합니다.

Portal shows update needed

Azure Monitor 가격 책정

앞에서 설명한 대로 모니터링 시각화를 사용하도록 설정하면 다음에서 로그가 수집됩니다.

  • 상태 관리(Microsoft-windows-health/operational).
  • SDDC 관리(Microsoft-Windows-SDDC-Management/Operational; 이벤트 ID: 3000, 3001, 3002, 3003, 3004).

수집된 데이터의 양과 Log Analytics 작업 영역의 데이터 보존 설정에 따라 요금이 청구됩니다.

Azure Monitor에는 종량제 가격이 있으며 월별 청구 계정당 처음 5GB는 무료입니다. 사용 중인 Azure 지역과 같은 여러 요인으로 인해 가격이 달라질 수 있으므로 최신 가격 계산을 위해 Azure Monitor 가격 계산기를 방문하세요. 다음 표는 비용을 계산하는 데 도움이 될 수 있습니다.

독립 실행형 Log Analytics 작업 영역의 클러스터 월별 수집된 GB
2노드 클러스터 시간당 ~1MB
4노드 클러스터 시간당 ~1MB
8노드 클러스터 시간당 ~1MB

다음 표에서는 다양한 크기의 Azure Stack HCI 클러스터에 대한 가격 책정 구조를 보여 줍니다.

동일한 Log Analytics 작업 영역의 클러스터 월별 수집된 GB
소규모 배포(3개의 2노드 클러스터) ~3GB
중간 배포(4노드 클러스터 10개) ~10GB
대규모 배포(25개의 4노드 클러스터) ~25GB

문제 해결

로그 기능 및 모니터링 기능이 오류 없이 사용하도록 설정되어 있지만 모니터링 데이터가 1시간 정도 지나도 나타나지 않는 경우 Log Analytics 문제 해결 도구를 사용할 수 있습니다.

Log Analytics 문제 해결 도구를 사용하는 방법

  1. Log Analytics 에이전트가 설치된 Azure Stack HCI 호스트에서 관리자 권한으로 PowerShell 프롬프트를 엽니다.

  2. 도구가 있는 디렉터리로 이동합니다.

    cd C:\Program Files\Microsoft Monitoring Agent\Agent\Troubleshooter
    
  3. 다음 명령을 사용하여 주 스크립트를 실행합니다.

    .\GetAgentInfo.ps1
    
  4. 문제 해결 시나리오를 선택하라는 메시지가 표시되면 옵션 1을 선택합니다. 에이전트가 데이터를 보고하지 않거나 하트비트 데이터가 누락되었습니다.

  5. 수행하려는 작업을 선택하라는 메시지가 표시됩니다. 옵션 1: 진단 선택

    Troubleshooting tool command line options

  6. 다음 스크린샷에서 강조 표시된 오류가 발생하지만 여전히 모든 Log Analytics 엔드포인트에 연결할 수 있고 방화벽 및 게이트웨이 설정이 올바른 경우 표준 시간대 문제가 발생할 수 있습니다.

    Command prompt showing tool errors

    로컬 시간이 Azure 시간과 다르고 불일치로 인해 작업 영역 키의 유효성을 검사할 수 없기 때문입니다.

    Move to next error

  7. 문제를 해결하려면:

    1. Azure Portal Azure Stack HCI 리소스 페이지로 이동하여 [클러스터 이름] > 확장을 선택합니다. 그런 다음 MicrosoftMonitoringAgent에 대한 확인란을 선택하고 Microsoft Monitoring Agent 확장을 제거합니다.
    2. Azure Stack HCI 호스트 표준 시간대가 올바르고 호스트의 현지 시간이 표준 시간대의 Azure 시간과 동일한지 확인합니다.
      1. Azure Stack HCI 호스트 콘솔에서 옵션 9: Sconfig 메뉴에서 날짜 & 시간을 선택한 다음, 표준 시간대 변경을 선택하고 현지 시간이 올바른지 확인합니다.
      2. Active Directory PDC(기본 도메인 컨트롤러) 표준 시간대를 검토하고 날짜와 시간이 올바른지 확인합니다.
      3. Active Directory PDC가 올바르고 Azure Stack HCI 현지 시간이 여전히 잘못된 경우 Active Directory 도메인 계층 구조가 인식되지 않습니다. 이 경우 iv - vi 아래 단계를 완료합니다. 그렇지 않으면 c단계로 진행합니다.
      4. Azure Stack HCI 호스트에서 옵션 15 를 선택하여 Sconfig 메뉴를 종료합니다. 그런 다음 관리자 w32tm.exe /config /syncfromflags:domhier /update 권한으로 PowerShell에서 다음 명령을 실행합니다. 그러면 명령이 성공적으로 완료되었다는 확인 메시지가 반환되고 시간 설정이 올바릅니다.
      5. 추가로 진단하려면 Azure Stack HCI 호스트 콘솔에서 실행 w32tm /monitor 합니다. 활성 도메인 컨트롤러는 계층 1 서버로 나열되고 다른 모든 도메인 컨트롤러는 계층 2로 나열되어야 합니다.
      6. 마지막으로 Windows 시간 서비스 및 시간 공급자가 그룹 정책 개체에 구성되어 있지 않은지 확인합니다. 이는 Active Directory 도메인 계층 구조를 방해하기 때문입니다.
    3. Azure Portal Azure Stack HCI 리소스 페이지로 이동하여 Log Analytics 확장을 다시 추가하고 [클러스터 이름] > 개요를 선택한 다음, 기능을 선택하고 Log Analytics 및 모니터링을 구성합니다.
  8. Log Analytics 문제 해결 도구를 다시 실행하면 더 이상 오류가 표시되지 않습니다. 이제 클러스터 노드와 일치하도록 에이전트 관리 아래 Log Analytics 작업 영역에 Windows 에이전트 번호가 증가해야 하며 모니터링 이벤트가 흐르기 시작합니다.

다음 단계