Azure Stack HCI Insights 사용하여 여러 클러스터 모니터링(미리 보기)

적용 대상: Azure Stack HCI, 버전 21H2

Azure Stack HCI Insights Azure에 연결되고 모니터링에 등록된 등록된 Azure Stack HCI 버전 21H2 클러스터에 대한 상태, 성능 및 사용 인사이트를 제공합니다. 이 문서에서는 이 새로운 Azure Monitor 환경의 이점과 조직의 고유한 요구 사항에 맞게 환경을 수정하고 조정하는 방법을 설명합니다.

Azure Stack HCI Insights Log Analytics 작업 영역에 데이터를 저장하므로 시간이 지남에 따라 강력한 집계 및 필터링을 제공하고 데이터 추세를 분석할 수 있습니다. Azure Stack HCI Insights 직접 비용은 없습니다. 사용자는 수집된 데이터의 양과 Log Analytics 작업 영역의 데이터 보존 설정에 따라 요금이 청구됩니다.

Azure Stack HCI 리소스 페이지에서 단일 클러스터에 대한 모니터링 데이터를 보거나 Azure Monitor를 사용하여 여러 클러스터의 집계된 보기를 볼 수 있습니다.

빠른 소개는 비디오를 시청하세요.

Azure Stack HCI Insights 이점

Azure Stack HCI Insights 세 가지 주요 이점을 제공합니다.

  • Azure에서 관리하고 Azure Portal 액세스하므로 항상 최신 상태이며 데이터베이스 또는 특수 소프트웨어 설정이 필요하지 않습니다.

  • 확장성이 뛰어나며 클러스터, 도메인 또는 물리적 위치에 대한 경계 제한 없이 한 번에 여러 구독에 400개 이상의 클러스터 정보 집합을 로드할 수 있습니다.

  • 고도로 사용자 지정할 수 있습니다. 사용자 환경은 Azure Monitor 통합 문서 템플릿을 기반으로 하여 사용자가 보기 및 쿼리를 변경하고, 사용자 제한에 맞는 임계값을 수정하거나 설정하고, 이러한 사용자 지정을 통합 문서에 저장할 수 있도록 합니다. 그런 다음, 통합 문서의 차트를 Azure 대시보드에 고정할 수 있습니다.

사전 요구 사항

Azure Stack HCI Insights 사용하려면 다음을 완료했는지 확인합니다.

  1. Azure 소유자 또는 사용자 액세스 관리자가 클러스터를 Azure에 등록하도록 하여 클러스터의 모든 서버가 Azure Arc를 사용하도록 설정되도록 합니다. 이를 통해 Azure Monitor는 클러스터뿐만 아니라 노드의 세부 정보도 가져올 수 있습니다. 2021년 6월 15일 이전에 클러스터를 등록한 경우 Arc 사용 서버에 다시 등록해야 합니다.
  2. Log Analytics를 사용하도록 설정 하여 모니터링에 필요한 로그 데이터가 저장되는 Log Analytics 작업 영역에 클러스터를 연결합니다.
  3. azure Monitor가 모니터링에 필요한 이벤트 수집을 시작할 수 있도록 Insights 사용하도록 설정합니다.

상태, 성능 및 사용 현황 인사이트 보기

필수 구성 요소가 충족되면 Azure Monitor > Insights 허브 > Azure Stack HCI에서 Azure Stack HCI Insights 액세스할 수 있습니다. 보기 간에 전환할 탭이 표시됩니다. 모니터링에 추가, 클러스터 상태, 서버, 가상 머신, Storage.

결과 필터링

시각화는 구독 간에 필터링할 수 있습니다. 다음 드롭다운 메뉴에 따라 결과를 필터링할 수 있습니다.

  • 시간 범위: 이 필터를 사용하면 추세 보기의 범위를 선택할 수 있습니다. 기본값은 지난 24시간입니다.
  • 구독: Azure Stack HCI 클러스터를 등록한 구독을 표시합니다. 이 필터에서 여러 구독을 선택할 수 있습니다.
  • HCI 클러스터: 선택한 시간 범위에서 로그 및 모니터링 기능을 사용하도록 설정된 등록된 Azure Stack HCI 클러스터를 나열합니다. 이 필터에서 여러 클러스터를 선택할 수 있습니다.
  • 리소스 그룹: 이 필터를 사용하면 리소스 그룹 내의 모든 클러스터를 선택할 수 있습니다.

모니터링에 추가

이 기능은 사용자가 모니터링하지 않는 클러스터의 세부 정보를 제공합니다. 클러스터 모니터링을 시작하려면 클러스터를 선택하여 해당 클러스터를 연 다음 기능 Insights 선택합니다>. 클러스터가 표시되지 않으면 최근에 Azure에 연결되었는지 확인합니다.

Screenshot for selecting cluster for monitoring.

설명 예제
클러스터 클러스터의 이름입니다. 27cls1
Azure 연결 상태 HCI 리소스 상태입니다. 연결됨
OS 버전 운영 체제는 서버에 빌드됩니다. 10.0.20348.10131

기본적으로 그리드 보기에는 처음 250개의 행이 표시됩니다. 다음 이미지와 같이 표 행을 편집하여 값을 설정할 수 있습니다.

Screenshot showing the screen for setting grid values.

다음 이미지와 같이 Excel 내보내기를 선택하여 Excel 세부 정보를 내보낼 수 있습니다.

Screenshot showing the link for exporting to Excel.

Excel 다음과 같이 Azure 연결 상태를 제공합니다.

  • 0: 등록되지 않음
  • 1: 연결 끊김
  • 2: 최근이 아님
  • 3: 연결됨

클러스터 상태

이 보기는 클러스터의 상태에 대한 개요를 제공합니다.

Screenshot showing cluster health overview information.

설명 예제
클러스터 클러스터의 이름입니다. 27cls1
마지막으로 업데이트한 날짜 서버가 마지막으로 업데이트된 시점의 타임스탬프입니다. 4/9/2022, 12:15:42 오후
상태 클러스터의 서버 리소스 상태를 제공합니다. 정상, 경고, 위험 또는 기타일 수 있습니다. 정상
오류 리소스 오류를 발생시킨 리소스에 대한 설명입니다. 서버, StoragePool, 하위 시스템
총 서버 클러스터 내의 서버 수입니다. 4

클러스터가 없거나 상태가 표시되면 기타 상태인 경우 클러스터에 사용되는 Log Analytics 작업 영역 으로 이동하여 에이전트 구성microsoft-windows-health/operational 로그에서 데이터를 캡처하는지 확인합니다. 또한 클러스터가 최근에 Azure에 연결되었는지 확인하고 클러스터가 이 통합 문서에서 필터링되지 않았는지 확인합니다.

서버

이 보기는 서버 상태 및 성능 및 선택한 클러스터의 사용량에 대한 개요를 제공합니다. 이 보기는 Microsoft-Windows-SDDC-Management/Operational Windows 이벤트 로그 채널의 서버 이벤트 ID 3000을 사용하여 빌드됩니다. 각 행을 더 확장하여 노드 상태를 확인할 수 있습니다. 클러스터 및 서버 리소스와 상호 작용하여 해당 리소스 페이지로 이동할 수 있습니다.

Screenshot showing health of servers.

가상 머신

이 보기는 선택한 클러스터에 있는 모든 VM의 상태를 제공합니다. 이 보기는 Microsoft-Windows-SDDC-Management/Operational Windows 이벤트 로그 채널의 가상 머신 이벤트 ID 3003을 사용하여 빌드됩니다. 각 행을 추가로 확장하여 클러스터의 서버 간에 VM의 배포를 볼 수 있습니다. 클러스터 및 노드 리소스와 상호 작용하여 해당 리소스 페이지로 이동할 수 있습니다.

Screenshot showing health of virtual machines.

메트릭 설명 예제
클러스터 > 서버 클러스터의 이름입니다. 확장할 때 클러스터 내의 서버가 표시됩니다. Sample-VM-1
마지막 업데이트 날짜 서버가 마지막으로 업데이트된 시점의 datetimestamp입니다. 4/9/2022, 12:24:02 오후
총 VM 수 클러스터 내의 서버 노드에 있는 VM 수입니다. 실행 중인 2개 중 1개
실행 중 클러스터 내의 서버 노드에서 실행되는 VM 수입니다. 2
중지됨 클러스터 내의 서버 노드에서 중지된 VM 수입니다. 3
실패 클러스터 내의 서버 노드에서 실패한 VM 수입니다. 2
기타 VM이 다음 상태(알 수 없음, 시작, 스냅샷, 저장, 중지, 일시 중지, 다시 시작, 일시 중지됨) 중 하나에 있는 경우 "기타"로 간주됩니다. 2

Storage

이 보기는 모니터링되는 클러스터에서 볼륨, 사용량 및 성능의 상태를 보여 줍니다. 클러스터를 확장하여 개별 볼륨의 상태를 확인합니다. 이 보기는 Microsoft-Windows-SDDC-Management/Operational Windows 이벤트 로그 채널의 볼륨 이벤트 ID 3002를 사용하여 빌드됩니다. 위쪽의 타일은 스토리지 상태에 대한 개요를 제공합니다.

Screenshot showing health of storage volumes.

메트릭 설명 예제
클러스터 > 볼륨 클러스터의 이름입니다. 확장할 때 클러스터 내의 볼륨을 표시합니다. AltaylCluster1 > ClusterPerformanceHistory
마지막으로 업데이트한 날짜 스토리지가 마지막으로 업데이트된 시점의 datetimestamp입니다. 4/14/2022, 2:58:55 오후
볼륨 상태 볼륨의 상태입니다. 정상, 경고, 위험 또는 기타일 수 있습니다. 정상
크기 보고 기간 동안 디바이스의 총 용량(바이트). 25B
사용량 보고 기간 동안 사용 가능한 용량의 백분율입니다. 23.54%
Iops 초당 입출력 작업 수입니다. 45/s
추세 IOPS 추세입니다.
처리량 Application Gateway에서 제공하는 초당 바이트 수입니다. 5B/s
추세(B/s) 처리량 추세입니다.
평균 대기 시간 대기 시간은 I/O 요청을 완료하는 데 걸리는 평균 시간입니다. 334 μs

Azure Stack HCI Insights 사용자 지정

사용자 환경은 Azure Monitor 통합 문서 템플릿을 기반으로 하므로 사용자는 시각화 및 쿼리를 편집하고 사용자 지정 통합 문서로 저장할 수 있습니다.

Azure Monitor > Insights 허브 > Azure Stack HCI의 시각화를 사용하는 경우 다른 이름으로 저장 편집 > 사용자 지정 > 을 선택하여 수정된 버전의 복사본을 사용자 지정 통합 문서에 저장합니다.

Workbooks 리소스 그룹 내에 저장됩니다. 리소스 그룹에 액세스할 수 있는 모든 사용자는 사용자 지정된 통합 문서에 액세스할 수 있습니다.

대부분의 쿼리는 Kusto 쿼리 언어(KQL)를 사용하여 작성됩니다. 일부 쿼리는 Resource Graph 쿼리를 사용하여 작성됩니다. 자세한 내용은 다음 항목을 참조하세요.

지원

Azure Stack HCI Insights 대한 지원 티켓을 열려면 모니터링 &관리에서 Azure Stack HCI에 대한 서비스 유형 Insights 사용합니다.

이벤트 로그 채널

Azure Stack HCI 인사이트 및 모니터링 보기는 Microsoft-Windows-SDDC-Management/Operational Windows 이벤트 로그 채널을 기반으로 합니다. 모니터링을 사용하면 이 채널의 데이터가 Log Analytics 작업 영역에 저장됩니다.

덤프 캐시 간격 보기 및 변경

캐시를 덤프하는 기본 간격은 3600초(1시간)로 설정됩니다.

캐시 덤프 간격 값을 보려면 다음 PowerShell cmdlet을 사용합니다.

Get-ClusterResource "sddc management" | Get-ClusterParameter

다음 cmdlet을 사용하여 캐시 덤프의 빈도를 변경합니다. 0으로 설정하면 이벤트 게시가 중지됩니다.

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

로그 채널에서 이벤트 Windows

이 채널에는 5개의 이벤트가 포함되어 있습니다. 각 이벤트에는 클러스터 이름 및 Azure Resource Manager ID가 EventData로 있습니다.

이벤트 ID 이벤트 유형
3000 서버
3001 드라이브
3002 볼륨
3003 가상 머신
3004 클러스터

서버 이벤트 3000 RenderedDescription 열 값

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

대부분의 변수는 이 JSON 정보에서 설명합니다. 그러나 아래 표에는 이해하기 어려운 몇 가지 변수가 나와 있습니다.

변수 설명
m_servers 서버 노드의 배열입니다.
m_statusCategory 서버의 상태입니다.
m_status 서버의 상태입니다. 하나 또는 두 개의 값을 포함할 수 있는 배열입니다. 첫 번째 값은 필수(0-4)입니다. 두 번째 값은 선택 사항입니다(5-9).

m_statusCategory 변수의 값은 다음과 같습니다.

의미
0 정상
1 경고
2 비정상
255 기타

m_status 변수의 값은 다음과 같습니다.

의미
0 위로
1 아래로
2 유지 관리 중
3 조인
4 보통
5 격리
6 격리됨
7 배출
8 드레이닝 완료됨
9 드레이닝 실패
0xffff Unknown

드라이브 이벤트 3001 RenderedDescription 열 값

드라이브 이벤트 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

볼륨 이벤트 3002 RenderedDescription 열 값

볼륨 이벤트 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

대부분의 변수는 위의 JSON 정보에서 설명합니다. 그러나 아래 표에는 이해하기 어려운 몇 가지 변수가 나와 있습니다.

변수 설명
VolumeList 볼륨 배열입니다.
m_StatusCategory 볼륨의 상태입니다.
m_Status 볼륨의 상태입니다. 하나 또는 두 개의 값을 포함할 수 있는 배열입니다. 첫 번째 값은 필수(0-4)입니다. 두 번째 값은 선택 사항입니다(5-9).

m_statusCategory 변수의 값은 다음과 같습니다.

의미
0 정상
1 경고
2 비정상
255 기타

m_status 변수의 값은 다음과 같습니다.

의미
0 Unknown
1 기타
2 확인
3 복구 필요
4 스트레스
5 예측 실패
6 오류
7 복구할 수 없는 오류
8 시작 중
9 중지 중
10 중지됨
11 서비스 중
12 연락처 없음
13 통신 손실
14 중단됨
15 휴면
16 오류의 엔터티 지원
17 Completed
18 전원 모드
19 재배치
0xD002 아래로
0xD003 다시 동기화 필요

가상 머신 이벤트 3003 RenderedDescription 열 값

가상 머신 이벤트 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

클러스터 이벤트 3004 RenderedDescription 열 값

클러스터 이벤트 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

수집되는 데이터에 대한 자세한 내용은 상태 관리 서비스 오류를 참조하세요.

다음 단계

관련 정보는 다음을 참조하세요.