Insights를 사용하여 여러 Azure Stack HCI, 버전 23H2 클러스터 모니터링

아티클
07/31/2024

적용 대상: Azure Stack HCI, 버전 23H2

이 문서에서는 Insights를 사용하여 여러 Azure Stack HCI 클러스터를 모니터링하는 방법을 설명합니다. 단일 Azure Stack HCI 클러스터는 Insights를 사용하여 Azure Stack HCI 모니터링을 참조 하세요.

이점, 필수 구성 요소 및 각 클러스터에서 Insights를 사용하도록 설정하는 방법에 대한 자세한 내용은 혜택, 필수 구성 요소 및 인사이트 사용을 참조하세요.

Insights를 사용하여 여러 클러스터를 모니터링하려면 각 클러스터에서 개별적으로 Insights를 사용하도록 설정해야 합니다. 대신 Azure 정책을 사용하여 대규모로 Insights를 사용하도록 설정할 수 있습니다. 자세한 내용은 Azure 정책을 사용하여 대규모로 Azure Stack HCI에 대한 인사이트 사용을 참조하세요.

비디오를 통해 빠른 소개를 확인하세요.

상태, 성능 및 사용 현황 인사이트 보기

Insights는 Log Analytics 작업 영역에 데이터를 저장하므로 시간이 지남에 따라 강력한 집계 및 필터링을 제공하고 데이터 추세를 분석할 수 있습니다. Insights에 대한 직접적인 비용은 없습니다. 사용자는 수집된 데이터의 양과 Log Analytics 작업 영역의 데이터 보존 설정에 따라 요금이 청구됩니다.

Azure Monitor>Insights Azure Stack HCI에서 Insights>에 액세스할 수 있습니다. 다음 탭을 사용하여 보기 간을 전환합니다. 모니터링, 클러스터 상태, 서버, 가상 머신 및 스토리지에 추가합니다.

결과 필터링

시각화는 구독 간에 필터링할 수 있습니다. 다음 드롭다운 메뉴에 따라 결과를 필터링할 수 있습니다.

시간 범위: 이 필터를 사용하면 추세 보기의 범위를 선택할 수 있습니다. 기본값은 지난 24시간입니다.
구독: Azure Stack HCI 클러스터를 등록한 구독을 표시합니다. 이 필터에서 여러 구독을 선택할 수 있습니다.
HCI 클러스터: 선택한 시간 범위에서 로그 및 모니터링 기능을 사용하도록 설정된 등록된 Azure Stack HCI 클러스터를 나열합니다. 이 필터에서 여러 클러스터를 선택할 수 있습니다.
리소스 그룹: 이 필터를 사용하면 리소스 그룹 내의 모든 클러스터를 선택할 수 있습니다.

모니터링에 추가

이 기능은 사용자가 모니터링하지 않는 클러스터의 세부 정보를 제공합니다. 클러스터 모니터링을 시작하려면 클러스터를 선택하여 해당 클러스터를 연 다음 Capabilities > Insights를 선택합니다. 클러스터가 표시되지 않으면 최근에 Azure에 연결되었는지 확인합니다.

열	설명	예시
클러스터	클러스터의 이름입니다.	27cls1
Azure 연결 상태	HCI 리소스 상태입니다.	연결됨
OS 버전	서버의 운영 체제 빌드입니다.	10.0.20348.10131

기본적으로 그리드 보기에는 처음 250개의 행이 표시됩니다. 다음 이미지와 같이 표 행을 편집하여 값을 설정할 수 있습니다.

다음 이미지와 같이 Excel로 내보내기를 선택하여 Excel 에서 세부 정보를 내보낼 수 있습니다.

Excel은 다음과 같이 Azure 연결 상태를 제공합니다.

0: 등록되지 않음
1: 연결 끊김
2: 최근이 아님
3: 연결됨

클러스터 상태

이 보기는 클러스터의 상태에 대한 개요를 제공합니다.

열	설명	예시
클러스터	클러스터의 이름입니다.	27cls1
마지막으로 업데이트한 날짜	서버가 마지막으로 업데이트된 시기의 타임스탬프입니다.	4/9/2022, 12:15:42 오후
상태	클러스터의 서버 리소스 상태를 제공합니다. 정상, 경고, 위험 또는 기타일 수 있습니다.	정상
오류 리소스	오류를 발생시킨 리소스에 대한 설명입니다.	Server, StoragePool, 하위 시스템
총 서버 수	클러스터 내의 서버 수입니다.	4

클러스터가 누락되었거나 기타 상태를 표시하는 경우 클러스터에 사용되는 Log Analytics 작업 영역으로 이동하여 에이전트 구성이 microsoft-windows-health/operational 로그에서 데이터를 캡처하는지 확인합니다. 또한 클러스터가 최근에 Azure에 연결되었는지 확인하고 클러스터가 이 통합 문서에서 필터링되지 않았는지 확인합니다.

서버

이 보기는 서버 상태 및 성능 및 선택한 클러스터의 사용에 대한 개요를 제공합니다. 이 보기는 Microsoft-Windows-SDDC-Management/Operational Windows 이벤트 로그 채널의 서버 이벤트 ID 3000을 사용하여 빌드됩니다. 각 행을 더 확장하여 노드 상태를 확인할 수 있습니다. 클러스터 및 서버 리소스와 상호 작용하여 해당 리소스 페이지로 이동할 수 있습니다.

가상 머신

이 보기는 선택한 클러스터에 있는 모든 VM의 상태를 제공합니다. 이 보기는 Microsoft-Windows-SDDC-Management/Operational Windows 이벤트 로그 채널의 가상 머신 이벤트 ID 3003을 사용하여 빌드됩니다. 각 행을 더 확장하여 클러스터의 서버 간에 VM의 배포를 볼 수 있습니다. 클러스터 및 노드 리소스와 상호 작용하여 해당 리소스 페이지로 이동할 수 있습니다.

메트릭	설명	예시
클러스터 > 서버	클러스터의 이름입니다. 확장할 때 클러스터 내의 서버를 표시합니다.	Sample-VM-1
마지막 업데이트 날짜	서버가 마지막으로 업데이트된 시점의 datetimestamp입니다.	4/9/2022, 12:24:02 오후
총 VM 수	클러스터 내의 서버 노드에 있는 VM 수입니다.	2개 중 1개 실행 중
실행 중	클러스터 내의 서버 노드에서 실행되는 VM의 수입니다.	2
Stopped	클러스터 내의 서버 노드에서 중지된 VM의 수입니다.	3
실패함	클러스터 내의 서버 노드에서 실패한 VM 수입니다.	2
기타	VM이 다음 상태(알 수 없음, 시작, 스냅샷, 저장, 중지, 일시 중지, 다시 시작, 일시 중지됨) 중 하나에 있는 경우 "기타"로 간주됩니다.	2

스토리지

이 보기는 모니터링되는 클러스터에서 볼륨, 사용량 및 성능의 상태를 보여 줍니다. 클러스터를 확장하여 개별 볼륨의 상태를 확인합니다. 이 보기는 Microsoft-Windows-SDDC-Management/Operational Windows 이벤트 로그 채널의 볼륨 이벤트 ID 3002를 사용하여 빌드됩니다. 위쪽의 타일은 스토리지 상태에 대한 개요를 제공합니다.

메트릭	설명	예시
클러스터 > 볼륨	클러스터의 이름입니다. 확장할 때 클러스터 내의 볼륨을 표시합니다.	AltaylCluster1 > ClusterPerformanceHistory
마지막으로 업데이트한 날짜	스토리지가 마지막으로 업데이트된 시점의 datetimestamp입니다.	4/14/2022, 2:58:55 오후
볼륨 상태	볼륨의 상태입니다. 정상, 경고, 위험 또는 기타일 수 있습니다.	정상
크기	보고 기간 동안 디바이스의 총 용량(바이트)입니다.	25B
사용	보고 기간 동안 사용 가능한 용량의 백분율입니다.	23.54%
Iops	초당 입출력 작업 수입니다.	45/s
추세	IOPS 추세입니다.
처리량	Application Gateway에서 제공하는 초당 바이트 수입니다.	5B/s
추세(B/s)	처리량 추세입니다.
평균 대기 시간	대기 시간은 I/O 요청을 완료하는 데 걸리는 평균 시간입니다.	334 μs

인사이트 사용자 지정

사용자 환경은 Azure Monitor 통합 문서 템플릿을 기반으로 하므로 사용자는 시각화 및 쿼리를 편집하고 사용자 지정 통합 문서로 저장할 수 있습니다.

Azure Monitor Insights 허브 > Azure Stack HCI의 시각화를 사용하는 경우 다른 이름으로 저장 편집 > 사용자 지정 > 을 선택하여 수정된 버전의 복사본을 사용자 지정 통합 문서에 저장합니다.>

통합 문서는 리소스 그룹 내에 저장됩니다. 리소스 그룹에 액세스할 수 있는 모든 사용자는 사용자 지정된 통합 문서에 액세스할 수 있습니다.

대부분의 쿼리는 KQL(Kusto 쿼리 언어)을 사용하여 작성됩니다. 일부 쿼리는 Resource Graph 쿼리를 사용하여 작성됩니다. 자세한 내용은 다음 문서를 참조하세요.

지원

Insights에 대한 지원 티켓을 열려면 모니터링 및 관리에서 Azure Stack HCI에 대한 서비스 유형 인사이트를 사용합니다.

이벤트 로그 채널

인사이트 및 모니터링 뷰는 Microsoft-Windows-SDDC-Management/Operational Windows 이벤트 로그 채널을 기반으로 합니다. 모니터링을 사용하면 이 채널의 데이터가 Log Analytics 작업 영역에 저장됩니다.

덤프 캐시 간격 보기 및 변경

캐시를 덤프하는 기본 간격은 3600초(1시간)로 설정됩니다.

다음 PowerShell cmdlet을 사용하여 캐시 덤프 간격 값을 봅니다.

Get-ClusterResource "sddc management" | Get-ClusterParameter

다음 cmdlet을 사용하여 캐시 덤프의 빈도를 변경합니다. 0으로 설정하면 이벤트 게시가 중지됩니다.

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

로그 채널의 Windows 이벤트

이 채널에는 5개의 이벤트가 포함되어 있습니다. 각 이벤트에는 클러스터 이름 및 Azure Resource Manager ID가 EventData로 있습니다.

이벤트 ID	이벤트 유형
3000	서버
3001	드라이브
3002	볼륨
3003	가상 머신
3004	클러스터

서버 이벤트 3000 RenderedDescription 열 값

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

대부분의 변수는 이 JSON 정보에서 설명합니다. 그러나 다음 표에는 이해하기 어려운 몇 가지 변수가 나와 있습니다.

변수	설명
m_servers	서버 노드의 배열입니다.
m_statusCategory	서버의 상태입니다.
m_status	서버의 상태입니다. 하나 또는 두 개의 값을 포함할 수 있는 배열입니다. 첫 번째 값은 필수(0-4)입니다. 두 번째 값은 선택 사항(5-9)입니다.

m_statusCategory 변수의 값은 다음과 같습니다.

값	의미
0	정상
1	Warning
2	비정상
255	기타

m_status 변수의 값은 다음과 같습니다.

값	의미
0	위로
1	아래로
2	유지 관리 중
3	Joining
4	Normal
5	격리
6	격리됨
7	배출
8	드레이닝 완료됨
9	드레이닝 실패
0xffff	Unknown

드라이브 이벤트 3001 RenderedDescription 열 값

드라이브 이벤트 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

볼륨 이벤트 3002 RenderedDescription 열 값

볼륨 이벤트 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

대부분의 변수는 위의 JSON 정보에서 설명합니다. 그러나 아래 표에는 이해하기 어려운 몇 가지 변수가 나와 있습니다.

변수	설명
VolumeList	볼륨의 배열입니다.
m_StatusCategory	볼륨의 상태입니다.
m_Status	볼륨의 상태입니다. 하나 또는 두 개의 값을 포함할 수 있는 배열입니다. 첫 번째 값은 필수(0-4)입니다. 두 번째 값은 선택 사항(5-9)입니다.

m_statusCategory 변수의 값은 다음과 같습니다.

값	의미
0	정상
1	Warning
2	비정상
255	기타

m_status 변수의 값은 다음과 같습니다.

값	의미
0	Unknown
1	기타
2	확인
3	복구 필요
4	스트레스
5	예측 실패
6	Error
7	복구할 수 없는 오류
8	시작 중
9	중지 중
10	Stopped
11	서비스 중
12	연락처 없음
13	연결이 끊어짐
14	중단됨
15	유휴
16	오류의 엔터티 지원
17	Completed
18	전원 모드
19	재배치
0xD002	아래로
0xD003	다시 동기화 필요

가상 머신 이벤트 3003 RenderedDescription 열 값

가상 머신 이벤트 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

클러스터 이벤트 3004 RenderedDescription 열 값

클러스터 이벤트 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

수집되는 데이터에 대한 자세한 내용은 상태 관리 서비스 오류를 참조하세요.

다음 단계

관련 정보는 다음을 참조하세요.

Insights를 사용하여 단일 Azure Stack HCI 클러스터 모니터링

다음을 통해 공유