Health Service를 사용하여 클러스터 모니터링

적용 대상: Azure Stack HCI, 버전 23H2 및 22H2; Windows Server 2022, Windows Server 2019, Windows Server 2016

Windows Server 2016 처음 릴리스된 Health Service는 저장소 공간 다이렉트 실행하는 클러스터에 대한 일상적인 모니터링 및 운영 환경을 개선합니다.

사전 요구 사항

상태 관리 서비스는 스토리지 공간 다이렉트에서 기본적으로 사용됩니다. 설정하거나 시작하기 위해 필요한 추가 작업이 없습니다. 저장소 공간 다이렉트 대한 자세한 내용은 저장소 공간 다이렉트 개요를 참조하세요.

클러스터 성능 기록

저장소 공간 다이렉트 클러스터에서 라이브 성능 및 용량 정보를 가져옵니다. 클러스터 성능 기록 가져오기를 참조하세요.

오류 상태 관리 서비스

현재 오류를 표시하여 배포 상태를 쉽게 확인합니다. 상태 서비스 오류 보기를 참조하세요.

상태 서비스 작업

자율적으로 수행되는 Health Service 작업의 진행률을 추적합니다. 상태 서비스 작업 추적을 참조하세요.

Automation

이 섹션에서는 디스크 수명 주기 동안 상태 관리 서비스에서 자동화되는 워크플로를 설명합니다.

디스크 수명 주기

상태 관리 서비스는 실제 디스크 수명 주기의 대부분의 단계를 자동화합니다. 배포 초기 상태가 완벽한 상태, 즉 모든 실제 디스크가 올바르게 작동하는 중이라고 가정해 봅니다.

사용 중지

더 이상 사용할 수 없고 해당하는 오류가 발생한 경우 실제 디스크가 자동으로 사용 중지됩니다. 몇 가지 사례가 있습니다.

  • 미디어 오류: 실제 디스크가 최종적으로 결함이 있거나 손상된 경우 교체해야 합니다.
  • 연결이 끊어짐: 실제 디스크에서 연속 15분 동안 연결이 끊어진 상태입니다.
  • 응답 없음: 실제 디스크에서 1시간 이내에 5.0초 이상의 대기 시간이 3번 이상 발생한 경우입니다.

참고

여러 실제 디스크에 대한 연결이 한 번에 끊어졌거나 전체 노드 또는 스토리지 엔클로저에 대한 연결이 끊어진 경우 이러한 디스크는 근본 문제가 아니므로 상태 관리 서비스에서 이러한 디스크를 사용 중지하지 않습니다.

사용 중지된 디스크가 다른 여러 실제 디스크의 캐시 역할을 하는 경우 다른 캐시 디스크에 자동으로 다시 할당됩니다(사용 가능한 경우). 사용자 작업이 필요하지 않습니다.

복원력 복원

실제 디스크가 사용 중지되면 상태 관리 서비스에서 즉시 해당 데이터를 나머지 실제 디스크에 복사하거나 전체 복원력을 복원합니다. 이 작업이 완료되면 데이터가 완전히 안전해지고 다시 내결함성이 생깁니다.

참고

이 즉시 복원을 수행하려면 나머지 실제 디스크에 충분한 사용 가능한 용량이 있어야 합니다.

깜박이는 표시등

가능한 경우 상태 관리 서비스는 사용 중지된 실제 디스크 또는 슬롯에서 표시등을 깜박이기 시작합니다. 이는 사용 중지된 디스크가 교체될 때까지 무기한 계속됩니다.

참고

경우에 따라 디스크가 표시등마저 작동하지 못하도록 실패할 수 있습니다(완전한 전원 손실).

물리적 교체

가능한 경우 사용 중지된 실제 디스크를 교체해야 합니다. 대부분의 경우 핫 스왑으로 구성됩니다. 즉, 노드 또는 스토리지 엔클로저의 전원을 끄지 않아도 됩니다. 유용한 위치 및 부품 정보는 오류를 참조하세요.

확인

교체 디스크가 삽입되면 지원되는 구성 요소 문서에 대해 확인됩니다(다음 섹션 참조).

Pooling

허용되는 경우 대체 디스크는 이전 디스크의 풀에 자동으로 대체되므로 바로 사용할 수 있습니다. 이때 시스템은 완전한 상태의 초기 상태로 되돌아가므로 오류가 사라집니다.

지원되는 구성 요소 문서

Health Service는 저장소 공간 다이렉트 사용하는 구성 요소를 관리자 또는 솔루션 공급업체가 제공한 지원되는 구성 요소 문서의 구성 요소로 제한하는 적용 메커니즘을 제공합니다. 이를 통해 사용자 또는 다른 사람이 실수로 지원되지 않는 하드웨어를 사용하는 것을 방지할 수 있으며, 이는 보증 또는 지원 계약을 준수하는 데 도움이 될 수 있습니다. 이 기능은 현재 SSD, HDD 및 NVMe 드라이브를 비롯한 실제 디스크 디바이스로 제한됩니다. 지원되는 구성 요소 문서는 모델, 제조업체(선택 사항) 및 펌웨어 버전(선택 사항)을 제한할 수 있습니다.

사용량

지원되는 구성 요소 문서에서는 XML에서 영감을 받은 구문을 사용합니다. 무료 Visual Studio Code 또는 메모장과 같은 즐겨 찾는 텍스트 편집기를 사용하여 저장하고 다시 사용할 수 있는 XML 문서를 만드는 것이 좋습니다.

섹션

문서에는 두 개의 독립 섹션인 및 CacheDisks 있습니다.

섹션이 Disks 제공된 경우 나열된 드라이브(로 Disk)만 풀에 조인할 수 있습니다. 목록에 없는 드라이브는 풀에 조인할 수 없으므로 프로덕션 환경에서의 사용을 효과적으로 배제할 수 있습니다. 이 섹션을 비워 두면 모든 드라이브가 풀에 조인할 수 있습니다.

섹션이 Cache 제공된 경우 나열된 드라이브(로 CacheDisk)만 캐싱에 사용됩니다. 이 섹션을 비워 두면 저장소 공간 다이렉트 미디어 유형 및 버스 유형에 따라 추측을 시도합니다. 여기에 나열된 드라이브도 에 Disks나열되어야 합니다.

중요

지원되는 구성 요소 문서는 이미 풀되고 사용 중인 드라이브에 소급 적용되지 않습니다.

예제

<Components>

  <Disks>
    <Disk>
      <Manufacturer>Contoso</Manufacturer>
      <Model>XYZ9000</Model>
      <AllowedFirmware>
        <Version>2.0</Version>
        <Version>2.1</Version>
        <Version>2.2</Version>
      </AllowedFirmware>
      <TargetFirmware>
        <Version>2.1</Version>
        <BinaryPath>C:\ClusterStorage\path\to\image.bin</BinaryPath>
      </TargetFirmware>
    </Disk>
    <Disk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </Disk>
  </Disks>

  <Cache>
    <CacheDisk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </CacheDisk>
  </Cache>

</Components>

여러 드라이브를 나열하려면 추가 <Disk> 또는 <CacheDisk> 태그를 추가하기만 하면 됩니다.

저장소 공간 다이렉트 배포할 때 이 XML을 삽입하려면 매개 변수를 -XML 사용합니다.

$MyXML = Get-Content <Filepath> | Out-String
Enable-ClusterS2D -XML $MyXML

저장소 공간 다이렉트 배포된 후 지원되는 구성 요소 문서를 설정하거나 수정하려면 다음을 수행합니다.

$MyXML = Get-Content <Filepath> | Out-String
Get-StorageSubSystem Cluster* | Set-StorageHealthSetting -Name "System.Storage.SupportedComponents.Document" -Value $MyXML

참고

모델, 제조업체 및 펌웨어 버전 속성이 Get-physicaldisk cmdlet을 사용하여 가져온 값과 정확히 일치해야 합니다. 이는 공급업체의 구현에 따라 "상식적인" 예상과 다를 수 있습니다. 예를 들어 제조업체가 "Contoso" 대신 "CONTOSO-LTD"이거나, 모델이 "Contoso XZY9000"인 경우 비어 있을 수 있습니다.

다음 PowerShell cmdlet을 사용하여 확인할 수 있습니다.

Get-PhysicalDisk | Select Model, Manufacturer, FirmwareVersion

상태 서비스 설정

상태 서비스 설정을 수정하여 오류 또는 작업의 공격성을 조정하고, 특정 동작을 켜거나 끄는 등의 작업을 수행합니다. 상태 서비스 설정 수정을 참조하세요.

추가 참조