使用健全狀況服務監視叢集

適用於:Azure Stack HCI 版本 23H2 和 22H2;Windows Server 2022、Windows Server 2019、Windows Server 2016

健全狀況服務 (在 Windows Server 2016 中首次推出) 針對執行「儲存空間直接存取」的叢集,改善日常監視和操作體驗。

必要條件

根據預設,「健全狀況服務」會隨「儲存空間直接存取」一起啟用。 不需要其他動作來設定或啟動它。 若要深入了解「儲存空間直接存取」,請參閱儲存空間直接存取概觀

叢集效能歷程記錄

從「儲存空間直接存取」叢集取得即時效能和容量資訊。 請參閱取得叢集效能歷程記錄

健全狀況服務錯誤

顯示任何目前的錯誤,以輕鬆驗證部署的健康情況。 請參閱檢視健全狀況服務錯誤

健全狀況服務動作

追蹤自主執行的健全狀況服務動作的進度。 請參閱追蹤健全狀況服務動作

自動化

本節說明「健全狀況服務」在磁碟生命週期內自動執行的工作流程。

磁碟生命週期

「健全狀況服務」會自動執行實體磁碟生命週期的大部分階段。 假設您部署的初始階段健康情況都良好,也就表示說所有實體磁碟都正常運作。

淘汰

當實體磁碟已無法再使用時,系統便會將它們淘汰,並且會引發相對應的「錯誤」。 有幾種情況:

  • 媒體故障:實體磁碟確實已故障或損壞,因此必須更換。
  • 遺失通訊:實體磁碟已經超過 15 分鐘失去連線。
  • 沒有回應:實體磁碟在一小時內發生三次以上超過 5.0 秒的延遲。

注意

如果同時失去對多個實體磁碟 (或整個節點或存放裝置機箱) 的連線,健全狀況服務「不會」淘汰這些磁碟,因為它們是根本問題的可能性較低。

如果被淘汰的磁碟曾作為其他多個實體磁碟的快取,且有其他可用的快取磁碟,系統將會自動重新指派一個給它們。 使用者不需要採取特別的動作。

還原復原能力

實體磁碟一旦被淘汰,「健全狀況服務」會立即開始將其資料複製到其餘的實體磁碟,以還原完整復原能力。 一旦完成,資料便完全安全,容錯也重新開始。

注意

此立即還原需要其餘的實體磁碟有足夠的可用空間。

讓指示燈閃爍

可能的話,「健全狀況服務」會讓已淘汰的實體磁碟或其插槽上的指示燈開始閃爍。 指示燈會無限期持續閃爍,直到更換淘汰的磁碟。

注意

某些情況下,磁碟故障的方式可能使其指示燈也無法運作 - 例如,完全失去電源。

實體磁碟更換

若情況允許,您應該更換淘汰的實體磁碟。 這通常包括熱交換,也就是不需要關閉節點或存放裝置機箱的電源。 請參閱「錯誤」以取得很有用的位置和組件資訊。

驗證

插入替換磁碟時,將會根據支援的元件文件經過驗證 (請參閱下一節)。

Pooling

若情況允許,取代用磁碟會自動取代到其前身的集區中以開始使用。 此時,系統會回到其良好健康情況的初始狀態,然後「錯誤」會消失。

支援的元件文件

健全狀況服務提供強制機制,依據管理員或解決方案廠商隨附的「支援的元件文件」,限定「儲存空間直接存取」使用的元件。 這可以防止您或其他人誤用不支援的硬體,這有助於符合保固或支援合約的規定。 此功能性目前僅限於實體磁碟裝置,包括 SSD、HDD 和 NVMe 磁碟機。 「支援的元件文件」可能限定型號、製造商 (選用) 和韌體版本 (選用)。

使用方式

「支援的元件文件」採用基於 XML 的語法。 建議使用您慣用的文字編輯器 (例如免費的 Visual Studio Code 或記事本) 建立 XML 文件,並儲存起來重複使用。

區段

此文件有兩個獨立段落:DisksCache

如果提供 Disks 段落,則只允許列出 (為 Disk) 的磁碟機加入集區。 任何未列出的磁碟機都無法加入集區,實際上就是禁用於生產環境。 如果此段落保持空白,則允許任何磁碟機加入集區。

如果提供 Cache 段落,則只有列出 (為 CacheDisk) 的磁碟機才能用於快取。 如果此段落保持空白,「儲存空間直接存取」會嘗試根據媒體類型和匯流排類型來猜測。 此處所列的磁碟機也應列在 Disks 中。

重要

「支援的元件文件」不溯及已加入集區和使用中的磁碟機。

範例

<Components>

  <Disks>
    <Disk>
      <Manufacturer>Contoso</Manufacturer>
      <Model>XYZ9000</Model>
      <AllowedFirmware>
        <Version>2.0</Version>
        <Version>2.1</Version>
        <Version>2.2</Version>
      </AllowedFirmware>
      <TargetFirmware>
        <Version>2.1</Version>
        <BinaryPath>C:\ClusterStorage\path\to\image.bin</BinaryPath>
      </TargetFirmware>
    </Disk>
    <Disk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </Disk>
  </Disks>

  <Cache>
    <CacheDisk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </CacheDisk>
  </Cache>

</Components>

若要列出多個磁碟機,只要加上額外的 <Disk><CacheDisk> 標記即可。

若要在部署「儲存空間直接存取」時插入此 XML,請使用 -XML 參數:

$MyXML = Get-Content <Filepath> | Out-String
Enable-ClusterS2D -XML $MyXML

若要在部署「儲存空間直接存取」之後設定或修改「支援的元件文件」:

$MyXML = Get-Content <Filepath> | Out-String
Get-StorageSubSystem Cluster* | Set-StorageHealthSetting -Name "System.Storage.SupportedComponents.Document" -Value $MyXML

注意

型號、製造商,和韌體版本屬性應與您使用 Get-PhysicalDisk Cmdlet 所取得的值完全相符。 視您廠商的實作而定,這可能會與您一般預期的有所不同。 例如,製造商可能是 "CONTOSO-LTD",而,不是 "Contoso",或者當型號是 "Contoso-XZY9000" 時,製造商可能會是空白。

您可以使用以下 PowerShell Cmdlet 來驗證:

Get-PhysicalDisk | Select Model, Manufacturer, FirmwareVersion

健全狀況服務設定

修改健全狀況服務設定來微調錯誤或動作的強度、開啟或關閉某些行為等等。 請參閱修改健全狀況服務設定

其他參考