使用 Insights 監視多個 Azure Stack HCI 叢集

適用於:Azure Stack HCI 版本 22H2

本文說明如何使用 Insights 來監視多個 Azure Stack HCI 叢集。 如需單一 Azure Stack HCI 叢集,請參閱 使用深入解析監視 Azure Stack HCI

重要

如果您在 2023 年 11 月之前註冊了 Azure Stack HCI 叢集並設定 Insights,則某些使用 Azure 監視器代理程式 (AMA) 的功能,例如 Arc for Servers、VM Insights、Defender for Cloud 或 Sentinel 可能無法正確收集記錄和事件數據。 如需疑難解答指引,請參閱 針對在 2023 年 11 月之前註冊的叢集進行疑難解答 一節。

如需權益、必要條件以及如何在每個叢集上啟用 Insights 的資訊,請參閱 權益必要條件啟用深入解析

觀看影片以取得快速簡介:

檢視健康情況、效能和使用情況深入解析

深入解析會將其數據儲存在Log Analytics工作區中,其可讓您提供強大的匯總和篩選和分析一段時間的數據趨勢。 Insights 沒有直接成本。 使用者會根據其 Log Analytics 工作區所擷取的資料量和資料保留設定來支付費用。

您可以從 Azure 監視器 > 深入解析中樞 > Azure Stack HCI 存取深入解析。 您會看到下列可在檢視之間切換的索引標籤:新增至監視、叢集健康情況、伺服器、虛擬機器、儲存體

篩選結果

您可以跨訂用帳戶篩選視覺效果。 您可以根據下列下拉式功能表來篩選結果:

  • 時間範圍:此篩選條件可讓您選取趨勢檢視的範圍。 預設值為 [過去24小時]。
  • 訂閱:顯示已註冊 Azure Stack HCI 叢集的訂閱。 您可以在此篩選中選取多個訂閱。
  • HCI 叢集:列出已在所選時間範圍內啟用記錄和監視功能的已註冊 Azure Stack HCI 叢集。 您可以從此篩選中選取多個叢集。
  • 資源群組:此篩選可讓您選取資源群組內的所有叢集。

新增至監視

此功能提供使用者未監視的叢集詳細資料。 若要開始監視叢集,請選取叢集以開啟該叢集,然後選取 [功能 > 深入解析]。 如果您沒有看到叢集,請確定該叢集最近已連線到 Azure。

選取叢集以進行監視的螢幕快照。

資料行 描述 範例
叢集 叢集的名稱。 27cls1
Azure 連線狀態 HCI 資源狀態。 連線
作業系統版本 作業系統會在伺服器上建置。 10.0.20348.10131

依預設,格線檢視會顯示前 250 個資料列。 您可以編輯格線資料列來設定值,如下圖所示:

顯示設定方格值的畫面螢幕快照。

您可以選取 [匯出至 Excel],以匯出 Excel 中的詳細資料,如下圖所示:

顯示匯出至 Excel 之連結的螢幕快照。

Excel 將提供 Azure 線上狀態,如下所示:

  • 0:未註冊
  • 1:已中斷連線
  • 2:最近未使用
  • 3:已連線

叢集健康情況

此檢視提供叢集健康情況的概觀。

顯示叢集健康情況概觀信息的螢幕快照。

資料行 描述 範例
叢集 叢集的名稱。 27cls1
上次更新 上次更新伺服器時的時間戳記。 4/9/2022, 12:15:42 PM
狀態 提供叢集中伺服器資源的健康情況。 健康情況可以是良好、警告、危急或其他。 Healthy
發生錯誤的資源 造成錯誤的資源描述。 伺服器,StoragePool,子系統
伺服器總計 叢集中的伺服器數目。 4

如果您的叢集遺失或顯示為狀態其他,請前往用於叢集的 [Log Analytics 工作區],並確定 [代理程式設定] 正在從 microsoft-windows-health/operational 記錄擷取資料。 此外,請確定叢集最近已連線到 Azure,並確認此活頁簿中未篩選掉該叢集。

伺服器

此檢視提供伺服器健康情況和效能的概觀,以及所選叢集的使用情況。 此檢視使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的伺服器事件識別碼 3000 作為基礎。 您可以進一步展開每個資料列,以查看節點的健全狀態。 您可以與叢集和伺服器資源互動,以瀏覽至各自的資源頁面。

顯示伺服器健康情況的螢幕快照。

虛擬機器

此檢視會提供所選叢集中所有 VM 的狀態。 此檢視使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的虛擬機器事件識別碼 3003 作為基礎。 您可以進一步展開每個資料列,以檢視叢集中各伺服器的 VM 分配。 您可以與叢集和節點資源互動,以瀏覽至各自的資源頁面。

顯示虛擬機健康情況的螢幕快照。

計量 描述 範例
叢集 > 伺服器 叢集的名稱。 在擴充時,其會顯示叢集內的伺服器。 Sample-VM-1
上次更新 上次更新伺服器的日期時間戳記。 4/9/2022, 12:24:02 PM
VM 總數 叢集內伺服器節點中的 VM 數目。 2 個執行中的 1 個
執行中 在叢集內的伺服器節點中執行的 VM 數目。 2
已停止 在叢集內的伺服器節點中停止的 VM 數目。 3
Failed 叢集中伺服器節點中的 VM 數目失敗。 2
其他 如果 VM 處於下列其中一種狀態 (未知、啟動中、擷取快照中、儲存中、停止中、暫停中、繼續中、已暫停、已擱置),則會被視為「其他」。 2

儲存體

此檢視會顯示跨受監視叢集的磁碟區、使用量和效能的健康情況。 展開叢集以查看個別磁碟區的狀態。 此檢視使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的磁碟區事件識別碼 3002 作為基礎。 頂端的圖格提供儲存體健康情況的概觀。

顯示記憶體磁碟區健康情況的螢幕快照。

計量 描述 範例
叢集 > 磁碟區 叢集的名稱。 在擴充時,其會顯示叢集中的磁碟區。 AltaylCluster1 > ClusterPerformanceHistory
上次更新 上次更新儲存體的日期時間戳記。 4/14/2022, 2:58:55 PM
磁碟區健康情況 磁碟區的狀態。 健康情況可以是良好、警告、危急或其他。 Healthy
大小 報表週期間的裝置總容量 (位元組)。 25B
使用方式 報表期間可用容量的百分比。 23.54%
Iops 每秒的輸入/輸出作業數。 45/s
趨勢 IOPS 趨勢。
輸送量 應用程式閘道每秒已服務的位元組數目。 5B/秒
趨勢 (B/s) 輸送量趨勢。
平均延遲 延遲是完成 I/O 要求的平均時間。 334 微秒

自定義深入解析

由於使用者體驗是以 Azure 監視器活頁簿範本為基礎,因此使用者可以編輯視覺效果和查詢,並將其儲存為自訂的活頁簿。

如果您從 [Azure 監視器] > [深入解析中樞] > [Azure Stack HCI] 中使用視覺效果,請選取 [自訂] > [編輯] > [另存新檔],將已修改版本的複本儲存至自訂活頁簿。

活頁簿會儲存在資源群組中。 具有資源群組存取權的每個人都可以存取自訂活頁簿。

大部分的查詢都是使用 Kusto 查詢語言 (KQL) 來撰寫。 某些查詢是使用 Resource Graph 查詢來撰寫。 如需詳細資訊,請參閱下列文章:

支援

若要開啟 Insights 的支援票證,請使用 [監視 & 管理] 底下的 Azure Stack HCI 服務類型 Insights

事件記錄通道

深入解析和監視檢視是以 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道為基礎。 啟用監視時,此通道中的資料會儲存至 Log Analytics 工作區。

檢視和變更傾印快取間隔

傾印快取的預設間隔會設定為 3600 秒 (1 小時)。

使用下列 PowerShell Cmdlet 來檢視快取傾印間隔值:

Get-ClusterResource "sddc management" | Get-ClusterParameter

使用下列 Cmdlet 來變更快取傾印的頻率。 如果設定為 0,則會停止發佈事件:

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

記錄通道中的 Windows 事件

此通道包含五個事件。 每個事件都有叢集名稱且 Azure Resource Manager 識別碼為 EventData。

事件識別碼 事件類型
3000 伺服器
3001 磁碟機
3002 磁碟區
3003 虛擬機器
3004 叢集

伺服器事件 3000 RenderedDescription 資料行值

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

JSON 資訊中的大部分變數都可一目了然。 但是,下表列出的幾個變數有點難以理解。

變數 描述
m_servers 伺服器節點的陣列。
m_statusCategory 伺服器的健全狀態。
m_status 伺服器狀態。 這是可能包含一個或兩個值的陣列。 第一個值是必要的 (0-4)。 第二個值是選擇性的 (5-9)。

m_statusCategory 變數的值如下所示:

意義
0 Healthy
1 警告
2 Unhealthy
255 其他

m_status 變數的值如下所示:

意義
0 上移
1 向下
2 維護中
3 加入
4 正常
5 隔離式方案
6 已隔離
7 正在清空
8 清空完成
9 清空失敗
0xffff Unknown

磁碟事件 3001 RenderedDescription 資料行值

磁碟事件 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

磁碟區事件 3002 RenderedDescription 資料行值

磁碟區事件 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

上述 JSON 資訊中的大部分變數都可一目了然。 但是,下表列出的幾個變數有點難以理解。

變數 描述
VolumeList 磁碟區的陣列。
m_StatusCategory 磁碟區的健全狀態。
m_Status 磁碟區的狀態。 這是可能包含一個或兩個值的陣列。 第一個值是必要的 (0-4)。 第二個值是選擇性的 (5-9)。

m_statusCategory 變數的值如下所示:

意義
0 Healthy
1 警告
2 Unhealthy
255 其他

m_status 變數的值如下所示:

意義
0 Unknown
1 其他
2 [確定]
3 需要修復
4 負荷過高
5 預期性故障
6 錯誤
7 無法復原的錯誤
8 啟動中
9 停止中
10 已停止
11 服務中
12 無法連線
13 中斷通訊
14 已中止
15 休眠
16 支援的實體發生錯誤
17 已完成
18 電源模式
19 正在重新放置
0xD002 向下
0xD003 需要重新同步

虛擬機器事件 3003 RenderedDescription 資料行值

虛擬機器事件 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

叢集事件 3004 RenderedDescription 資料行值

叢集事件 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

如需所收集資料的詳細資訊,請參閱健全狀況服務錯誤

後續步驟

如需相關資訊,請參閱: