共用方式為


使用 Insights 監視多個 Azure Stack HCI 23H2 版叢集

適用於:Azure Stack HCI 版本 23H2

本文說明如何使用 Insights 來監視多個 Azure Stack HCI 叢集。 如需單一 Azure Stack HCI 叢集,請參閱 使用深入解析監視 Azure Stack HCI。

如需優點、必要條件以及如何在每個叢集上啟用深入解析的資訊,請參閱 權益必要條件啟用深入解析

若要使用 Insights 監視多個叢集,您必須個別在每個叢集上啟用 Insights。 相反地,您可以使用 Azure 原則大規模啟用 Insights。 如需詳細資訊,請參閱 使用 Azure 原則大規模啟用適用於 Azure Stack HCI 的深入解析。

觀看影片以取得快速簡介:

檢視健康情況、效能和使用方式深入解析

Insights 會將其數據儲存在Log Analytics工作區中,讓其能夠提供強大的匯總和篩選,並隨時間分析數據趨勢。 深入解析沒有直接成本。 用戶會根據擷取的數據量和其Log Analytics工作區的數據保留設定來計費。

您可以從 Azure 監視器>深入解析 Azure Stack HCI 存取 Insights。> 使用下列索引標籤來切換檢視: 新增至監視叢集健康情況伺服器虛擬機記憶體

篩選結果

視覺效果可以跨訂用帳戶進行篩選。 您可以根據下列下拉選單來篩選結果:

  • 時間範圍: 此篩選可讓您選取趨勢檢視的範圍。 默認值為 [過去 24 小時]。
  • 訂用帳戶: 顯示已註冊 Azure Stack HCI 叢集的訂用帳戶。 您可以在此篩選條件中選取多個訂用帳戶。
  • HCI 叢集: 列出已在所選時間範圍內啟用記錄和監視功能的已註冊 Azure Stack HCI 叢集。 您可以從此篩選選取多個叢集。
  • 資源群組: 此篩選可讓您選取資源群組內的所有叢集。

新增至監視

此功能提供使用者未監視的叢集詳細數據。 若要開始監視叢集,請選取它以開啟該叢集,然後選取 [ 功能 > 深入解析]。 如果您沒有看到叢集,請確定它最近已連線到 Azure。

選取要監視之叢集的螢幕快照。

資料行 描述 範例
Cluster 叢集的名稱。 27cls1
Azure 連線狀態 HCI 資源狀態。 Connected
作業系統版本 操作系統會建置在伺服器上。 10.0.20348.10131

根據預設,方格檢視會顯示前250個數據列。 您可以編輯格線資料列來設定值,如下圖所示:

顯示設定方格值的畫面螢幕快照。

您可以選取 [導出至 Excel] 來匯出 Excel 中的詳細數據,如下圖所示:

顯示匯出至 Excel 連結的螢幕快照。

Excel 將提供 Azure 連線狀態,如下所示:

  • 0:未註冊
  • 1:已中斷連線
  • 2:最近沒有
  • 3:已連線

叢集健康情況

此檢視提供叢集健康情況的概觀。

顯示叢集健康情況概觀信息的螢幕快照。

資料行 描述 範例
Cluster 叢集的名稱。 27cls1
上次更新 上次更新伺服器時的時間戳。 2022/4/9,下午 12:15:42
狀態 提供叢集中伺服器資源的健康情況。 它可以是狀況良好、警告、重大或其他。 Healthy
錯誤資源 造成錯誤的資源描述。 伺服器、StoragePool、子系統
伺服器總數 叢集中的伺服器數目。 4

如果您的叢集遺失或顯示 [其他] 狀態,請移至用於叢集的Log Analytics工作區,並確定Agent組態是從 microsoft-windows-health/operational 記錄擷取數據。 此外,請確定叢集最近已連線到 Azure,並檢查此活頁簿中未篩選出叢集。

伺服器

此檢視提供伺服器健康情況和效能的概觀,以及所選叢集的使用方式。 此檢視是使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的伺服器事件標識碼 3000 來建置。 每個數據列都可以進一步展開,以查看節點健全狀況狀態。 您可以與叢集和伺服器資源互動,以流覽至個別的資源頁面。

顯示伺服器健康情況的螢幕快照。

虛擬機器

此檢視提供所選叢集中所有 VM 的狀態。 此檢視是使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的虛擬機事件標識碼 3003 所建置。 您可以進一步擴充每個數據列,以檢視叢集中伺服器之間的 VM 分佈。 您可以與叢集和節點資源互動,以流覽至個別的資源頁面。

顯示虛擬機健全狀況的螢幕快照。

計量 描述 範例
叢集 > 伺服器 叢集的名稱。 在擴充時,它會顯示叢集內的伺服器。 Sample-VM-1
上次更新 上次更新伺服器時的 datetimestamp。 2022/4/9,下午 12:24:02
VM 總數 叢集中伺服器節點中的 VM 數目。 2 個執行中的1個
執行中 在叢集內的伺服器節點中執行的 VM 數目。 2
已停止 在叢集內的伺服器節點中停止的 VM 數目。 3
失敗 叢集中伺服器節點中的 VM 數目失敗。 2
其他 如果 VM 處於下列其中一種狀態(未知、啟動、快照集、儲存、停止、暫停、暫停、暫停、已暫停),則會被視為「其他」。 2

儲存體

此檢視會顯示跨受監視叢集的磁碟區、使用量和效能健康情況。 展開叢集以查看個別磁碟區的狀態。 此檢視是使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的磁碟區事件標識碼 3002 所建置。 頂端的圖格提供記憶體健康情況的概觀。

顯示記憶體磁碟區健康情況的螢幕快照。

計量 描述 範例
叢集磁碟區> 叢集的名稱。 在擴充時,它會顯示叢集中的磁碟區。 AltaylCluster1 > ClusterPerformanceHistory
上次更新 上次更新記憶體的 datetimestamp。 2022/4/14,下午 2:58:55
磁碟區健康情況 磁碟區的狀態。 它可以是狀況良好、警告、重大或其他。 Healthy
大小 報告期間裝置的總容量,以位元組為單位。 25B
使用方式 報告期間可用容量的百分比。 23.54%
Iops 每秒的輸入/輸出作業數。 45/秒
趨勢 IOPS 趨勢。
輸送量 應用程式閘道每秒已服務的位元組數目。 5B/秒
趨勢 (B/秒) 輸送量趨勢。
平均延遲 延遲是 I/O 要求完成所需的平均時間。 334 個 334 個

自定義深入解析

由於用戶體驗是以 Azure 監視器活頁簿範本為基礎所建置,因此使用者可以編輯視覺效果和查詢,並將其儲存為自定義活頁簿。

如果您使用 Azure 監視器>深入解析中樞 > Azure Stack HCI 的視覺效果,請選取 [自定義>編輯>另存新檔] 以將修改版本的複本儲存至自定義活頁簿。

活頁簿會儲存在資源群組中。 具有資源群組存取權的每個人都可以存取自定義活頁簿。

大部分的查詢都是使用 Kusto 查詢語言 (KQL) 撰寫的。 某些查詢是使用 Resource Graph 查詢所撰寫。 如需詳細資訊,請參閱下列文章:

支援

若要開啟 Insights 的支援票證,請使用監視與管理下的 Azure Stack HCI 服務類型 Insights。

事件記錄檔通道

深入解析和監視檢視是以 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道為基礎。 啟用監視時,此通道的資料會儲存至 Log Analytics 工作區。

檢視和變更傾印快取間隔

傾印快取的預設間隔會設定為3600秒(1小時)。

使用下列 PowerShell Cmdlet 來檢視快取傾印間隔值:

Get-ClusterResource "sddc management" | Get-ClusterParameter

使用下列 Cmdlet 來變更快取傾印的頻率。 如果設定為 0,則會停止發佈事件:

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

記錄通道中的 Windows 事件

此通道包含五個事件。 每個事件都有叢集名稱和 Azure Resource Manager 識別符作為 EventData。

事件識別碼 事件類型
3000 伺服器
3001 磁碟機
3002 體積
3003 虛擬機器
3004 Cluster

伺服器事件 3000 RenderedDescription 數據行值

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

大部分變數都是此 JSON 資訊的自我說明。 不過,下表列出一些較難理解的變數。

變數 描述
m_servers 伺服器節點的陣列。
m_statusCategory 伺服器的健全狀態。
m_status 伺服器的狀態。 這是一個陣列,可以包含一或兩個值。 第一個值是必要值 (0-4)。 第二個值是選擇性的 (5-9)。

m_statusCategory變數的值如下所示:

意義
0 Healthy
1 警告
2 Unhealthy
255 其他

m_status變數的值如下所示:

意義
0 Up
1 向下
2 在維護中
3 聯結
4 正常
5 隔離式方案
6 已隔離
7 排水
8 清空已完成
9 清空失敗
0xffff Unknown

磁碟驅動器事件 3001 RenderedDescription 數據行值

磁碟驅動器事件 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

Volume 事件 3002 RenderedDescription 數據行值

磁碟區事件 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

大部分變數都是上述 JSON 資訊的自我說明。 不過,下表列出一些較難理解的變數。

變數 描述
VolumeList 磁碟區的陣列。
m_StatusCategory 磁碟區的健全狀態。
m_Status 磁碟區的狀態。 這是一個陣列,可以包含一或兩個值。 第一個值是必要值 (0-4)。 第二個值是選擇性的 (5-9)。

m_statusCategory變數的值如下所示:

意義
0 Healthy
1 警告
2 Unhealthy
255 其他

m_status變數的值如下所示:

意義
0 Unknown
1 其他
2 [確定]
3 需要修復
4 強調
5 預料中的故障
6 錯誤
7 無法復原的錯誤
8 啟動中
9 正在停止
10 已停止
11 服務中
12 沒有聯繫人
13 失去通訊
14 已中止
15 睡眠狀態的
16 支援發生錯誤的實體
17 已完成
18 電源模式
19 搬遷
0xD002 向下
0xD003 需要重新同步

虛擬機事件 3003 RenderedDescription 數據行值

虛擬機事件 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

叢集事件 3004 RenderedDescription 數據行值

叢集事件 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

如需所收集數據的詳細資訊,請參閱 健全狀況服務 錯誤

下一步

如需相關資訊,請參閱: