使用 Insights 監視多個 Azure Stack HCI 叢集
適用於:Azure Stack HCI 版本 22H2
本文說明如何使用 Insights 來監視多個 Azure Stack HCI 叢集。 如需單一 Azure Stack HCI 叢集,請參閱 使用深入解析監視 Azure Stack HCI。
重要
如果您在 2023 年 11 月之前註冊了 Azure Stack HCI 叢集並設定 Insights,則某些使用 Azure 監視器代理程式 (AMA) 的功能,例如 Arc for Servers、VM Insights、Defender for Cloud 或 Sentinel 可能無法正確收集記錄和事件數據。 如需疑難解答指引,請參閱 針對在 2023 年 11 月之前註冊的叢集進行疑難解答 一節。
如需權益、必要條件以及如何在每個叢集上啟用 Insights 的資訊,請參閱 權益、 必要條件和 啟用深入解析。
觀看影片以取得快速簡介:
檢視健康情況、效能和使用情況深入解析
深入解析會將其數據儲存在Log Analytics工作區中,其可讓您提供強大的匯總和篩選和分析一段時間的數據趨勢。 Insights 沒有直接成本。 使用者會根據其 Log Analytics 工作區所擷取的資料量和資料保留設定來支付費用。
您可以從 Azure 監視器 > 深入解析中樞 > Azure Stack HCI 存取深入解析。 您會看到下列可在檢視之間切換的索引標籤:新增至監視、叢集健康情況、伺服器、虛擬機器、儲存體。
篩選結果
您可以跨訂用帳戶篩選視覺效果。 您可以根據下列下拉式功能表來篩選結果:
- 時間範圍:此篩選條件可讓您選取趨勢檢視的範圍。 預設值為 [過去24小時]。
- 訂閱:顯示已註冊 Azure Stack HCI 叢集的訂閱。 您可以在此篩選中選取多個訂閱。
- HCI 叢集:列出已在所選時間範圍內啟用記錄和監視功能的已註冊 Azure Stack HCI 叢集。 您可以從此篩選中選取多個叢集。
- 資源群組:此篩選可讓您選取資源群組內的所有叢集。
新增至監視
此功能提供使用者未監視的叢集詳細資料。 若要開始監視叢集,請選取叢集以開啟該叢集,然後選取 [功能 > 深入解析]。 如果您沒有看到叢集,請確定該叢集最近已連線到 Azure。
資料行 | 描述 | 範例 |
---|---|---|
叢集 | 叢集的名稱。 | 27cls1 |
Azure 連線狀態 | HCI 資源狀態。 | 連線 |
作業系統版本 | 作業系統會在伺服器上建置。 | 10.0.20348.10131 |
依預設,格線檢視會顯示前 250 個資料列。 您可以編輯格線資料列來設定值,如下圖所示:
您可以選取 [匯出至 Excel],以匯出 Excel 中的詳細資料,如下圖所示:
Excel 將提供 Azure 線上狀態,如下所示:
- 0:未註冊
- 1:已中斷連線
- 2:最近未使用
- 3:已連線
叢集健康情況
此檢視提供叢集健康情況的概觀。
資料行 | 描述 | 範例 |
---|---|---|
叢集 | 叢集的名稱。 | 27cls1 |
上次更新 | 上次更新伺服器時的時間戳記。 | 4/9/2022, 12:15:42 PM |
狀態 | 提供叢集中伺服器資源的健康情況。 健康情況可以是良好、警告、危急或其他。 | Healthy |
發生錯誤的資源 | 造成錯誤的資源描述。 | 伺服器,StoragePool,子系統 |
伺服器總計 | 叢集中的伺服器數目。 | 4 |
如果您的叢集遺失或顯示為狀態其他,請前往用於叢集的 [Log Analytics 工作區],並確定 [代理程式設定] 正在從 microsoft-windows-health/operational 記錄擷取資料。 此外,請確定叢集最近已連線到 Azure,並確認此活頁簿中未篩選掉該叢集。
伺服器
此檢視提供伺服器健康情況和效能的概觀,以及所選叢集的使用情況。 此檢視使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的伺服器事件識別碼 3000 作為基礎。 您可以進一步展開每個資料列,以查看節點的健全狀態。 您可以與叢集和伺服器資源互動,以瀏覽至各自的資源頁面。
虛擬機器
此檢視會提供所選叢集中所有 VM 的狀態。 此檢視使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的虛擬機器事件識別碼 3003 作為基礎。 您可以進一步展開每個資料列,以檢視叢集中各伺服器的 VM 分配。 您可以與叢集和節點資源互動,以瀏覽至各自的資源頁面。
計量 | 描述 | 範例 |
---|---|---|
叢集 > 伺服器 | 叢集的名稱。 在擴充時,其會顯示叢集內的伺服器。 | Sample-VM-1 |
上次更新 | 上次更新伺服器的日期時間戳記。 | 4/9/2022, 12:24:02 PM |
VM 總數 | 叢集內伺服器節點中的 VM 數目。 | 2 個執行中的 1 個 |
執行中 | 在叢集內的伺服器節點中執行的 VM 數目。 | 2 |
已停止 | 在叢集內的伺服器節點中停止的 VM 數目。 | 3 |
Failed | 叢集中伺服器節點中的 VM 數目失敗。 | 2 |
其他 | 如果 VM 處於下列其中一種狀態 (未知、啟動中、擷取快照中、儲存中、停止中、暫停中、繼續中、已暫停、已擱置),則會被視為「其他」。 | 2 |
儲存體
此檢視會顯示跨受監視叢集的磁碟區、使用量和效能的健康情況。 展開叢集以查看個別磁碟區的狀態。 此檢視使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的磁碟區事件識別碼 3002 作為基礎。 頂端的圖格提供儲存體健康情況的概觀。
計量 | 描述 | 範例 |
---|---|---|
叢集 > 磁碟區 | 叢集的名稱。 在擴充時,其會顯示叢集中的磁碟區。 | AltaylCluster1 > ClusterPerformanceHistory |
上次更新 | 上次更新儲存體的日期時間戳記。 | 4/14/2022, 2:58:55 PM |
磁碟區健康情況 | 磁碟區的狀態。 健康情況可以是良好、警告、危急或其他。 | Healthy |
大小 | 報表週期間的裝置總容量 (位元組)。 | 25B |
使用方式 | 報表期間可用容量的百分比。 | 23.54% |
Iops | 每秒的輸入/輸出作業數。 | 45/s |
趨勢 | IOPS 趨勢。 | |
輸送量 | 應用程式閘道每秒已服務的位元組數目。 | 5B/秒 |
趨勢 (B/s) | 輸送量趨勢。 | |
平均延遲 | 延遲是完成 I/O 要求的平均時間。 | 334 微秒 |
自定義深入解析
由於使用者體驗是以 Azure 監視器活頁簿範本為基礎,因此使用者可以編輯視覺效果和查詢,並將其儲存為自訂的活頁簿。
如果您從 [Azure 監視器] > [深入解析中樞] > [Azure Stack HCI] 中使用視覺效果,請選取 [自訂] > [編輯] > [另存新檔],將已修改版本的複本儲存至自訂活頁簿。
活頁簿會儲存在資源群組中。 具有資源群組存取權的每個人都可以存取自訂活頁簿。
大部分的查詢都是使用 Kusto 查詢語言 (KQL) 來撰寫。 某些查詢是使用 Resource Graph 查詢來撰寫。 如需詳細資訊,請參閱下列文章:
支援
若要開啟 Insights 的支援票證,請使用 [監視 & 管理] 底下的 Azure Stack HCI 服務類型 Insights。
事件記錄通道
深入解析和監視檢視是以 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道為基礎。 啟用監視時,此通道中的資料會儲存至 Log Analytics 工作區。
檢視和變更傾印快取間隔
傾印快取的預設間隔會設定為 3600 秒 (1 小時)。
使用下列 PowerShell Cmdlet 來檢視快取傾印間隔值:
Get-ClusterResource "sddc management" | Get-ClusterParameter
使用下列 Cmdlet 來變更快取傾印的頻率。 如果設定為 0,則會停止發佈事件:
Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>
記錄通道中的 Windows 事件
此通道包含五個事件。 每個事件都有叢集名稱且 Azure Resource Manager 識別碼為 EventData。
事件識別碼 | 事件類型 |
---|---|
3000 | 伺服器 |
3001 | 磁碟機 |
3002 | 磁碟區 |
3003 | 虛擬機器 |
3004 | 叢集 |
伺服器事件 3000 RenderedDescription 資料行值
{
"m_servers":[
{
"m_statusCategory":"Integer",
"m_status":[
"Integer",
"…"
],
"m_id":"String",
"m_name":"String",
"m_totalPhysicalMemoryInBytes":"Integer",
"m_usedPhysicalMemoryInBytes":"Integer",
"m_totalProcessorsUsedPercentage":"Integer",
"m_totalClockSpeedInMHz":"Integer",
"m_uptimeInSeconds":"Integer",
"m_InboundNetworkUsage":"Double (Bits/sec)",
"m_OutboundNetworkUsage":"Double (Bits/sec)",
"m_InboundRdmaUsage":"Double (Bits/sec)",
"m_OutboundRdmaUsage":"Double (Bits/sec)",
"m_site":"String",
"m_location":"String",
"m_vm":{
"m_totalVmsUnknown":"Integer",
"m_totalVmsRunning":"Integer",
"m_totalVmsStopped":"Integer",
"m_totalVmsFailed":"Integer",
"m_totalVmsPaused":"Integer",
"m_totalVmsSuspended":"Integer",
"m_totalVmsStarting":"Integer",
"m_totalVmsSnapshotting":"Integer",
"m_totalVmsSaving":"Integer",
"m_totalVmsStopping":"Integer",
"m_totalVmsPausing":"Integer",
"m_totalVmsResuming":"Integer"
},
"m_osVersion":"String",
"m_buildNumber":"String",
"m_totalPhysicalProcessors":"Integer",
"m_totalLogicalProcessors":"Integer"
},
"…"
],
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
JSON 資訊中的大部分變數都可一目了然。 但是,下表列出的幾個變數有點難以理解。
變數 | 描述 |
---|---|
m_servers | 伺服器節點的陣列。 |
m_statusCategory | 伺服器的健全狀態。 |
m_status | 伺服器狀態。 這是可能包含一個或兩個值的陣列。 第一個值是必要的 (0-4)。 第二個值是選擇性的 (5-9)。 |
m_statusCategory 變數的值如下所示:
值 | 意義 |
---|---|
0 | Healthy |
1 | 警告 |
2 | Unhealthy |
255 | 其他 |
m_status 變數的值如下所示:
值 | 意義 |
---|---|
0 | 上移 |
1 | 向下 |
2 | 維護中 |
3 | 加入 |
4 | 正常 |
5 | 隔離式方案 |
6 | 已隔離 |
7 | 正在清空 |
8 | 清空完成 |
9 | 清空失敗 |
0xffff | Unknown |
磁碟事件 3001 RenderedDescription 資料行值
磁碟事件 3001
{
"m_drives":[
{
"m_uniqueId":"String",
"m_model":"String",
"m_type":"Integer",
"m_canPool":"Boolean",
"m_sizeInBytes":"Integer",
"m_sizeUsedInBytes":"Integer",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
},
"…"
],
"m_correlationId":"String",
"m_isLastElement":"Boolean"
}
磁碟區事件 3002 RenderedDescription 資料行值
磁碟區事件 3002
{
"VolumeList":[
{
"m_Id":"String",
"m_Label":"String",
"m_Path":"String",
"m_StatusCategory":"Integer",
"m_Status":[
"Integer",
"…"
],
"m_Size":"Integer (Bytes)",
"m_SizeUsed":"Integer (Bytes)",
"m_TotalIops":"Double (Count/second)",
"m_TotalThroughput":"Double (Bytes/Second)",
"m_AverageLatency":"Double (Seconds)",
"m_Resiliency":"Integer",
"m_IsDedupEnabled":"Boolean",
"m_FileSystem":"String"
},
"…"
],
"m_Alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
上述 JSON 資訊中的大部分變數都可一目了然。 但是,下表列出的幾個變數有點難以理解。
變數 | 描述 |
---|---|
VolumeList | 磁碟區的陣列。 |
m_StatusCategory | 磁碟區的健全狀態。 |
m_Status | 磁碟區的狀態。 這是可能包含一個或兩個值的陣列。 第一個值是必要的 (0-4)。 第二個值是選擇性的 (5-9)。 |
m_statusCategory 變數的值如下所示:
值 | 意義 |
---|---|
0 | Healthy |
1 | 警告 |
2 | Unhealthy |
255 | 其他 |
m_status 變數的值如下所示:
值 | 意義 |
---|---|
0 | Unknown |
1 | 其他 |
2 | [確定] |
3 | 需要修復 |
4 | 負荷過高 |
5 | 預期性故障 |
6 | 錯誤 |
7 | 無法復原的錯誤 |
8 | 啟動中 |
9 | 停止中 |
10 | 已停止 |
11 | 服務中 |
12 | 無法連線 |
13 | 中斷通訊 |
14 | 已中止 |
15 | 休眠 |
16 | 支援的實體發生錯誤 |
17 | 已完成 |
18 | 電源模式 |
19 | 正在重新放置 |
0xD002 | 向下 |
0xD003 | 需要重新同步 |
虛擬機器事件 3003 RenderedDescription 資料行值
虛擬機器事件 3003
{
"m_totalVmsUnknown":"Integer",
"m_totalVmsRunning":"Integer",
"m_totalVmsStopped":"Integer",
"m_totalVmsFailed":"Integer",
"m_totalVmsPaused":"Integer",
"m_totalVmsSuspended":"Integer",
"m_totalVmsStarting":"Integer",
"m_totalVmsSnapshotting":"Integer",
"m_totalVmsSaving":"Integer",
"m_totalVmsStopping":"Integer",
"m_totalVmsPausing":"Integer",
"m_totalVmsResuming":"Integer",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
叢集事件 3004 RenderedDescription 資料行值
叢集事件 3004
{
"m_cpuUsage":"Double (%)",
"m_totalVolumeIops":"Double",
"m_averageVolumeLatency":"Double (Seconds)",
"m_totalVolumeThroughput":"Double (Bytes/Second)",
"m_totalVolumeSizeInBytes":"Integer",
"m_usedVolumeSizeInBytes":"Integer",
"m_totalMemoryInBytes":"Integer",
"m_usedMemoryInBytes":"Integer",
"m_isStretch":"Boolean",
"m_QuorumType":"String",
"m_QuorumMode":"String",
"m_QuorumState":"String",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
如需所收集資料的詳細資訊,請參閱健全狀況服務錯誤。
後續步驟
如需相關資訊,請參閱: