使用 Insights 監視單一 Azure Stack HCI 叢集
適用於:Azure Stack HCI 版本 22H2
本文說明如何使用 Insights 來監視單一 Azure Stack HCI 叢集。 如需多個 Azure Stack HCI 叢集,請參閱 使用 Insights 監視多個 Azure Stack HCI 叢集。
深入解析是 Azure 監視器的一項功能,可讓您快速開始監視 Azure Stack HCI 叢集。 您可以檢視有關叢集、伺服器、虛擬機和記憶體的重要計量、健康情況和使用方式資訊。
重要
如果您在 2023 年 11 月之前註冊 Azure Stack HCI 叢集並設定深入解析,則某些使用 Azure 監視器代理程式 (AMA) 的功能,例如 Arc for Servers、VM Insights、適用於雲端的 Defender 或 Sentinel 可能無法正確收集記錄和事件數據。 如需疑難解答指引,請參閱 針對 2023 年 11 月之前註冊的叢集進行疑難解答一節。
福利
適用於 Azure Stack HCI 的深入解析提供下列優點:
由 Azure 管理。 深入解析是由 Azure 管理,並透過 Azure 入口網站 進行存取,以確保其一律為最新狀態。 不需要資料庫或特殊軟體設定。
延展性。 深入解析能夠同時跨多個訂用帳戶載入超過 400 個叢集資訊集。 叢集、網域或實體位置沒有任何限制。
可自定義性。 深入解析的體驗是以 Azure 監視器活頁簿範本為基礎所建置。 這可讓您變更檢視和查詢、修改或設定符合特定限制的臨界值,然後將這些自定義儲存到活頁簿中。 然後,您可以將活頁簿中的圖表釘選到 Azure 儀錶板。
設定 Azure Stack HCI 的深入解析
使用 Insights 的必要條件和設定會根據您擁有的 Azure Stack HCI 版本而有所不同。 選取下列其中一個索引標籤,以取得如何在特定版本的 Azure Stack HCI 上使用 Insights 的指示。
Azure Stack HCI 22H2 版和更新版本中的深入解析功能會使用 AMA,相較於 Azure Stack HCI 版本 21H2 和更早版本中使用的舊版Microsoft監視代理程式(MMA),其具有顯著優勢。 這些優點包括提升速度、增強的安全性,以及優越的效能。 您可以將新節點上線至 AMA,或 將現有的節點從舊版代理程式移 轉至 AMA。
建議您將 Azure Stack HCI 系統升級至 22H2 版或更新版本,以利用 AMA 的深入解析體驗。
從 2023 年 5 月 Azure Stack HCI 版本 22H2 累積更新開始,您可以使用適用於 Azure Stack HCI 的深入解析來監視內部部署 Azure Stack HCI 系統。
必要條件
以下是使用 Azure Stack HCI 深入解析的必要條件:
應向已啟用 Azure 和 Arc 的 Azure 註冊 Azure Stack HCI 叢集。 如果您在 2021 年 6 月 15 日或之後註冊叢集,則預設會發生此情況。 否則,您必須啟用 Azure Arc 整合。
叢集必須安裝 Azure Stack HCI 版本 22H2 和 2023 年 5 月累積更新或更新版本。
必須啟用 Azure 資源的受控識別。 如需詳細資訊,請參閱 已啟用增強的管理。
啟用深入解析
啟用 Insights 可藉由提供實用的健康情況計量,協助您監視目前與 Log Analytics 工作區相關聯的所有 Azure Stack HCI 叢集。 Insights 會安裝 Azure 監視器代理程式,並協助您設定 資料收集規則 (DCR) 來監視 Azure Stack HCI 叢集。
若要從 Azure 入口網站 啟用這項功能,請遵循下列步驟:
在 Azure 入口網站 中,流覽至您的 Azure Stack HCI 叢集資源頁面,然後選取您的叢集。 在 [ 功能] 索引標籤下,選取 [深入解析]。
在 [ 深入解析] 頁面上,選取 [開始使用]。
注意
[ 開始使用 ] 按鈕僅適用於已安裝 2023 年 5 月累積更新或更新版本的 Azure Stack HCI 版本 22H2,且只有在已啟用受控識別之後。 否則,會停用此按鈕。
在 [ 深入解析組態 ] 頁面上,從 [數據收集規則 ] 下拉式清單中選取現有的 DCR。 DCR 會指定需要收集的事件記錄和性能計數器,並將其儲存在Log Analytics工作區中。 如果尚未存在,深入解析會建立預設 DCR。 僅包含針對 Insights 啟用的 DCR。
(選擇性)您也可以在 [深入解析] 組態頁面上選取 [新建],以建立新的 DCR。
重要
強烈建議您不要建立自己的 DCR。 Insights 所建立的 DCR 包含其作業所需的特殊數據流。 您可以編輯此 DCR 以收集更多數據,例如 Windows 和 Syslog 事件。 透過 AMA 安裝建立的 DCR 會有附加 DCR 名稱的前置
AzureStackHCI-
詞。在 [ 新增數據收集規則 ] 頁面上,指定訂用帳戶、DCR 名稱和數據收集端點 (DCE) 名稱。 DCE 可用來存取設定服務,以擷取 Azure 監視器代理程式的相關聯 DCR。 如需 DCE 的詳細資訊,請參閱 Azure 監視器中的數據收集端點。
注意
如果您在代理程式上使用私人連結,則必須新增 DCE。 如需 AMA 網路設定的詳細資訊,請參閱 定義 Azure 監視器代理程式網路設定。
選取 [檢閱 + 建立] 按鈕。
如果尚未為未受監視的叢集建立 DCR,則會使用已啟用性能計數器和啟用 Windows 事件記錄檔通道建立 DCR。
檢閱最後一個畫面,其中包含 DCR 名稱、事件記錄檔數目、性能計數器,以及儲存數據的 Log Analytics 工作區名稱。 選取 [設定]。
選取 [ 設定] 之後,系統會將您重新導向至 [擴充功能 ] 頁面,您可以在其中查看代理程式安裝的狀態。 藉由設定 Insights,AMA 會自動安裝在叢集的所有節點上。
移至您的 Azure Stack HCI 叢集資源頁面,然後選取您的叢集。 深入解析現在會顯示為 [功能] 索引卷標上的 [設定]:
資料收集規則
當您使用 Azure 監視器代理程式在機器上啟用 Insights 時,您必須指定要使用的 DCR。 如需 DCR 的詳細資訊,請參閱 Azure 監視器中的數據收集規則。
選項 | 說明 |
---|---|
效能計數器 | 指定要從作業系統收集哪些數據性能計數器。 所有電腦都需要此選項。 這些性能計數器可用來填入 Insights 活頁簿中的視覺效果。 目前,Insights 活頁簿使用五個性能計數器 - Memory()\Available Bytes 、、 Network Interface()\Bytes Total/sec 、 Processor(_Total)\% Processor Time 、 RDMA Activity()\RDMA Inbound Bytes/sec 和 RDMA Activity()\RDMA Outbound Bytes/sec |
事件記錄檔通道 | 指定要從作業系統收集的 Windows 事件記錄檔。 所有電腦都需要此選項。 Windows 事件記錄可用來填入 Insights 活頁簿中的視覺效果。 目前,數據會透過兩個 Windows 事件記錄檔通道來收集: - microsoft-windows-health/operational 和 microsoft-windows-sddc-management/operational |
Log Analytics 工作區 | 用來儲存資料的工作區。 只會列出具有 Insights 的工作區。 |
事件通道
Microsoft-windows-sddc-management/operational
和 Microsoft-windows-health/operational
Windows 事件通道會新增至 Windows 事件記錄下的 Log Analytics 工作區。
藉由收集這些記錄,Insights 會顯示個別伺服器、磁碟驅動器、磁碟區和 VM 的健康情況狀態。 根據預設,會新增五個性能計數器。
效能計數器
根據預設,會新增五個性能計數器:
下表描述受監視的效能計數器:
效能計數器 | 描述 |
---|---|
Memory^\Available Bytes | 可用的位元組是物理記憶體數量,以位元組為單位,可立即配置給進程或系統使用。 |
網路介面卡(*)\位元組總數/秒 | 透過每個網路適配器傳送和接收位元組的速率,包括框架字元。 Bytes Total/sec 是 Bytes Received/sec 和 Bytes Sent/sec 的總和。 |
Processor(_Total)% Processor Time | 所有進程線程都使用處理器執行指令所耗用時間的百分比。 |
RDMA 活動\\RDMA 輸入位元組/秒 | 每秒網路適配器透過 RDMA 接收的數據速率。 |
RDMA 活動\\RDMA 輸出位元組/秒 | 每秒網路適配器透過 RDMA 傳送的數據速率。 |
啟用 Insights 之後,最多可能需要 15 分鐘的時間才能收集數據。 程式完成時,您可以從左窗格的 [深入解析] 功能表看到叢集健康情況的豐富視覺效果:
停用深入解析
若要停用 Insights,請遵循下列步驟:
當您停用 Insights 功能時,會刪除資料收集規則與叢集之間的關聯,而且不會再收集 健全狀況服務 和 SDDC 管理記錄;不過,不會刪除現有的數據。 如果您想要刪除該數據,請移至您的 DCR 和 Log Analytics 工作區,然後手動刪除數據。
更新深入解析
[深入解析] 圖格會在下列情況下顯示 [需要更新 ] 訊息:
- 數據收集規則已變更。
- 會從 Windows 事件記錄中刪除健康情況事件。
- 從 Log Analytics 工作區刪除五個性能計數器中的任何一個。
若要再次啟用 Insights,請遵循下列步驟:
從Microsoft監視代理程序移轉
若要從Microsoft監視代理程式 (MMA) 移轉至 Azure 監視代理程式 (AMA),請向下卷動至 深入解析。
選取 [ 安裝 AMA];[ 深入解析設定 ] 視窗隨即開啟。
選取或建立數據收集規則,如先前 的 Enable Insights 一節所述。
在移轉期間,Azure 監視器代理程式和Microsoft監視代理程式擴充功能都可以安裝在同一部電腦上。 執行這兩個代理程式可能會導致重複數據並增加成本。 如果計算機已安裝這兩個代理程式,您會在 Azure 入口網站 中看到可能會收集重複數據的警告,如下列螢幕快照所示。
警告
使用 Azure 監視器代理程式和Microsoft監視代理程式擴充功能從單一計算機收集重複的數據,可能會導致將重複數據傳送至 Log Analytics 工作區的額外擷取成本。
您必須自行從使用Microsoft監視代理程式擴充功能的任何計算機中移除。 執行此步驟之前,請確定計算機不會依賴任何其他需要監視代理程式Microsoft解決方案。 確認 MicrosoftMonitoringAgent 尚未連線到 Log Analytics 工作區之後,您可以透過重新導向至 [擴充功能] 頁面,手動移除 MicrosoftMonitoringAgent。
疑難排解
本節提供使用適用於 Azure Stack HCI 的深入解析解決問題的指引。
針對 2023 年 11 月之前註冊的叢集進行疑難解答
問題。 在 2023 年 11 月之前註冊的叢集中,在 Azure Stack HCI 上使用 AMA 的功能,例如 Arc for Servers、VM Insights、Container Insights、適用於雲端的 Defender 和 Sentinel 可能無法正確收集記錄和事件數據。
原因。 在 2023 年 11 月之前,叢集註冊已將 AMA 設定為使用叢集身分識別,而使用 Azure Stack HCI 上的 AMA 的服務則需要叢集節點的身分識別,才能進行適當的記錄收集。 這種不相符會導致這些服務的記錄收集不當。
解決方案。 為了解決此問題,我們在 AMA 的 HCI 叢集註冊中進行了變更,以改用伺服器身分識別。 若要實作這項變更,請在 2023 年 11 月之前註冊的叢集上執行下列步驟:
- 修復叢集註冊。 請參閱 修復叢集註冊。
- 修復 AMA。 請參閱 修復 AMA。
- 重新設定 Azure Stack HCI 的深入解析。 請參閱 重新設定 Azure Stack HCI 的深入解析。
在 Azure 入口網站 中,Azure Stack HCI 的深入解析頁面會自動偵測 AMA 設定中的變更,並在頁面頂端顯示橫幅,引導您採取必要的動作,繼續使用依賴 AMA 的服務。
修復叢集註冊
請遵循下列步驟來修復叢集註冊:
在您的叢集節點上,安裝最新的
Az.StackHCI
PowerShell模組。 將取代latestversion
為最新版本Az.StackHCI
號碼。Install-Module -Name Az.StackHCI -RequiredVersion {latestversion} -Scope CurrentUser -Repository PSGallery -Force
執行修復註冊命令以移除 regkey:
Register-AzStackHCI -TenantId {TenantID} -SubscriptionId {subscriptionID} -ComputerName {NodeName} -RepairRegistration
修復 Azure Stack HCI 的 AMA
選擇下列其中一個選項來修復 AMA:
選項 1:卸載 AMA
如果 AMA 已更新,請將它卸載。 請遵循下列步驟來卸載 AMA:
選項 2:更新 AMA
請遵循下列步驟來更新 AMA:
選項3:重新啟動 AMA
請遵循所有叢集節點上的下列步驟來重新啟動 AMA:
執行下列命令以停用 AMA:
cd C:\Packages\Plugins\Microsoft.Azure.Monitor.AzureMonitorWindowsAgent\<agent version number> AzureMonitorAgentExtension.exe disable
可執行檔案完成且所有 AMA 行程停止之後,請執行下列命令來重新啟動代理程式:
AzureMonitorAgentExtension.exe enable
選項 4:重新啟動叢集節點
重新設定 Azure Stack HCI 的深入解析
請遵循下列步驟來重新設定 Azure Stack HCI 的深入解析:
在 Azure 入口網站 中,Azure Stack HCI 叢集的 [深入解析] 頁面會顯示頂端的橫幅,如下列螢幕快照所示,這可協助您再次設定 Insights,並將 DCR 與叢集節點產生關聯。 檢閱橫幅,然後選取 [ 設定深入解析]。
重新設定 DCR。 依照本文中提供的指示來設定 Insights。 請參閱 設定 Azure Stack HCI 的深入解析。
針對未填入數據的空白活頁簿頁面進行疑難解答
問題。 您會看到未填入資料的空白 活頁簿 頁面,如下列螢幕快照所示:
可能的原因。 此問題可能有數個可能的原因,包括最近的深入解析設定、2023 年 11 月之前註冊的叢集未完成疑難解答步驟,或未正確設定相關聯的 DCR。
解決方案。 若要針對問題進行疑難解答,請依序執行下列步驟:
- 如果您最近設定深入解析,請等候最多一小時 AMA 收集數據。
- 如果等候后仍然沒有數據,請確定您已完成在 2023 年 11 月之前註冊的叢集疑難解答一節中所述的所有步驟。
- 確認相關聯 DCR 的組態。 請確定事件通道和性能計數器會新增為相關聯 DCR 的數據源,如數據收集規則一節中所述。
- 如果在執行上述步驟之後,問題持續發生,而且您仍然看不到任何數據,請連絡客戶支援以尋求協助。
如需更詳細的疑難解答指引,請參閱 Azure 監視器代理程式的疑難解答指引。
深入解析視覺效果
啟用深入解析之後,下表提供所有資源的詳細數據。
健全狀況
在叢集上提供健康情況錯誤。
計量 | 描述 | 單位 | 範例 |
---|---|---|---|
Fault | 健康情況錯誤的簡短描述。 按兩下連結時,側邊面板隨即開啟,其中包含詳細資訊。 | 無單位 | PoolCapacityThresholdExceeded |
錯誤資源類型 | 發生錯誤的資源類型。 | 無單位 | StoragePool |
錯誤資源識別碼 | 遇到健康情況錯誤之資源的唯一標識符。 | 唯一識別碼 | {a0a0a0a0-bbbb-cccc-dddd-e1e1e1e1e1e1}: SP:{b1b1b1b1b1-cccc-dddd-eeee-f2f2f2f2f2} |
嚴重性 | 錯誤的嚴重性可能是警告或重大。 | 無單位 | 警告 |
初始錯誤時間 | 上次更新伺服器時的時間戳。 | Datetime | 2022/4/9,下午 12:15:42 |
伺服器
計量 | 描述 | 單位 | 範例 |
---|---|---|---|
伺服器 | 叢集中伺服器的名稱。 | 無單位 | VM-1 |
上次更新 | 上次更新伺服器的日期和時間。 | Datetime | 2022/4/9,下午 12:15:42 |
狀態 | 叢集中伺服器資源的健康情況。 | 它可以是狀況良好、警告、重大和其他 | Healthy |
CPU 使用量 | 進程已使用 CPU 的時間百分比。 | Percent | 56% |
記憶體使用量 | 伺服器進程的記憶體使用量等於計數器 Process\Private Bytes 加上記憶體對應數據的大小。 | Percent | 16% |
邏輯處理器 | 邏輯處理器的數目。 | 計數 | 2 |
CPU | CPU 數目。 | 計數 | 2 |
上線時間 | 計算機,特別是計算機運作的時間。 | Timespan | 2.609 小時 |
網站 | 伺服器所屬的月臺名稱。 | 網站名稱 | SiteA |
網域名稱 | 伺服器所屬的本機網域。 | 無單位 | Contoso.local |
虛擬機器
提供叢集中所有虛擬機的狀態。 VM 可以處於下列其中一種狀態:執行、已停止、失敗或其他(未知、啟動、快照、儲存、停止、暫停、繼續、暫停、暫停、暫停)。
計量 | 描述 | 單位 | 範例 |
---|---|---|---|
伺服器 | 伺服器的名稱。 | 無單位 | Sample-VM-1 |
上次更新 | 這會提供上次更新伺服器時的日期和時間 | Datetime | 2022/4/9,下午 12:24:02 |
VM 總數 | 伺服器節點中的 VM 數目。 | 計數 | 0 個執行中 |
執行中 | 在伺服器節點中執行的 VM 數目。 | 計數 | 2 |
已停止 | 伺服器節點中停止的 VM 數目。 | 計數 | 3 |
失敗 | 伺服器節點中的 VM 數目失敗。 | 計數 | 2 |
其他 | 如果 VM 處於下列其中一種狀態(未知、啟動、快照集、儲存、停止、暫停、暫停、暫停、已暫停),則會被視為「其他」。 | 計數 | 2 |
儲存體
下表提供叢集中磁碟區和磁碟驅動器的健康情況:
計量 | 描述 | 單位 | 範例 |
---|---|---|---|
磁碟區 | 磁碟區的名稱 | 無單位 | ClusterPerformanceHistory |
上次更新 | 上次更新記憶體的日期和時間。 | Datetime | 2022/4/14,下午 2:58:55 |
狀態 | 磁碟區的狀態。 | 狀況良好、警告、重大及其他。 | Healthy |
總產能 | 報告期間裝置的總容量,以位元組為單位。 | Bytes | 2.5 GB |
可用容量 | 報告期間可用位元組的容量。 | Bytes | 20B |
Iops | 每秒的輸入/輸出作業數。 | 每秒 | 45/秒 |
輸送量 | 應用程式閘道每秒已服務的位元組數目。 | 每秒位元組數 | 5B/秒 |
延遲 | I/O 要求完成所需的時間。 | 第二個 | 0.0016 秒 |
復原 | 從失敗中復原的容量。 最大化數據可用性。 | 無單位 | 三向鏡像 |
重複 | 減少需要儲存在磁碟上的實體位元組數目的程式。 | 可用或無法使用 | 是/否 |
檔案系統 | 檔案系統的類型。 | 無單位 | ReFS |
Azure 監視器定價
當您啟用監視視覺效果時,會從下列專案收集記錄:
- 健康情況管理(Microsoft-windows-health/operational)。
- SDDC 管理 (Microsoft-Windows-SDDC-Management/Operational;事件標識碼:3000、3001、3002、3003、3004)。
系統會根據擷取的數據量和Log Analytics工作區的數據保留設定來計費。
Azure 監視器具有隨用隨付定價,每月每個計費帳戶的前 5 GB 是免費的。 由於定價可能會因多種因素而有所不同,例如您使用的 Azure 區域,因此請造訪 Azure 監視器定價計算機 ,以取得最新的定價計算。