使用 Insights 監視單一 Azure Stack HCI 叢集

適用於:Azure Stack HCI 版本 22H2 和 21H2

本文說明如何使用 Insights 來監視單一 Azure Stack HCI 叢集。 如需多個 Azure Stack HCI 叢集,請參閱 使用 Insights 監視多個 Azure Stack HCI 叢集

深入解析是 Azure 監視器的一項功能,可讓您快速開始監視 Azure Stack HCI 叢集。 您可以檢視叢集、伺服器、虛擬機和記憶體的相關重要計量、健康情況和使用方式資訊。

重要

如果您在 2023 年 11 月之前註冊了 Azure Stack HCI 叢集並設定 Insights,則某些使用 Azure 監視器代理程式 (AMA) 的功能,例如 Arc for Servers、VM Insights、Defender for Cloud 或 Sentinel 可能無法正確收集記錄和事件數據。 如需疑難解答指引,請參閱 針對在 2023 年 11 月之前註冊的叢集進行疑難解答 一節。

優點

Azure Stack HCI 的深入解析提供下列優點:

  • 由 Azure 管理。 深入解析是由 Azure 管理,並透過 Azure 入口網站 存取,確保一律為最新狀態。 不需要資料庫或特殊軟體設定。

  • 延展性。 深入解析能夠同時跨多個訂用帳戶載入超過 400 個叢集資訊集。 叢集、網域或實體位置沒有任何限制。

  • 自訂能力。 深入解析的體驗是以 Azure 監視器活頁簿範本為基礎。 這可讓您變更檢視和查詢、修改或設定符合您特定限制的臨界值,然後將這些自定義儲存到活頁簿中。 然後,您可以將活頁簿中的圖表釘選到 Azure 儀錶板。

設定 Azure Stack HCI 的深入解析

使用 Insights 的必要條件和設定會根據您擁有的 Azure Stack HCI 版本而有所不同。 選取下列其中一個索引標籤,以取得如何在特定版本的 Azure Stack HCI 上使用 Insights 的指示。

Azure Stack HCI 22H2 版和更新版本中的 Insights 功能會使用 AMA,相較於舊版 Microsoft Monitoring Agent (MMA) 在 Azure Stack HCI 版本 21H2 和更早版本中所使用的舊版 Microsoft Monitoring Agent,提供顯著的優點。 這些優點包括改善的速度、增強的安全性,以及更佳的效能。 您可以將新節點上線至 AMA,或將現有的節點從舊版代理程式 轉至 AMA。

我們建議您將 Azure Stack HCI 系統升級至 22H2 版或更新版本,以利用 AMA 的 Insights 體驗。

從 Azure Stack HCI 22H2 版的 2023 年 5 月累積更新開始,您可以使用適用於 Azure Stack HCI 的深入解析來監視內部部署 Azure Stack HCI 系統。

必要條件

以下是使用 Azure Stack HCI Insights 的必要條件:

  • Azure Stack HCI 叢集應 已啟用 Azure 和 Arc 的註冊。 如果您在 2021 年 6 月 15 日當天或之後註冊叢集,則預設會發生此情況。 否則,您必須啟用 Azure Arc 整合

  • 叢集必須安裝 Azure Stack HCI 22H2 版和 2023 年 5 月累積更新或更新版本。

  • 必須啟用 Azure 資源的受控識別。 如需詳細資訊,請參閱 已啟用增強式管理

啟用深入解析

啟用深入解析藉由提供實用的健康情況計量,協助您監視目前與 Log Analytics 工作區相關聯的所有 Azure Stack HCI 叢集。 深入解析會安裝 Azure 監視器代理程式,並協助您設定 數據收集規則 (DCR) ,以監視 Azure Stack HCI 叢集。

若要從 Azure 入口網站啟用這項功能,請遵循下列步驟:

  1. 在 Azure 入口網站 中,流覽至您的 Azure Stack HCI 叢集資源頁面,然後選取您的叢集。 在 [功能] 索引標籤下,選取 [深入解析]。

    顯示 [深入解析] 圖格的螢幕快照。

  2. [深入解析] 頁面上,選取 [ 開始使用]。

    顯示 [開始使用] 按鈕的螢幕快照。

    注意

    [ 開始使用 ] 按鈕僅適用於已安裝 2023 年 5 月累積更新或更新版本的 Azure Stack HCI 版本 22H2,且只有在啟用受控識別之後。 否則,會停用此按鈕。

  3. [深入解析設定 ] 頁面上,從 [ 數據收集規則 ] 下拉式清單中選取現有的 DCR。 DCR 會指定需要收集的事件記錄檔和性能計數器,並將其儲存在 Log Analytics 工作區中。 如果尚未存在,深入解析會建立預設 DCR。 僅包含針對 Insights 啟用的 DCR。

    顯示 [深入解析] 設定視窗的螢幕快照。

  4. (選擇性) 您也可以選取 [深入解析] 組態頁面上的 [新建] 來建立新的 DCR。

    重要

    強烈建議您不要建立自己的 DCR。 Insights 所建立的 DCR 包含其作業所需的特殊數據流。 您可以編輯此 DCR 以收集更多數據,例如 Windows 和 Syslog 事件。 透過 AMA 安裝建立的 DCR 會有附加 DCR 名稱的前置詞 AzureStackHCI-

    1. 在 [ 新增數據收集規則] 頁面上,指定訂用帳戶、DCR 名稱和數據收集端點, (DCE) 名稱。 DCE 可用來存取設定服務,以擷取 Azure 監視器代理程式的相關聯 DCR。 如需 DCE 的詳細資訊,請參閱 Azure 監視器中的數據收集端點

      注意

      如果您在代理程式上使用私人連結,則必須新增 DCE。 如需 AMA 網路設定的詳細資訊,請參閱 定義 Azure 監視器代理程式網路設定

      顯示資料收集規則視窗的螢幕快照。

    2. 選取 [檢閱 + 建立] 按鈕。

      如果尚未為未受監視的叢集建立 DCR,則會建立一個已啟用性能計數器並啟用 Windows 事件記錄檔通道。

  5. 檢閱最後一個畫面,其中包含 DCR 名稱、事件記錄檔數目、性能計數器,以及儲存數據的 Log Analytics 工作區名稱。 選取 [設定]。

    顯示數據收集規則下拉式選取器的螢幕快照。

    選取 [ 設定] 之後,系統會將您重新導向至 [ 擴充功能 ] 頁面,您可以在其中查看代理程式安裝的狀態。 藉由設定 Insights,AMA 會自動安裝在叢集的所有節點上。

  6. 移至您的 Azure Stack HCI 叢集資源頁面,然後選取您的叢集。 深入解析現在會顯示為 [功能] 索引卷標上的 [已設定]:

    顯示 [深入解析] 圖格為 [已設定] 的螢幕快照。

資料收集規則

當您在具有 Azure 監視器代理程式的電腦上啟用 Insights 時,您必須指定要使用的 DCR。 如需 DCR 的詳細資訊,請參閱 Azure 監視器中的數據收集規則

選項 描述
效能計數器 指定要從作業系統收集哪些數據性能計數器。 所有電腦都需要此選項。 這些性能計數器可用來填入 Insights 活頁簿中的視覺效果。 目前,Insights 活頁簿使用五個性能計數器 - Memory()\Available BytesNetwork Interface()\Bytes Total/secProcessor(_Total)\% Processor TimeRDMA Activity()\RDMA Inbound Bytes/secRDMA Activity()\RDMA Outbound Bytes/sec
事件記錄通道 指定要從作業系統收集哪些 Windows 事件記錄檔。 所有電腦都需要此選項。 Windows 事件記錄檔可用來填入 Insights 活頁簿中的視覺效果。 目前,數據是透過兩個 Windows 事件記錄檔通道收集: - microsoft-windows-health/operationalmicrosoft-windows-sddc-management/operational
Log Analytics 工作區 用來儲存資料的工作區。 只會列出具有 Insights 的工作區。

事件通道

和 Windows 事件通道會新增至 Windows 事件記錄下的 Log Analytics 工作區。Microsoft-windows-health/operationalMicrosoft-windows-sddc-management/operational

顯示 [新增數據源] 視窗的螢幕快照。

藉由收集這些記錄,Insights 會顯示個別伺服器、磁碟驅動器、磁碟區和 VM 的健康狀態。 根據預設,會新增五個性能計數器。

效能計數器

根據預設,會新增五個性能計數器:

顯示已新增性能計數器的螢幕快照。

下表描述這些監視的效能計數器:

效能計數器 描述
Memory(*)\Available Bytes 可用位元組是立即可用於程序配置或系統使用的實體記憶體數量 (以位元組為單位)。
Network Interface(*)\Bytes Total/sec 透過每個網路介面卡傳送和接收的位元組速率 (包含框架字元)。 每秒位元組總計是每秒接收的位元組和每秒傳送的位元組總和。
Processor(_Total)% Processor Time 所有程序執行緒使用處理器執行指令已耗用時間的百分比。
RDMA Activity(*)\RDMA Inbound Bytes/sec 每秒網路介面卡透過 RDMA 接收的資料速率。
RDMA Activity(*)\RDMA Outbound Bytes/sec 每秒網路介面卡透過 RDMA 傳送的資料速率。

啟用深入解析之後,最多可能需要 15 分鐘的時間才能收集資料。 當程式完成時,您可以從左窗格的 [深入解析 ] 功能表看到叢集健全狀況的豐富視覺效果:

顯示深入解析視覺效果的螢幕快照。

停用深入解析

若要停用 Insights,請遵循下列步驟:

  1. 在 [功能] 索引標籤下,選取 [深入解析]。

  2. 選取 [停用深入解析]。

    顯示 [停用深入解析] 視窗的螢幕快照。

當您停用 Insights 功能時,會刪除數據收集規則與叢集之間的關聯,且不再收集健全狀況服務與 SDDC 管理記錄;不過,不會刪除現有的數據。 如果您想要刪除該數據,請移至 DCR 和 Log Analytics 工作區,然後手動刪除數據。

更新深入解析

深入解析圖格會在下列案例下顯示 [需要更新] 訊息:

  • 數據收集規則已變更。
  • 從 Windows 事件記錄檔中刪除健康情況事件。
  • Log Analytics 工作區中刪除五個性能計數器的任何一個。

若要再次啟用 Insights,請遵循下列步驟:

  1. 選取 [功能] 底下的 [深入解析] 圖格。

  2. 選取 [更新] 以再次查看視覺效果。

    顯示 [更新深入解析] 視窗的螢幕快照。

從 Microsoft Monitoring Agent 移轉

  1. 若要從 Microsoft Monitoring Agent (MMA) 移轉至 Azure Monitoring Agent (AMA) ,請向下卷動至 [深入解析]。

    顯示 [安裝 AMA] 視窗的螢幕快照。

  2. 選取 [安裝 AMA] ;[ 深入解析組態 ] 視窗隨即開啟。

    顯示 [資料收集規則] 視窗的螢幕快照。

  3. 選取或建立數據收集規則,如先前在 Enable Insights 一節中所述。

Azure 監視器代理程式和 Microsoft Monitoring Agent 擴充功能可以在移轉期間安裝在同一部電腦上。 執行這兩個代理程式可能會導致資料重複並增加成本。 如果計算機已安裝這兩個代理程式,您會在 Azure 入口網站 中看到可能會收集重複數據的警告,如下列螢幕快照所示。

警告

使用 Azure 監視器代理程式和 Microsoft Monitoring Agent 擴充功能從單一計算機收集重複的數據,可能會導致額外的擷取成本,從將數據傳送至 Log Analytics 工作區。

顯示數據重複警告的螢幕快照。

您必須從使用 Microsoft Monitoring Agent 的任何電腦自行移除擴充功能。 執行此步驟之前,請確定計算機不依賴任何其他需要 Microsoft Monitoring Agent 的解決方案。 確認 MicrosoftMonitoringAgent 尚未連線到 Log Analytics 工作區之後,您可以透過重新導向至 [延伸模組] 頁面,手動移除 MicrosoftMonitoringAgent

顯示 [延伸模組] 列表的螢幕快照。

疑難排解

本節提供解決使用 Azure Stack HCI 深入解析問題的指引。

針對在 2023 年 11 月之前註冊的叢集進行疑難解答

問題。 在 2023 年 11 月之前註冊的叢集中,在 Azure Stack HCI 上使用 AMA 的功能,例如 Arc for Servers、VM Insights、Container Insights、Defender for Cloud 和 Sentinel 可能無法正確收集記錄和事件數據。

原因。 在 2023 年 11 月之前,叢集註冊已將 AMA 設定為使用叢集識別,而使用 Azure Stack HCI 上的 AMA 的服務需要叢集節點的身分識別,才能進行適當的記錄收集。 這不相符導致這些服務的記錄收集不正確。

解決方案。 為了解決此問題,我們在 AMA 的 HCI 叢集註冊中進行了變更,改用伺服器身分識別。 若要實作這項變更,請在 2023 年 11 月之前註冊的叢集上執行下列步驟:

  1. 修復叢集註冊。 請參閱 修復叢集註冊
  2. 修復 AMA。 請參閱 修復 AMA
  3. 重新設定 Azure Stack HCI 的深入解析。 請參閱 重新設定 Azure Stack HCI 的深入解析

在 Azure 入口網站 中,Azure Stack HCI 的深入解析頁面會自動偵測 AMA 設定中的變更,並在頁面頂端顯示橫幅,引導您採取必要的動作以繼續使用依賴 AMA 的服務。

顯示重新設定 Insights 橫幅的螢幕快照。

修復叢集註冊

請遵循下列步驟來修復叢集註冊:

  1. 在您的叢集節點上,安裝最新的 Az.StackHCI PowerShell模組。 以最新版本Az.StackHCI號碼取代 latestversion

    Install-Module -Name Az.StackHCI -RequiredVersion {latestversion} -Scope CurrentUser -Repository PSGallery -Force 
    
  2. 執行修復註冊命令以移除 regkey:

    Register-AzStackHCI -TenantId {TenantID} -SubscriptionId {subscriptionID} -ComputerName {NodeName} -RepairRegistration 
    
修復 Azure Stack HCI 的 AMA

選擇下列其中一個選項來修復 AMA:

  • 選項 1:卸載 AMA

    如果 AMA 已更新,請將它卸載。 請遵循下列步驟來卸載 AMA:

    1. 在 Azure 入口網站 中,移至 Azure Stack HCI 叢集的 [擴充功能] 頁面。

    2. 選取 AzureMonitorWindowsAgent 的複選框,然後選取 [ 卸載]。

      顯示 AzureMonitorWindowsAgent 卸載 AMA 的螢幕快照。

  • 選項 2:更新 AMA

    請遵循下列步驟來更新 AMA:

    1. 在 Azure 入口網站 中,移至 Azure Stack HCI 叢集的 [擴充功能] 頁面。

    2. 選取 AzureMonitorWindowsAgent 的複選框,如果尚未完成,請選取 [ 啟用自動升級]。

      顯示 AzureMonitorWindowsAgent 以啟用自動升級的螢幕快照。

  • 選項3:重新啟動 AMA

    請遵循所有叢集節點上的下列步驟來重新啟動 AMA:

    1. 執行下列命令以停用 AMA:

      cd C:\Packages\Plugins\Microsoft.Azure.Monitor.AzureMonitorWindowsAgent\<agent version number>
      AzureMonitorAgentExtension.exe disable
      
    2. 可執行檔案完成並停止所有 AMA 進程之後,請執行下列命令以重新啟動代理程式:

      AzureMonitorAgentExtension.exe enable
      
  • 選項 4:重新啟動叢集節點

重新設定 Azure Stack HCI 的深入解析

請遵循下列步驟來重新設定 Azure Stack HCI 的深入解析:

  1. 在 Azure 入口網站 中,Azure Stack HCI 叢集的 [深入解析] 頁面會在頂端顯示橫幅,如下列螢幕快照所示,協助您再次設定 Insights,並將 DCR 與叢集節點產生關聯。 檢閱橫幅,然後選取 [ 設定深入解析]。

    顯示 [設定深入解析] 按鈕的螢幕快照。

  2. 重新設定 DCR。 依照本文中提供的指示來設定 Insights。 請參閱 設定 Azure Stack HCI 的深入解析

    [新增資料收集規則] 頁面的螢幕快照。

針對未填入數據的空白活頁簿頁面進行疑難解答

問題。 您會看到未填入 資料的空白活 頁簿頁面,如下列螢幕快照所示:

空白活頁簿頁面的螢幕快照。

可能的原因。 此問題可能有數個可能的原因,包括最近設定 Insights、2023 年 11 月之前註冊之叢集未完成的疑難解答步驟,或未正確設定相關聯的 DCR。

解決方案。 若要針對問題進行疑難解答,請依序執行下列步驟:

  1. 如果您最近設定 Insights,請等候最多一小時,讓 AMA 收集數據。
  2. 如果等候之後仍然沒有任何數據,請確定您已完成針對在 2023 年 11 月之前註冊的叢集進行疑難解答 一節中所述的所有步驟。
  3. 確認相關聯 DCR 的組態。 請確定事件通道和性能計數器已新增為相關聯 DCR 的數據源,如 數據收集規則 一節中所述。
  4. 如果在執行上述步驟之後持續發生問題,而且您仍然看不到任何數據,請連絡客戶支援以尋求協助。

如需更詳細的疑難解答指引,請參閱 Azure 監視器代理程式的疑難解答指引

深入解析視覺效果

啟用深入解析之後,下表提供所有資源的詳細資料。

醫療

在叢集上提供健康情況錯誤。

計量 描述 單位 範例
錯誤 健康情況錯誤的簡短描述。 按一下連結時,側邊面板隨即開啟,其中包含詳細資訊。 無單位 PoolCapacityThresholdExceeded
發生錯誤的資源類型 發生錯誤的資源類型。 無單位 StoragePool
發生錯誤的資源識別碼 發生健康情況錯誤之資源的唯一識別碼。 唯一識別碼 {1245340c-780b-4afc-af3c-f9bdc4b12f8a}: SP:{c57f23d1-d784-4a42-8b59-4edd8e70e830}
嚴重性 錯誤的嚴重性可能是警告或危急。 無單位 警告
初始錯誤時間 上次更新伺服器時的時間戳記。 Datetime 4/9/2022, 12:15:42 PM

伺服器

計量 描述 單位 範例
伺服器 叢集中伺服器的名稱。 無單位 VM-1
上次更新 上次更新伺服器的日期和時間。 Datetime 4/9/2022, 12:15:42 PM
狀態 叢集中伺服器資源的健康情況。 健康情況可以是良好、警告、危急和其他 Healthy
CPU 使用量 程序已使用 CPU 的時間百分比。 百分比 56%
記憶體使用量 伺服器程序的記憶體使用量等於計數器程序\私人位元組加上記憶體對應資料的大小。 百分比 16%
邏輯處理器 邏輯處理器數目。 計數 2
CPU CPU 的數目。 計數 2
Uptime 機器 (特別是電腦) 在作業期間的時間。 Timespan 2.609 小時
網站 伺服器所屬的月臺名稱。 站台名稱 SiteA 的節點上執行
網域名稱 伺服器所屬的本地網域。 無單位 Contoso.local

虛擬機器

提供叢集中所有虛擬機器的狀態。 VM 可以處於下列其中一種狀態:執行中、已停止、已失敗或其他 (未知、啟動中、擷取快照中、儲存中、停止中、暫停中、繼續中、已暫停、已擱置)。

計量 描述 單位 範例
伺服器 伺服器的名稱。 無單位 Sample-VM-1
上次更新 這會提供上次更新伺服器的日期和時間 Datetime 4/9/2022, 12:24:02 PM
VM 總數 伺服器節點中的 VM 數目。 Count 0 個執行中的 0 個
執行中 在伺服器節點中執行的 VM 數目。 計數 2
已停止 伺服器節點中停止的 VM 數目。 計數 3
Failed 伺服器節點中失敗的 VM 數目。 計數 2
其他 如果 VM 處於下列其中一種狀態, (未知、啟動、快照、儲存、停止、暫停、暫停、暫停) ,則會將其視為「其他」。 計數 2

儲存體

下表提供叢集中磁碟區和磁碟驅動器的健康情況:

計量 描述 單位 範例
磁碟區 磁碟區的名稱 無單位 ClusterPerformanceHistory
上次更新 上次更新記憶體的日期和時間。 Datetime 4/14/2022, 2:58:55 PM
狀態 磁碟區的狀態。 良好、警告、危急和其他。 Healthy
容量總計 報表週期間的裝置總容量 (位元組)。 位元組 2.5 GB
可用容量 報告期間的可用容量 (以位元組為單位)。 位元組 20B
Iops 每秒的輸入/輸出作業數。 每秒 45/s
輸送量 應用程式閘道每秒已服務的位元組數目。 每秒位元組數 5B/秒
Latency 完成 I/O 要求的所需時間。 Second 0.0016 秒
災害復原 從失敗中復原的容量。 最大化資料可用性。 無單位 三向鏡像
重複資料刪除 減少需要儲存在磁碟上之數據之實體位元組數目的程式。 可用或無法使用 是/否
檔案系統 檔案系統的類型。 無單位 ReFS

Azure 監視器定價

當您啟用監視視覺效果時,會從下列來源收集記錄:

  • 健康情況管理 (Microsoft-windows-health/operational)。
  • SDDC 管理 (Microsoft-Windows-SDDC-Management/Operational;事件識別碼:3000、3001、3002、3003、3004)。

系統會根據擷取的數據量和Log Analytics工作區的數據保留設定來計費。

Azure 監視器採用隨用隨付定價,且每月每個計費帳戶的前 5 GB 是免費的。 由於定價可能因多個因素而異 (例如您正在使用的 Azure 區域),因此請瀏覽 Azure 監視器定價計算機,以取得最新的定價計算。

下一步