監視 Log Analytics 工作區健康情況
Azure 服務健康狀態會監視雲端資源的健康情況,包括 Log Analytics 工作區。 當 Log Analytics 工作區狀況良好時,您從 IT 環境中的資源收集的資料會在相對短時間內可供查詢和分析,也稱為延遲。 本文說明如何檢視 Log Analytics 工作區的健全狀態、設定工作區健全狀態警示,以及檢視工作區健康情況計量。
Azure 服務健康狀態會監視:
- 資源健康狀態:有關個別雲端資源的健康情況資訊,例如特定的 Log Analytics 工作區。
- 服務健康情況:與您所用 Azure 服務和區域的健康情況有關的資訊,這可能會影響 Log Analytics 工作區,包括中斷、計劃性維護活動和其他健康情況諮詢的通訊。
需要的權限
- 若要檢視 Log Analytics 工作區健康情況,您需要 Log Analytics工作區的
*/read
權限,例如 Log Analytics 讀者內建角色所提供的權限。 - 若要設定健全狀態警示,您需要 Log Analytics 工作區的
Microsoft.Insights/ActivityLogAlerts/Write
權限,例如監視參與者內建角色所提供的權限。
檢視 Log Analytics 工作區健康情況並設定健康情況狀態警示
若要檢視 Log Analytics 工作區健康情況並設定健康情況狀態警示:
從 Log Analytics 工作區功能選取 [資源健康情況]。
[資源健康情況] 畫面隨即顯示:
- 健康情況歷程記錄:指出 Azure 服務健康狀態是否在特定 Log Analytics 工作區中偵測到延遲或查詢執行問題。 若要進一步調查與工作區相關的延遲問題,請參閱調查延遲。
- Azure 服務問題:當 Azure 服務的已知問題可能會影響 Log Analytics 工作區中的延遲時顯示。 選取訊息以檢視 Azure 服務健康狀態中服務問題的詳細資料。
注意
- 服務健康情況通知不會指出您的 Log Analytics 工作區必然受到已知的服務問題影響。 如果您的 Log Analytics 工作區資源健康狀態為 [可用],Azure 服務健康狀態不會在您的工作區中偵測到問題。
- 資源健康狀態會排除預期長時間擷取延遲的資料類型。 例如,計算應用程式對應資料的 Application Insights 資料類型,且已知會新增延遲。
下表說明 Log Analytics 工作區的可能資源健全狀態值:
資源健康情況狀態 Description 可用的 平均延遲,且未偵測到任何查詢執行問題。 [無法使用] 偵測到高於平均延遲。 已降級 偵測到查詢失敗。 未知 目前無法判斷 Log Analytics 工作區健康情況,因為您最近尚未對此工作區執行查詢或擷取資料。 若要設定健全狀態警示,您可以啟用建議的現成警示規則,或手動建立新的警示規則。
若要啟用建議的警示規則:
選取 [警示]>[啟用建議的警示規則]。
[啟用建議的警示規則] 窗格隨即開啟,其中包含您的 Log Analytics 工作區的建議警示規則清單。
在 [在下列情況時警示我] 區段中,選取您想要啟用的所有規則。
在 [在下列情形通知我] 區段中,選取您想要在觸發警示時收到通知的方式。
選取 [使用現有的動作群組],如果您想要使用已存在的動作群組,請輸入現有動作群組的詳細資料。
選取啟用。
若要建立新的警示規則:
選取 [新增資源健康狀態警示]。
[建立警示規則] 精靈隨即開啟,並預先填入 [範圍] 和 [條件] 窗格。 根據預設,規則會針對訂用帳戶中所有 Log Analytics 工作區的所有狀態變更觸發警示。 如有必要,您可以在此階段編輯和修改範圍和條件。
請遵循在 Azure 入口網站中建立新的警示規則的其餘步驟。
檢視 Log Analytics 工作區健康情況計量
Azure 監視器會公開一組計量,以提供 Log Analytics 工作區健康情況的深入解析。
若要檢視 Log Analytics 工作區健康情況計量:
從 Log Analytics 工作區功能表中選取 [計量]。 這會在 Log Analytics 工作區的內容中開啟 [計量總管]。
在 [計量] 欄位中,選取其中一個 Log Analytics 工作區健康情況計量:
類別 度量名稱 影響範圍 描述 SLI AvailabilityRate_Query 工作區 Log Analytics 工作區中所選時間範圍內的成功使用者查詢百分比。
此數字包含傳回 2XX、4XX 和 504 回應碼的所有查詢;換句話說,所有不會導致服務錯誤的使用者查詢。SLI 擷取時間 工作區或資料表 在 Azure 監視器記錄雲端服務中收到記錄後,直到可供查詢使用為止,所花費的時間 (秒)。 建議檢查特定資料表的擷取時間。 如需詳細資訊,請參閱這裡。 SLI 擷取量 工作區或資料表 擷取至工作區或資料表的記錄數目。 使用者查詢 查詢計數 工作區 Log Analytics 工作區中所選時間範圍內的使用者查詢總數。
此數字只包含使用者起始的查詢,而不包含 Sentinel 規則和警示相關查詢所起始的查詢。使用者查詢 查詢失敗計數 工作區 Log Analytics 工作區中所選時間範圍內的失敗使用者查詢總數。
此數字包含傳回 5XX 回應碼 (504 閘道逾時除外) 的所有查詢,這表示與應用程式閘道或後端伺服器相關的錯誤。資料匯出 已匯出的位元組 工作區 在所選時間範圍內,從 Log Analytics 工作區匯出到目的地的位元組總數。 匯出的資料大小是匯出 JSON 格式資料的位元組數目。 1 GB = 10^9 個位元組。 資料匯出 匯出失敗 工作區 Log Analytics 工作區中所選時間範圍內的失敗匯出要求總數。
此數目包括 Azure 監視器、目的地資源可用性或節流所造成的匯出失敗。資料匯出 已匯出的記錄 工作區 在所選時間範圍內,從 Log Analytics 工作區匯出的記錄總數。
調查 Log Analytics 工作區健康情況問題
若要調查 Log Analytics 工作區健康情況問題:
- 使用 Log Analytics 工作區深入解析,其可提供工作區使用方式、效能、健康情況、代理程式、查詢和變更記錄的整合檢視。
- 查詢 Log Analytics 工作區中的資料,以瞭解哪些因素導致工作區中的延遲大於預期。
- 使用
_LogOperation
函式來檢視和設定 Log Analytics 工作區中記錄的作業問題相關警示。
下一步
深入了解: