共用方式為


監視 Log Analytics 工作區健康情況

Azure 服務健康狀態會監視雲端資源的健康情況,包括 Log Analytics 工作區。 當 Log Analytics 工作區狀況良好時,您從 IT 環境中的資源收集的資料會在相對短時間內可供查詢和分析,也稱為延遲。 本文說明如何檢視 Log Analytics 工作區的健全狀態、設定工作區健全狀態警示,以及檢視工作區健康情況計量。

Azure 服務健康狀態會監視:

  • 資源健康狀態:有關個別雲端資源的健康情況資訊,例如特定的 Log Analytics 工作區。
  • 服務健康情況:與您所用 Azure 服務和區域的健康情況有關的資訊,這可能會影響 Log Analytics 工作區,包括中斷、計劃性維護活動和其他健康情況諮詢的通訊。

需要的權限

  • 若要檢視 Log Analytics 工作區健康情況,您需要 Log Analytics工作區的 */read 權限,例如 Log Analytics 讀者內建角色所提供的權限。
  • 若要設定健全狀態警示,您需要 Log Analytics 工作區的 Microsoft.Insights/ActivityLogAlerts/Write 權限,例如監視參與者內建角色所提供的權限。

檢視 Log Analytics 工作區健康情況並設定健康情況狀態警示

若要檢視 Log Analytics 工作區健康情況並設定健康情況狀態警示:

  1. 從 Log Analytics 工作區功能選取 [資源健康情況]

    [資源健康情況] 畫面隨即顯示:

    • 健康情況歷程記錄:指出 Azure 服務健康狀態是否在特定 Log Analytics 工作區中偵測到延遲或查詢執行問題。 若要進一步調查與工作區相關的延遲問題,請參閱調查延遲
    • Azure 服務問題:當 Azure 服務的已知問題可能會影響 Log Analytics 工作區中的延遲時顯示。 選取訊息以檢視 Azure 服務健康狀態中服務問題的詳細資料。

    注意

    • 服務健康情況通知不會指出您的 Log Analytics 工作區必然受到已知的服務問題影響。 如果您的 Log Analytics 工作區資源健康狀態為 [可用],Azure 服務健康狀態不會在您的工作區中偵測到問題。
    • 資源健康狀態會排除預期長時間擷取延遲的資料類型。 例如,計算應用程式對應資料的 Application Insights 資料類型,且已知會新增延遲。

    螢幕擷取畫面:Log Analytics 工作區的 [資源健康狀態] 畫面。

    下表說明 Log Analytics 工作區的可能資源健全狀態值:

    資源健康情況狀態 Description
    可用的 平均延遲,且未偵測到任何查詢執行問題。
    [無法使用] 偵測到高於平均延遲。
    已降級 偵測到查詢失敗。
    未知 目前無法判斷 Log Analytics 工作區健康情況,因為您最近尚未對此工作區執行查詢或擷取資料。
  2. 若要設定健全狀態警示,您可以啟用建議的現成警示規則,或手動建立新的警示規則。

    • 若要啟用建議的警示規則:

      1. 選取 [警示]>[啟用建議的警示規則]

        [啟用建議的警示規則] 窗格隨即開啟,其中包含您的 Log Analytics 工作區的建議警示規則清單。

        建議警示規則窗格的螢幕擷取畫面。

      2. 在 [在下列情況時警示我] 區段中,選取您想要啟用的所有規則。

      3. 在 [在下列情形通知我] 區段中,選取您想要在觸發警示時收到通知的方式。

      4. 選取 [使用現有的動作群組],如果您想要使用已存在的動作群組,請輸入現有動作群組的詳細資料。

      5. 選取啟用

    • 若要建立新的警示規則:

      1. 選取 [新增資源健康狀態警示]

        [建立警示規則] 精靈隨即開啟,並預先填入 [範圍] 和 [條件] 窗格。 根據預設,規則會針對訂用帳戶中所有 Log Analytics 工作區的所有狀態變更觸發警示。 如有必要,您可以在此階段編輯和修改範圍和條件。

        螢幕擷取畫面:Log Analytics 工作區延遲問題的 [建立警示規則精靈]。

      2. 請遵循在 Azure 入口網站中建立新的警示規則的其餘步驟。

檢視 Log Analytics 工作區健康情況計量

Azure 監視器會公開一組計量,以提供 Log Analytics 工作區健康情況的深入解析。

若要檢視 Log Analytics 工作區健康情況計量:

  1. 從 Log Analytics 工作區功能表中選取 [計量]。 這會在 Log Analytics 工作區的內容中開啟 [計量總管]

  2. 在 [計量] 欄位中,選取其中一個 Log Analytics 工作區健康情況計量:

    類別 度量名稱 影響範圍 描述
    SLI AvailabilityRate_Query 工作區 Log Analytics 工作區中所選時間範圍內的成功使用者查詢百分比。
    此數字包含傳回 2XX、4XX 和 504 回應碼的所有查詢;換句話說,所有不會導致服務錯誤的使用者查詢。
    SLI 擷取時間 工作區或資料表 指出記錄在 Azure 監視器記錄收到之後可供查詢使用所花費的時間(以秒為單位)。 建議您檢查 特定數據表的擷取時間

    適用於常用數據表。 若要查看工作區中哪些數據表支援擷取時間計量,請檢查此計量的數據表名稱維度值。
    SLI 擷取量 工作區或資料表 擷取至工作區或資料表的記錄數目。

    適用於常用數據表。 若要查看工作區中哪些數據表支援擷取磁碟區計量,請檢查此計量的數據表名稱維度值。
    使用者查詢 查詢計數 工作區 Log Analytics 工作區中所選時間範圍內的使用者查詢總數。
    此數字只包含使用者起始的查詢,而不包含 Sentinel 規則和警示相關查詢所起始的查詢。
    使用者查詢 查詢失敗計數 工作區 Log Analytics 工作區中所選時間範圍內的失敗使用者查詢總數。
    此數字包含傳回 5XX 回應碼 (504 閘道逾時除外) 的所有查詢,這表示與應用程式閘道或後端伺服器相關的錯誤。
    資料匯出 已匯出的位元組 工作區 在所選時間範圍內,從 Log Analytics 工作區匯出到目的地的位元組總數。 匯出的資料大小是匯出 JSON 格式資料的位元組數目。 1 GB = 10^9 個位元組。
    資料匯出 匯出失敗 工作區 Log Analytics 工作區中所選時間範圍內的失敗匯出要求總數。
    此數目包括 Azure 監視器、目的地資源可用性或節流所造成的匯出失敗。
    資料匯出 已匯出的記錄 工作區 在所選時間範圍內,從 Log Analytics 工作區匯出的記錄總數。

調查 Log Analytics 工作區健康情況問題

若要調查 Log Analytics 工作區健康情況問題:

下一步

深入了解: