監視 Log Analytics 工作區健康情況

Azure 服務健康狀態 會監視雲端資源的健康情況,包括Log Analytics工作區。 當 Log Analytics 工作區狀況良好時,您從 IT 環境中的資源收集數據,可在相對較短的時間內進行查詢和分析,稱為 延遲。 本文說明如何檢視Log Analytics工作區的健全狀況狀態、設定工作區健全狀況狀態警示,以及檢視工作區健康情況計量。

Azure 服務健康狀態監視器:

  • 資源健康情況:個別雲端資源健康情況的相關信息,例如特定的Log Analytics工作區。
  • 服務健康情況:您所使用的 Azure 服務和區域健康情況相關信息,可能會影響 Log Analytics 工作區,包括中斷、計劃性維護活動和其他健康情況諮詢的通訊。

需要的權限

  • 若要檢視 Log Analytics 工作區健全狀況,您需要 */read Log Analytics 工作區的許可權,例如 Log Analytics 讀取器內建角色所提供的許可權。
  • 若要設定健全狀態警示,您需要 Microsoft.Insights/ActivityLogAlerts/Write Log Analytics工作區的許可權,例如監視參與者內建角色所提供的許可權。

檢視 Log Analytics 工作區健全狀況並設定健康情況狀態警示

若要檢視Log Analytics工作區健康情況,並設定健康情況狀態警示:

  1. 從 [Log Analytics 工作區] 功能選取 [資源健康情況 ]。

    [ 資源健康情況] 畫面顯示:

    • 健全狀況歷程記錄:指出 Azure 服務健康狀態是否偵測到特定 Log Analytics 工作區中的延遲或查詢執行問題。 若要進一步調查與工作區相關的延遲問題,請參閱 調查延遲
    • Azure 服務問題:當 Azure 服務的已知問題可能會影響 Log Analytics 工作區中的延遲時顯示。 選取訊息以檢視 Azure 服務健康狀態中服務問題的詳細數據。

    注意

    • 服務健康情況 通知不會指出您的Log Analytics工作區一定受到已知服務問題的影響。 如果您的Log Analytics工作區資源健康情況狀態為 [可用],Azure 服務健康狀態不會偵測到工作區中的問題。
    • 資源健康狀態 會排除預期長時間擷取延遲的數據類型。 例如,計算應用程式對應數據的 Application Insights 數據類型,且已知會新增延遲。

    顯示 Log Analytics 工作區之 [資源健康情況] 畫面的螢幕快照。

    下表描述 Log Analytics 工作區的可能資源健康狀態值:

    資源健康情況狀態 Description
    可用的 平均延遲 且未偵測到任何查詢執行問題。
    [無法使用] 偵測到的延遲高於平均延遲。
    已降級 偵測到查詢失敗。
    Unknown 目前無法判斷 Log Analytics 工作區健全狀況,因為您最近尚未執行查詢或擷取到此工作區的數據。
  2. 若要設定健全狀態警示,您可以 啟用現用的警示規則, 或手動建立新的警示規則。

    • 若要啟用建議的警示規則:

      1. 選取 [警示>啟用建議的警示規則]。

        [ 啟用建議的警示規則 ] 窗格隨即開啟,其中包含Log Analytics工作區的建議警示規則清單。

        建議警示規則窗格的螢幕快照。

      2. 在 [在下列情況時警示我] 區段中,選取您想要啟用的所有規則。

      3. 在 [在下列情形通知我] 區段中,選取您想要在觸發警示時收到通知的方式。

      4. 選取 [使用現有的動作群組],如果您想要使用已存在的動作群組,請輸入現有動作群組的詳細資料。

      5. 選取啟用

    • 若要建立新的警示規則:

      1. 選取 [ 新增資源健康情況警示]。

        [建立警示規則精靈] 隨即開啟,並預先填入 [範圍] 和 [條件] 窗格。 根據預設,規則會觸發警示訂用帳戶中所有Log Analytics工作區中的所有狀態變更。 如有必要,您可以在此階段編輯和修改範圍和條件。

        顯示 Log Analytics 工作區延遲問題的 [建立警示規則精靈] 的螢幕快照。

      2. 請遵循在 Azure 入口網站 中建立新警示規則中的其餘步驟

檢視 Log Analytics 工作區健康情況計量

Azure 監視器會公開一組計量,以提供Log Analytics工作區健康情況的深入解析。

若要檢視Log Analytics工作區健康情況計量:

  1. 從 Log Analytics 工作區功能表中選取 [計量 ]。 這會在Log Analytics工作區的內容中開啟 [計量總 管]。

  2. 在 [ 計量] 欄位中,選取其中一個 Log Analytics 工作區健康情況計量:

    類別 度量名稱 影響範圍 描述
    SLI AvailabilityRate_Query 工作區 所選時間範圍內Log Analytics工作區中成功用戶查詢的百分比。
    此數位包含傳回 2XX、4XX 和 504 回應碼的所有查詢;換句話說,所有用戶查詢都不會產生服務錯誤。
    SLI 擷取時間 工作區或數據表 在 Azure 監視器記錄雲端服務中收到記錄之後,所花費的時間以秒為單位,直到可供查詢使用為止。 建議檢查特定數據表的擷取時間。 如需詳細資訊,請參閱這裡
    SLI 擷取磁碟區 工作區或數據表 擷取至工作區或數據表的記錄數目。
    用戶查詢 查詢計數 工作區 Log Analytics 工作區中所選時間範圍內的用戶查詢總數。
    此數位只包含使用者起始的查詢,且不包含 Sentinel 規則和警示相關查詢所起始的查詢。
    用戶查詢 查詢失敗計數 工作區 Log Analytics 工作區中所選時間範圍內的失敗用戶查詢總數。
    此數位包含傳回 5XX 回應碼的所有查詢,但 504 閘道逾 時除外,這表示與應用程式閘道或後端伺服器相關的錯誤。
    數據匯出 導出的位元組 工作區 從所選時間範圍內從Log Analytics工作區匯出至目的地的位元組總數。 匯出的數據大小是匯出 JSON 格式數據中的位元元組數目。 1 GB = 10^9 個位元組。
    數據匯出 匯出失敗 工作區 所選時間範圍內Log Analytics工作區中失敗的導出要求總數。
    此數目包括 Azure 監視器、目的地資源可用性或節流所造成的匯出失敗。
    數據匯出 導出的記錄 工作區 從所選時間範圍內從Log Analytics工作區導出的記錄總數。

調查Log Analytics工作區健全狀況問題

若要調查Log Analytics工作區健康情況問題:

下一步

深入了解: