共用方式為


如何在 HDInsight 中使用 Azure 監視器記錄來監視叢集可用性

HDInsight 叢集包括 Azure 監視器記錄整合,而這提供可查詢的計量和記錄,以及可設定的警示。 本文顯示如何使用 Azure 監視器來監視叢集。

Azure 監視器記錄整合

Azure 監視器記錄可將多個資源 (例如 HDInsight 叢集) 所產生的資料收集並彙總至一個位置,以達到統一的監視體驗。

先決條件是,您將需要 Log Analytics 工作區來儲存收集到的資料。 如果您尚未建立,則可以遵循這裡的指示:建立 Log Analytics 工作區

啟用 HDInsight Azure 監視器記錄整合

從入口網站的 HDInsight 叢集資源頁面中,選取 [Azure 監視器]。 然後,選取 [啟用],並從下拉式清單中選取您的 Log Analytics 工作區。

HDInsight Operations Management Suite。

根據預設,這會在所有叢集節點上安裝 OMS 代理程式,但邊緣節點除外。 因為未在叢集邊緣節點上安裝 OMS 代理程式,所以 Log Analytics 中預設不會有邊緣節點的任何遙測。

查詢計量和記錄資料表

啟用 Azure 監視器記錄整合之後 (這可能需要幾分鐘的時間),請導覽至您的 [Log Analytics 工作區] 資源,然後選取 [記錄]

Log Analytics 工作區記錄。

記錄會列出一些範例查詢,例如:

查詢名稱 描述
今天的電腦可用性 以圖表呈現傳送記錄的電腦數目 (每小時)
列出活動訊號 列出過去一小時內的所有電腦活動訊號
每部電腦的最後一個活動訊號 顯示每部電腦所傳送的最後一個活動訊號
無法使用的電腦 列出過去 5 小時內未傳送活動訊號的所有已知電腦
可用性比率 計算每個已連線電腦的可用率

例如,選取該查詢上的 [執行],以執行 [可用率] 範例查詢,如上述螢幕擷取畫面所示。 這將會以百分比顯示叢集中每個節點的可用率。 如果您已啟用多個 HDInsight 叢集以將計量傳送至相同的 Log Analytics 工作區,則將會看到這些所顯示叢集中所有節點的可用率 (排除邊緣節點)。

Log Analytics 工作區記錄「可用性速率」範例查詢。

注意

可用率會以 24 小時期間進行測量,因此您的叢集至少需要先執行 24 小時,才能看到精確的可用率。

您可以按一下右上角的 [釘選],以將此資料表釘選至共用儀表板。 如果您沒有任何可寫入的共用儀表板,則可以在這裡了解如何建立儀表板:在 Azure 入口網站中建立和共用儀表板

Azure 監視器警示

您也可以設定 Azure 監視器警示,而這些警示會在計量的值或查詢的結果符合特定條件時觸發。 例如,如果有一或多個節點尚未在 5 小時內傳送活動訊號 (即假設無法使用),則請建立警示來傳送電子郵件。

從 [記錄] 中,選取對該查詢 [執行],以執行 [無法使用的電腦] 範例查詢,如下所示。

Log Analytics 工作區記錄「無法使用的計算機」範例。

如果所有節點都可使用則此查詢現在應該會傳回零個結果。 按一下 [新增警示規則],以開始設定此查詢的警示。

Log Analytics 工作區新的警示規則。

警示有三個元件:要為其建立規則的「資源」(在此案例中為 Log Analytics 工作區)、可觸發警示的「條件」,以及決定觸發警示時所發生情況的「動作群組」。 按一下 [條件標題] (如下所示),以完成訊號邏輯的設定。

入口網站警示建立規則條件。

這將會開啟 [設定訊號邏輯]

設定 [警示邏輯] 區段,如下所示:

根據:「結果數目」、條件:大於、閾值:0。

因為詢只會傳回無法使用的節點作為結果,所以如果結果數目超過 0,則應該會引發警示。

在 [評估依據] 區段中,根據您想要檢查無法使用節點的頻率來設定 [期間] 和 [頻率]

為了達到此警示的目的,建議您確定 Period=Frequency。您可在此處找到期間、頻率和其他警示參數的詳細資訊。

完成訊號邏輯的設定時,請選取 [完成]

警示規則會設定訊號邏輯。

如果您還沒有現有的動作群組,則請按一下 [動作群組] 區段下的 [新建]

警示規則會建立新的動作群組。

這將會開啟 [新增動作群組]。 選擇 [動作群組名稱]、[簡短名稱]、[訂用帳戶] 和 [資源群組]。在 [動作] 區段下,選擇 [動作名稱],然後選取 [電子郵件/SMS/推送/語音] 作為 [動作類型]

注意

除了電子郵件/簡訊/推播/語音以外,警示還可以觸發數個其他動作,例如 Azure 函數、LogicApp、Webhook、ITSM 和自動化 Runbook。 深入了解

這將會開啟 [電子郵件/簡訊/推送/語音]。 選擇收件者的 [名稱]、核取 [電子郵件] 方塊,然後輸入您想要傳送警示的目標電子郵件地址。 在 [電子郵件/簡訊/推送/語音] 中選取 [確定],然後在 [新增動作群組] 中完成動作群組的設定。

警示規則會建立新增動作群組。

在這些刀鋒視窗關閉之後,您應該會看到 [動作群組] 區段下列出動作群組。 最後,輸入 [警示規則名稱] 和 [描述],然後選擇 [嚴重性],以完成 [警示詳細資料] 區段。 按一下 [建立警示規則] 以完成。

入口網站會建立警示規則完成。

提示

指定 [嚴重性] 的能力是一種功能強大的工具,可在建立多個警示時使用。 例如,如果單一前端節點關閉,而在另一個警示引發嚴重性(嚴重性 1)時,如果兩個前端節點都不太可能關閉,您可以建立一個警示來引發警告(嚴重性 1)。

符合此警示的條件時,將會引發警示,而且您將會收到含有警示詳細資料的電子郵件,如下所示:

Azure 監視器警示電子郵件範例。

您也可以移至 [Log Analytics 工作區] 中的 [警示],以檢視已引發並依嚴重性分組的所有警示。

Log Analytics 工作區警示。

當您選取嚴重性群組時(例如 嚴重性 1, 如上方醒目提示),它會顯示該嚴重性的所有警示的記錄,如下所示:

顯示 Log Analytics 工作區嚴重性一個警示的螢幕快照。

下一步