分享方式:


使用 Azure 監視器傳送健全狀況服務錯誤的電子郵件

適用於:Windows Server 2022、Windows Server 2019、Windows Server 2016

「Azure 監視器」可藉由提供全方位的解決方案,來收集、分析及因應來自雲端和內部部署環境的遙測資料,將應用程式的可用性和效能最大化。 它可協助您了解您的應用程式表現如何,並主動識別影響它們的問題以及它們所依賴的資源。

這對內部部署超融合式叢集特別有幫助。 整合 Azure 監視器後,您將能夠設定電子郵件、文字 (SMS) 和其他警示,以在叢集發生問題時通知您 (或當您想要根據收集的資料標記其他活動時)。 以下我們將簡短說明 Azure 監視器的運作方式、如何安裝 Azure 監視器,以及如何設定它以傳送通知。

如果您使用 System Center,請參閱監視 Windows Server 2019 和 Windows Server 2016 儲存空間直接存取叢集的儲存空間直接存取管理套件

此管理套件包含:

  • 實體磁碟健全狀況和效能監視
  • 儲存體節點健全狀況和效能監視
  • 儲存集區健全狀況和效能監視
  • 磁碟區復原類型和重復資料刪除狀態

了解 Azure 監視器

Azure 監視器收集的所有資料都適合兩種基本類型之一:計量和記錄。

  1. 計量是數值,可描述系統在特定時間點的某些層面。 輕量且能夠支援接近即時的情節。 您會在 Azure 入口網站的 [概觀] 頁面中看到 Azure 監視器所收集的資料。

計量總管中內嵌計量的影像

  1. 記錄包含不同種類的資料,以針對每種類型,以不同的屬性集組織成記錄。 除了效能資料,還會將事件和追蹤之類的遙測資料儲存為記錄,讓它能夠全部合併在一起進行分析。 您可以使用查詢來分析 Azure 監視器所收集的記錄資料,以快速擷取、合併和分析收集的資料。 您可以在 Azure 入口網站中使用 Log Analytics 建立及測試查詢,然後使用這些工具直接分析資料,或儲存查詢以搭配視覺效果警示規則使用。

記錄擷取在記錄分析中的影像

以下將有更多關於如何設定這些警示的詳細資料。

使用 Windows Admin Center 將叢集上架

使用 Windows Admin Center,您可以將叢集上架至 Azure 監視器。

將叢集上線至 Azure 監視器的 Gif」

在此上架流程中,下列步驟會在幕後進行。 我們會詳細說明如何詳細設定它們,以防您想要手動設定叢集。

設定健全狀況服務

您需要做的第一件事是設定叢集。 如您所知,健全狀況服務可改善執行儲存空間直接存取之叢集的日常監視和操作體驗。

如上所述,Azure 監視器會從叢集中執行的每個節點收集記錄。 因此,我們必須將健全狀況服務設定為寫入事件通道,這恰好是:

Event Channel: Microsoft-Windows-Health/Operational
Event ID: 8465

若要設定健全狀況服務,請執行:

get-storagesubsystem clus* | Set-StorageHealthSetting -Name "Platform.ETW.MasTypes" -Value "Microsoft.Health.EntityType.Subsystem,Microsoft.Health.EntityType.Server,Microsoft.Health.EntityType.PhysicalDisk,Microsoft.Health.EntityType.StoragePool,Microsoft.Health.EntityType.Volume,Microsoft.Health.EntityType.Cluster"

當您執行上述 Cmdlet 來設定健全狀況設定時,會導致我們想要開始寫入 Microsoft-Windows-Health/Operational 事件通道的事件。

設定 Log Analytics

既然您已在叢集上設定適當的記錄,下一個步驟是正確設定記錄分析。

若要提供概觀,Azure Log Analytics 可以直接從資料中心或其他雲端環境中的實體或虛擬 Windows 電腦收集資料到單一存放庫,以取得詳細的分析和相互關聯。

若要了解支援的設定,請檢閱支援的 Windows 作業系統網路防火牆設定

如尚未擁有 Azure 訂用帳戶,請在開始之前先建立免費帳戶

登入 Azure 入口網站

請在 https://portal.azure.com 登入 Azure 入口網站。

建立工作區

如需下列步驟的詳細資訊,請參閱 Azure 監視器文件

  1. 在 Azure 入口網站中,按一下 [所有服務]。 在資源清單中,輸入 [Log Analytics]。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [Log Analytics]。

    Azure 入口網站

  2. 按一下 [建立],然後選取下列項目的選擇:

    • 提供新 [Log Analytics 工作區]的名稱,例如 DefaultLAWorkspace

    • 如果選取的預設不合適,請從下拉式清單中選取 ,以選取要連結的 [訂用帳戶]

    • 針對 [資源群組],選取包含一或多個 Azure 虛擬機器的現有資源群組。

      建立 Log Analytics 資源刀鋒視窗

  3. 在 [Log Analytics 工作區] 窗格上提供必要資訊之後,按一下 [確定]

當資訊經過驗證並建立工作區時,您可以從功能表追蹤其 [通知] 底下的進度。

取得工作區識別碼和索引鍵

安裝適用於 Windows 的 Microsoft Monitoring Agent 之前,您需要 Log Analytics 工作區的工作區識別碼和索引鍵。 安裝精靈需要此資訊,才能正確設定代理程式,並確保它可以成功與 Log Analytics 通訊。

  1. 在 Azure 入口網站中,按一下左上角的 [所有服務]。 在資源清單中,輸入 [Log Analytics]。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [Log Analytics]。
  2. 在您的 Log Analytics 工作區清單中,選取稍早建立的 [DefaultLAWorkspace]
  3. 選取 [進階設定]

    Log Analytics 進階設定

  4. 按一下 [連接的來源],然後選取 [Windows 伺服器]
  5. [工作區識別碼] 和 [索引鍵] 右邊的值。 暫時儲存這兩者 - 暫時複製並貼上到您最愛的編輯器中。

在 Windows 上安裝代理程式

下列步驟會安裝並設定 Microsoft Monitoring Agent。 請務必在叢集中的每部伺服器上安裝此代理程式,並表示您希望代理程式在 Windows 啟動時執行。

  1. 在 [Windows Server] 頁面上,根據 Windows 作業系統的處理器架構,選取適當的 [下載 Windows 代理程式] 版本來下載。
  2. 執行安裝程式以在您的電腦上安裝代理程式。
  3. 在 [歡迎] 頁面中按 [下一步]。
  4. 在 [授權條款] 頁面上,閱讀授權,然後按一下 [我同意]
  5. 在 [目的地資料夾] 頁面上,變更或保留預設安裝資料夾,然後按 [下一步]
  6. 在 [代理程式安裝選項] 頁面上,選擇將代理程式連線到 Azure Log Analytics,然後按 [下一步]
  7. 在 [Azure Log Analytics] 頁面上,執行下列動作:
    1. 貼上您稍早複製的 [工作區識別碼] 和 [工作區索引鍵 (主鍵)]。 a. 如果電腦需要透過 Proxy 伺服器與 Log Analytics 服務通訊,請按一下 [進階],並提供 Proxy 伺服器的 URL 和連接埠號碼。 如果您的 Proxy 伺服器需要驗證,請輸入使用者名稱和密碼以向 Proxy 伺服器進行驗證,然後按 [下一步]
  8. 完成提供必要組態設定後,按 [下一步]

    貼上工作區標識碼和主鍵

  9. 在 [安裝準備就緒] 頁面上,檢閱您的選擇,然後按一下 [安裝]
  10. 在 [設定成功完成] 頁面上,按一下 [完成]

完成後,Microsoft Monitoring Agent就會顯示在控制台。 您可以檢閱您的設定,並確認代理程式已連線到 Log Analytics。 連線時,在 [Azure Log Analytics] 索引標籤上,代理程式會顯示一則訊息,指出: [Microsoft Monitoring Agent 已成功連線到 Microsoft Log Analytics 服務。]

LOG Analytics 的 MMA 連線狀態

若要了解支援的設定,請檢閱支援的 Windows 作業系統網路防火牆設定

使用 Windows Admin Center 設定警示

在 Windows Admin Center 中,您可以設定將套用至 Log Analytics 工作區中所有伺服器的預設警示。

短片,顯示使用者設定預設警示,以套用至 Log Analytics 工作區中的所有伺服器。

這些是您可以加入的警示及其預設條件:

警示名稱 預設條件
CPU 使用率 超過 85% 達 10 分鐘
磁碟容量使用率 超過 85% 達 10 分鐘
記憶體使用率 可用記憶體少於 100 MB 達 10 分鐘
活動訊號 少於 2 次挑戰達 5 分鐘
系統嚴重錯誤 叢集系統事件記錄檔中的任何重大警示
健全狀況服務警示 叢集上的任何健全狀況服務錯誤

在 Windows Admin Center 中設定警示之後,您可以在 Azure 中的 Log Analytics 工作區中看到警示。

短片,顯示使用者在 Azure 中的記錄分析工作區中存取警示。

在此上架流程中,下列步驟會在幕後進行。 我們會詳細說明如何詳細設定它們,以防您想要手動設定叢集。

收集事件和效能資料

Log Analytics 可以從您為長期分析和報告指定的 Windows 事件記錄檔和效能計數器收集事件,並在偵測到特定條件時採取動作。 請遵循下列步驟來設定從 Windows 事件記錄檔收集事件,以及數個要開始使用的常見效能計數器。

  1. 在 Azure 入口網站中,按一下左下角的 [更多服務]。 在資源清單中,輸入 [Log Analytics]。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [Log Analytics]。
  2. 選取 [進階設定]

    Log Analytics 進階設定

  3. 選取 [資料],然後選取 [Windows 事件記錄檔]
  4. 在這裡,輸入下列名稱,然後按一下加號 +,以新增健全狀況服務事件通道。
    Event Channel: Microsoft-Windows-Health/Operational
    
  5. 在資料表中,檢查嚴重性 [錯誤] 和 [警告]
  6. 按一下頁面頂端的 [儲存] 以儲存設定。
  7. 選取 [Windows 效能計數器],以啟用 Windows 電腦上的效能計數器集合。
  8. 當您第一次設定新 Log Analytics 工作區的 Windows 效能計數器時,您可以選擇快速建立數個常見的計數器。 它們在列出後每個旁邊都有一個核取方塊。
    已選取預設 Windows 性能計數器
    按一下 [新增選定的效能計數器]。 系統會使用十秒的集合取樣間隔來新增和預設它們。
  9. 按一下頁面頂端的 [儲存] 以儲存設定。

根據記錄資料建立警示

如果到目前為止,您的叢集應該會將記錄和效能計數器傳送至 Log Analytics。 下一個步驟是建立警示規則,以定期自動執行記錄搜尋。 如果記錄搜尋的結果符合特定準則,則會引發警示,以傳送電子郵件或文字通知給您。 讓我們在下面探索這一點。

建立查詢

從開啟記錄搜尋入口網站開始。

  1. 在 Azure 入口網站中,按一下 [所有服務]。 在資源清單中,輸入 [監視]。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [監視]
  2. 在 [監視] 導覽功能表上,選取 [Log Analytics],然後選取工作區。

擷取一些要處理資料的最快方法是一個簡單的查詢,可傳回資料表中的所有記錄。 在搜尋方塊中輸入下列查詢,然後按一下 [搜尋] 按鈕。

Event

資料會在預設清單檢視中傳回,您可以看到傳回的總記錄數。

簡單查詢

畫面左側是篩選窗格,可讓您將篩選新增至查詢,而不需直接修改。 該記錄類型會顯示數個記錄屬性,您可以選取一或多個屬性值來縮小搜尋結果的範圍。

選取 [EVENTLEVELNAME] 底下 [錯誤] 旁的核取方塊,或輸入下列內容,將結果限制為錯誤事件。

Event | where (EventLevelName == "Error")

篩選器

針對您關心的事件進行適當的查詢之後,請儲存以供下一個步驟使用。

建立警示

現在,讓我們逐步解說建立警示的範例。

  1. 在 Azure 入口網站中,按一下 [所有服務]。 在資源清單中,輸入 [Log Analytics]。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [Log Analytics]。

  2. 在左側窗格中,選取 [警示],然後按一下頁面頂端的 [新增警示規則],以建立新的警示。

    建立新的警示規則

  3. 在第一個步驟中,您會在 [建立警示] 區段下選取 Log Analytics 工作區作為資源,因為這是記錄型警示訊號。 如果您有多個訂用帳戶,其中包含稍早建立的 Log Analytics 工作區,請從下拉式清單中選擇特定的 [訂用帳戶] 來篩選結果。 從下拉式清單中選取 [Log Analytics],以篩選 [資源類型]。 最後,選取 [ 資源 DefaultLAWorkspace ],然後按兩下 [ 完成]。

    建立警示步驟 1 工作

  4. 在 [警示準則] 區段下,按一下 [新增準則] 以選取您儲存的查詢,然後指定警示規則所遵循的邏輯。

  5. 使用下列資訊設定警示:a. 從 [根據] 下拉式清單中,選取 [計量度量]。 計量度量會針對查詢中的每個物件建立警示,其值超過我們指定的臨界值。 b. 針對 [條件],選取 [大於] 並指定臨界值。 c. 然後定義觸發警示的時機。 例如,您可以選取 [連續違規],然後從下拉式清單中選取 [大於] 3 的值。 d. 在 [評估依據] 區段底下,將 [期間] 值修改為 [30] 分鐘,並將 [頻率] 修改為 5。 此規則會每隔五分鐘執行一次,並傳回自目前時間前三十分鐘內建立的記錄。 將時間週期設定為較寬的時段會考慮資料延遲的可能性,並確保查詢會傳回資料,以避免誤判 (警示永遠不會觸發)。

  6. 按一下 [完成] 以完成警示規則。

    設定警示訊號

  7. 現在移至第二個步驟,請在 [警示規則名稱] 欄位中提供警示的名稱,例如 [所有錯誤事件的警示]。 指定詳細資料警示的 [描述],然後從提供的選項中選取 [嚴重性] 值 的 [重大(Sev 0)]

  8. 若要在建立時立即啟用警示規則,請接受 [在建立時啟用規則] 的預設值。

  9. 針對第三個步驟和最後一個步驟,您可以指定 [動作群組],以確保每次觸發警示時都會採取相同的動作,並可用於您定義的每個規則。 使用下列資訊設定新的動作群組:a. 選取 [新增動作群組],[新增動作群組] 窗格隨即出現。 b. 針對 [動作群組名稱],指定 [IT 作業 - 通知] 之類的名稱,以及 [itops-n] 等 [簡短名稱]。c.確認 [訂用帳戶] 和 [資源群組] 的預設值正確。 如果不是,請從下拉式清單中選取正確的名稱。 d. 在 [動作] 區段下,指定動作的名稱,例如 [傳送電子郵件],然後在 [動作類型] 下選取下拉式清單中的 [電子郵件/SMS/推播/語音]。 [電子郵件/SMS/推播/語音] 屬性窗格會在右側開啟,以提供其他資訊。 e. 在 [電子郵件/SMS/推播/語音] 窗格中,選取並設定您的喜好設定。 例如,啟用 [電子郵件],並提供有效的 SMTP 位址,以將郵件傳遞至 f。 按一下 [確定] 以儲存您的變更。

    建立新的動作群組

  10. 按一下 [確定] 以完成動作群組。

  11. 按一下 [建立警示規則] 以完成警示規則。 它會立即開始執行。

    完成建立新的警示規則

範例警示

如需參考,這就是 Azure 中範例警示的外觀。

Azure 中的警示 GIF

以下是您將由 Azure 監視器傳送的電子郵件範例:

警示電子郵件範例

其他參考