分享方式:


收集正確的監視數據

觀察雲端解決方案的健康情況和可用性,有助於瞭解您系統中預期的訊號,以便判斷您應該收集的數據。

本文是雲端監視指南系列文章的一部分。

數據收集考慮

請問自己這些問題,以建立監視組態的準則:

  • 服務組合:服務組合是什麼? 這些相依性目前是否受到監視? 如果是,是否涉及多個工具,而且是否有機會合併而不引入額外的風險?

  • 定義可預測的失敗狀態:這些訊號是失敗徵兆,而不是原因。 監視工具會使用計量和記錄來進行進階診斷和根本原因分析。

  • 服務 SLA:服務的服務等級協定(SLA)是什麼,以及如何測量和報告服務?

  • 服務儀錶板設計:檢閱事件時,服務儀錶板看起來應該是什麼樣子? 服務擁有者和支援服務的小組,儀錶板看起來應該是什麼樣子?

  • 資源計量:您需要監視的解決方案會產生哪些資源計量?

  • 記錄搜尋:服務擁有者、支援小組和其他人員將如何搜尋記錄?

  • 項目關係人參與:在規劃階段包括監視服務擁有者、IT 作業經理和其他項目關係人。 繼續在整個監視解決方案的開發與發行週期中與其互動。

  • 敏感數據:我應該避免針對不想向操作員公開的應用程式收集哪些敏感數據?

如何回答這些問題,以及警示的準則,會決定您將如何使用監視平臺。

評估必要的監視訊號

無論您是使用新的監視解決方案部署新的工作負載,還是從現有的監視平臺或一組監視工具進行移轉,評估必要的監視訊號至關重要。 仔細設計所需的訊號有助於推動預期的結果並降低雜訊。

請考量下列各項:

  • 採取動作:請記住,監視數據必須可採取動作,以減少雜訊和誤判。
  • 優化:優化收集的數據,讓您全面檢視服務的整體健康情況。
  • 事件檢測:定義來識別實際事件的檢測應該盡可能簡單、可預測且可靠。

開發監視組態

監視服務的擁有者及其小組通常會遵守一組標準活動,以建立監視組態。 這些活動包括規劃階段、在非生產環境中測試及驗證,以及部署到生產環境。

為了開發監視組態,小組會利用已知的失敗模式、模擬失敗的測試結果,以及組織內各種人員的經驗,例如服務台、營運人員、工程師和開發人員。

這些設定是在假設服務已經存在、正在移轉至雲端且尚未進行重組的情況下所設計。 為了確保達到服務等級質量結果,在開發程式中早期監視這些服務的健全狀況和可用性至關重要。 如果監視服務或應用程式的設計只會被視為事後考慮,結果可能會比較不成功。

若要加快事件的解決速度,請考慮下列建議:

  • 個別元件儀錶板:為每個服務元件定義儀錶板,以協助快速識別應用程式與基礎結構任何指定區域中的任何已知問題。

  • 使用計量:利用各種元件內建的計量訊號,如果無法識別根本原因,可協助診斷和識別解決方案或因應措施。

  • 啟用儀錶板自定義:設計儀錶板,讓您可以輕鬆地從監視儀錶板向下切入數據。 請確定您支援動態自定義檢視,以便輕鬆篩選和疑難解答。

採用這組指引原則可協助您近乎即時的深入解析,並更妥善地管理您的服務。

下一步