雲端監視和回應

本文是雲端監視指南系列文章的一部分。

回應是根據數據驅動決策定義一或多個 動作 的結果,這些決策可讓服務取用者:

  • 使其可採取動作:使用微調良好的監視組態來建立可採取動作的訊號。
  • 持續監視:在整個事件和疑難解答活動中套用監視,以進一步協助診斷問題。
  • 自動化:根據識別的訊號設定自動調查、診斷、解決、復原和補救。

重要原則適用於這裡。 這有助於處理流程或原則,以調整和優化警示、通知和報表摘要。 雲端監視不僅僅是通知人類發生錯誤。 這也是為了向系統和服務提供信號來做出反應。

監視在各種案例中扮演重要角色:

  • 啟用動態服務行為:動態控制系統和服務會根據監視數據做出反應,並自動消除事件。
  • 持續評估訊號:持續通知並提供動態程式、合規性、自動調整和視覺效果的遙測數據。
  • 組織動作:協助IT組織處理和管理變更。

警示

自動化會取代新式雲端環境中更昂貴的服務管理程式,並消除更多事件。 警示在意識中扮演重要角色,但必須可採取動作,以避免警示疲勞或噪音。

定義警示有助於主動確保服務和系統保持狀況良好、回應性、可靠且安全。 保證效能、維護 服務等級目標 (SLO)、可用性和隱私權需要適當的警示策略。 呈報警示對可觀察性並不重要,而且今天不應被視為第一道防線。 相反地,自動化應該在這裡扮演重要角色。

傳統上,監視意謂著引發有人可以採取行動的警示,這表示完全反應式的程式。 此方法必須遵循新式服務管理或雲端作業做法進行修訂。 這種方法會密切遵循傳統的ITIL事件管理路徑,這不符合透過靈活度、最低成本和優化實現雲端效率的目標。

新式方法可能會有更具資訊且自動化的偵測到條件頻率,例如:

偵測到的條件 基本動作 新式動作
  • 效能計量 - 高記憶體使用率。
  • 安全性威脅 - 偵測到可疑的網路活動。
  • 可用性錯誤 - Azure Blob 記憶體要求失敗。
  • 警示和通知, Webhook, 推播通知, 劇本, 自動調整 查詢記錄以識別違規元件並觸發自動化,以更正違規元件的問題。

    以下是 Azure 中警示和自動化功能的相關資源清單:

    新式雲端監視

    相較於過去可用的監視平臺和相關工具,雲端運算提供:

    • 設計回應選項的彈性要大得多。
    • 開發及啟用自動化響應的簡單方式。
    • 雲端通訊協定或 API 方法可更輕鬆地與工作管理系統整合,包括 DevOps。

    針對自動化動作的範圍,請考慮下列模式,無論是用於調查、擴充、路由、指派、補救、復原或解決:

    協調流程方法 描述
    全自動 動作會自動執行。 完整自動化應該證明可靠、有效率且耐久,其用途不是短期且安全。 完全自動化可釋出您的資源,讓他們更專注於您的策略計劃。
    半自動化 任何補救動作都需要核准。
    手動 操作員會從策劃的連結庫選取自動化範例或劇本。

    警示取決於以安全性事件、效能計量、可用性資訊和記錄為基礎的已檢測數據。 數據驅動動作是由分析每個受監視資源的整體、端對端觀點所產生,方法是匯總和處理不同的收集的數據類型,以判斷影響和要採取的回應動作。

    使用這些資源展開您的閱讀,以深入瞭解以計量警示和安全性事件為基礎的自動化:

    成本效益

    如同其他可觀察性專業領域,小組必須瞭解並瞭解成本影響,以及支援新式事件管理中所定義的回應類型如何協助控制成本。 雖然總體目標是藉由快速回應並解決問題來減少平均復原時間(MTTR),但您必須持續評估對IT或商務營收流的潛在成本及影響。

    每個報告的事件都有成本。 假設組織投資協調流程來自動化回應。 在此情況下,您應該藉由增加雲端服務的耗用量,利用啟用自動化的服務或功能,來評估成本的成本效益和影響。

    自動化

    雲端自動化提供安全性與健康情況監視的顯著優勢。 速度、彈性和精確度是雲端自動化為回應式作業帶來的三個原型。 這通常稱為協調流程,而 Microsoft 雲端提供數個服務。

    例如:

    1. 從一或多個記錄偵測到身分識別驅動威脅,引發警示。
    2. 自動化會立即觸發,以收集更多資訊,並相互關聯更多記錄以擴充警示。
    3. 操作員會藉由從連結庫選取正確的自動化來執行動作,例如停用用戶帳戶。

    範例或使用案例可以完全自動化。

    自動化的角色接著會提供一種可降低成本並節省時間的 劇本

    • 不需要任何安全性事件,才能進行冗長的調查、診斷、解決和復原。
    • 偵測到更正週期可能以秒或分鐘為單位,而不是小時數。

    接下來,您的小組必須建置可靈活使用的自動化範例清單或連結庫,無論是從公用網站上的原材料,或是內部策劃並儲存在原始檔控制存放庫中。

    以下是根據身分識別或安全性事件進行更多自動化的建議閱讀清單:

    成功的警示策略

    您無法修正您不知道的內容已中斷。

    對重要事項發出警示。 其基礎是收集和測量正確的計量和記錄。 您也需要能夠儲存、匯總、可視化、分析及在符合條件時起始自動化回應的監視工具。 只有當您完全瞭解服務與應用程式組合時,您才能改善服務的可檢視性。 您可以將該組合對應至監視平臺所套用的詳細監視組態。 此組態包含可預測的失敗狀態(徵兆,而非失敗的原因)對於警示有道理。

    資訊警示

    在某些情況下,某些警示可能具 參考性。 我們可以使用此功能來瞭解我們的系統運作方式。 例如,您可能想要取得這些參考警示:

    • VM 已關閉:VM 會自動關閉,以 根據偵測到的排程或低使用率,將浪費降至最低並控制成本

      在此範例中,協調流程會根據原生排程功能以及偵測使用率狀況的監視平臺來使用。 它不會通知或呈報為唯一動作的警示,而是通知您所執行的動作,以及原因。

    • 閑置資源:IaaS 或 PaaS 資源會長時間閑置,或未根據 Azure Advisor 建議布建。

      在此範例中,協調流程可用來根據商業規則或 ITSM 程式工作流程來管理這些基礎結構相關活動。 現今需要更快速的回應和動作。 使用雲端時,對於人類來說, 警示 會比自動化回應或持續協調流程減少為自動化價值數據流的一部分。

    警示策略考慮

    請記住,學習是關鍵,且設計正確時,資訊警示可讓您深入瞭解您的雲端生態系統和健康情況。

    請考慮下列準則來判斷徵兆是否為適當的警示候選專案:

    • 可採取動作: 問題是否重要? 它是否反映應用程式健康情況的真正問題? 例如,您可能會想要在資源持續期間內 CPU 使用率過高或 SQL 查詢持續造成效能問題時傳送警示,但您可能不想在 CPU 尖峰在短時間內傳送警示。 讓事情能夠採取動作,以減少誤判並避免警示疲勞。

    • 緊迫性: 問題是否需要緊急關注? 如果是,應該立即通知負責小組。

    • 客戶影響: 服務或應用程式的使用者是否受到問題的影響?

    • 對相依系統的影響: 是否有相互關聯的相依性警示可以相互關聯,以避免通知不同的小組都處理相同的問題?

    有了這些初始考慮,您就可以開始開發監視組態。 您可以測試及驗證環境之間的假設。 例如,在非生產環境中持續評估這些考慮和問題,以及生產環境。 持續改善是成功回應監視訊號的關鍵。

    持續評估工作內容時,請考慮詢問您自己這些問題,以協助提高監視回應效率的認知:

    • 警示量: 您是否收到高警示量? 是否有許多無法採取動作的警示可以避免?
    • 未注意到的問題: 您是否從遇到監視設定未攔截到問題的使用者取得報告或票證?
    • 誤判: 您是否收到未正確標幟的警示或訊號?
    • 警示或事件: 您真的需要傳送警示,或某些引發的警示是否只是系統中標幟的事件? 如果查詢訊號時出現,而不是傳送警示,那麼是否足以避免警示疲勞和非可採取動作的通知?

    如需深入瞭解 Microsoft 監視解決方案的功能,請參閱本文系列中的監視平臺概觀。

    下一步