共用方式為


管理異常

本文可協助您瞭解 FinOps Framework 內的管理異常功能,以及如何在 Microsoft Cloud 中實作。

定義

管理異常是指及時偵測和解決異常或非預期的成本和使用模式的做法。

使用自動化工具來偵測異常並通知專案關係人。 定期檢閱使用趨勢,以顯示自動化工具可能遺漏的異常狀況。

調查應用程式行為、資源使用率和資源組態的變更,以找出異常的根本原因。

透過對異常偵測、分析和解決的系統化方法,組織可以將影響預算和商務營運的非預期成本降到最低。 此外,他們甚至可以識別並防止可在成本資料中出現的安全性和可靠性事件。

開始使用

第一次開始在雲端中管理成本時,您會使用入口網站中提供的原生工具。

  • 從主動式警示開始。
    • 針對環境中的每個訂用帳戶訂閱異常警示,以便在根據歷程記錄使用量偵測到正常使用情況出現異常峰值或下降時收到電子郵件警示。
    • 建議您 [訂閱已排程的警示],以與專案關係人共用最近成本趨勢的圖表。 它可協助您提高認知,因為成本隨著時間變化,並可能掌握異常模型可能遺漏的變更。
    • 請考慮 [在成本管理中建立預算],以追蹤該特定範圍或工作負載。 針對更精細的目標指定篩選並設定實際和預測成本的警示。
  • 使用詳細的成本明細、使用量分析和視覺效果,定期檢閱成本,以找出可能遺漏的潛在異常。
  • 識別異常之後,請採取適當的動作來解決它。
    • 請與管理相關雲端資源的工程師一起檢閱異常詳細資料。 一些自動偵測到的「異常」是計劃的或至少已知的資源組態變更,其為建置和管理雲端服務的一部分。
    • 如果您需要較低層級的使用量詳細資料,請檢閱 Azure 監視器計量中的資源使用率。
    • 如果您需要資源詳細資料,請檢閱 Azure Resource Graph 中的資源組態變更

建置在基本之上

此時,您已設定自動化警示,並在理想情況下儲存檢視和報告,以簡化定期檢查。

  • 建立並自動化 KPI,例如:
    • 每月或每季的異常數目。
    • 每月或每季異常的總成本影響
    • 偵測和解決異常的回應時間。
    • 誤判為真和誤否定數目。
  • 擴充異常偵測和回應處理序的涵蓋範圍,以包含所有成本。
  • 定義、記錄和自動化工作流程,以在偵測到異常時引導回應處理序。
  • 培養持續學習、創新和共同作業的文化。
    • 根據意見反應、產業最佳做法和新興技術,定期檢閱和精簡異常管理處理序。
    • 提升知識共用和跨功能共同作業,以推動異常偵測和回應功能的持續改善。

在 FinOps Foundation 深入瞭解

這項功能是 FinOps Foundation 的 FinOps Framework 的一部分,這是一個致力於推進雲端成本管理和最佳化的非盈利組織。 如需 FinOps 的詳細資訊,包括實用的劇本、訓練和認證計劃等等,請參閱 FinOps Framework 文件中的管理異常功能一文。

下一步