使用 Metrics Advisor 診斷事件
重要
從 2023 年 9 月 20 日起,您將無法建立新的 Metrics Advisor 資源。 Metrics Advisor 服務將于 2026 年 10 月 1 日淘汰。
什麼是事件?
在特定時間戳記的一個計量內,在多個時間序列上偵測到異常時,Metrics Advisor 會自動將共用相同根本原因 的異常 分組成一個事件。 事件通常表示實際問題,Metrics Advisor 會在其中執行分析,並提供自動根本原因分析見解。
這可大幅移除客戶檢視每個個別異常的工作,並快速找出問題最重要的因素。
Metrics Advisor 所產生的警示可能包含多個事件,而且每個事件可能包含在同一個時間戳記的不同時間序列上擷取的多個異常。
診斷事件的路徑
從警示通知診斷
如果您已設定電子郵件/Teams 類型的勾點,並至少套用一個警示設定。 然後,您會收到由 Metrics Advisor 分析的事件持續警示通知。 在通知中,有事件清單和簡短描述。 針對每個事件,會有 [ 診斷] 按鈕,選取它會引導您前往事件詳細資料頁面,以檢視診斷深入解析。
診斷「事件中樞」中的事件
Metrics Advisor 中有一個中心位置,可收集已擷取的所有事件,並輕鬆地追蹤任何進行中的問題。 選取左側導覽列中的 [ 事件中樞 ] 索引標籤,將會列出所選計量內的所有事件。 在事件清單中,選取其中一個來檢視詳細的診斷深入解析。
診斷計量頁面中所列的事件
在 [計量詳細資料] 頁面中,有一個名為 [事件 ] 的索引標籤,其中列出針對此計量擷取的最新事件。 清單可以依事件的嚴重性或計量的維度值進行篩選。
在清單中選取一個事件,將引導您前往事件詳細資料頁面,以檢視診斷深入解析。
一般診斷流程
導向事件詳細資料頁面之後,您可以利用 Metrics Advisor 自動分析的深入解析,快速找出問題的根本原因,或流量分析工具進一步評估問題影響。 事件詳細資料頁面中有三個區段,對應到診斷事件的三個主要步驟。
步驟 1:檢查目前事件的摘要
第一節列出目前事件的摘要,包括基本資訊、動作 & 追蹤,以及分析的根本原因。
基本資訊包括圖表「影響開始 & 結束時間」、「事件嚴重性」和「包含的總異常」圖表。 閱讀本文後,您可以基本瞭解進行中的問題及其影響。
動作 & 追蹤是用來協助小組共同作業進行進行中的事件。 有時候,一個事件可能需要牽涉到跨小組成員的心力來分析並加以解決。 有權檢視事件的每個人都可以新增動作或追蹤事件。
例如,在識別事件和根本原因之後,工程師可以新增具有「自訂」類型的追蹤專案,並在批註區段中輸入根本原因。 將狀態保留為 「作用中」。 然後,其他隊友可以共用相同的資訊,並知道有人正在修復。 您也可以新增 「Azure DevOps」專案,以追蹤具有特定工作或 Bug 的事件。
分析的根本原因是自動分析的結果。 Metrics Advisor 會分析在同一個時間戳記上,以不同維度值在時間序列上擷取的所有異常。 然後執行相互關聯,將相關的異常群組在一起,並產生根本原因建議。
針對具有多個維度的計量,通常會同時偵測到多個異常。 不過,這些異常可能會共用相同的根本原因。 利用 分析的根本原因 ,而不是逐一分析所有異常狀況,應該是診斷目前事件最有效率的方式。
步驟 2:檢視跨維度診斷深入解析
取得基本資訊和自動分析深入解析之後,您可以使用「診斷樹狀結構」 ,以整體方式 取得相同計量內其他維度異常狀態的詳細資訊。
對於具有多個維度的計量,Metrics Advisor 會將時間序列分類為階層,其名為 診斷樹狀結構 。 例如,「營收」計量是由兩個維度監視:「region」 和 「category」。 儘管有具體的維度值,但還是需要有 匯總維度 值,例如 「SUM」。 然後,「region」 = 「SUM」 和 「category」 = 「SUM」 的時間序列將會分類為樹狀結構內的根節點。 每當在 「SUM」 維度擷 取異常時,就可以向下切入和分析,找出哪個特定維度值對父節點異常造成最大貢獻。 選取每個節點以展開並查看詳細資訊。
在您的計量中啟用「匯總」維度值
Metrics Advisor 支援對維度執行「匯總」,以計算「匯總」維度值。 診斷樹狀結構支援診斷 「SUM」、「AVG」、「MAX」、「MIN」、「COUNT」 匯總。 若要啟用「匯總」維度值,您可以在資料上線期間啟用「匯總」函式。 請確定計量在數學上可 計算, 且匯總維度具有實際商業價值。
如果您的計量中沒有「匯總」維度值
如果您的計量中沒有「匯總」維度值,且資料上線期間未啟用「匯總」函式。 不會計算「匯總」維度的計量值,它會顯示為樹狀結構中的灰色節點,而且可以展開以檢視其子節點。
診斷樹狀結構的圖例
診斷樹狀結構中有三種節點:
- 藍色節點 ,對應至具有實際計量值的時間序列。
- 灰色節點 ,對應至沒有計量值的虛擬時間序列,它是邏輯節點。
- 紅色節點 ,對應至目前事件最受影響的時間序列。
節點框線的色彩會描述每個節點異常狀態
- 紅色框線 表示在與事件時間戳記對應的時間序列上擷取異常。
- 非紅色框線 表示在對應事件時間戳記的時間序列上不會擷取異常。
顯示模式
診斷樹狀結構有兩種顯示模式:只顯示異常數列或顯示主要比例。
- 只有顯示異常數列模式 ,客戶才能專注于目前擷取到不同數列的異常狀況,並診斷最高影響數列的根本原因。
- 顯示主要比例 可讓客戶檢查最高受影響系列主要比例的異常狀態。 在此模式中,樹狀結構會顯示偵測到異常的數列,以及沒有異常的數列。 但更注重重要的系列。
分析選項
顯示差異比率
「差異比率」是與父節點差異相比,目前節點差異的百分比。 以下是公式:
(目前節點的實際值 - 目前節點的預期值) / (父節點的實際值 - 父節點的預期值) * 100%
這可用來分析父節點差異的主要貢獻。
顯示值比例
「值比例」是與父節點值相比,目前節點值的百分比。 以下是公式:
(目前節點的實際值/ 父節點的實際值) * 100%
這是用來評估整個節點中目前節點的比例。
藉由使用「診斷樹狀結構」,客戶可以將目前事件的根本原因找出為特定維度。 這可大幅移除客戶檢視每個個別異常或透過不同維度進行樞紐分析以尋找主要異常貢獻的努力。
步驟 3:使用「計量圖表」檢視跨計量診斷深入解析
有時候,很難藉由檢查單一計量的異常狀態來分析問題,但需要將多個計量相互關聯。 客戶能夠設定 Metrics 圖表 ,指出計量之間的關聯性。 請參閱如何建置計量圖表 以開始使用。
在「計量圖表」內檢查根本原因維度上的異常狀態
藉由使用上述跨維度診斷結果,根本原因會限制為特定的維度值。 然後使用「計量圖表」,並依分析的根本原因維度進行篩選,以檢查其他計量上的異常狀態。
例如,如果有在「收益」計量上擷取的事件。 最受影響的數列位於具有 「region」 = 「SUM」 的全域區域。 藉由使用跨維度診斷,根本原因已位於 「region」 = 「Karachi」。 有預先設定的計量圖表,包括「營收」、「成本」、「DAU」、「PLT(頁面載入時間)」和「CHR(快取命中率)」的計量。
Metrics Advisor 會自動依「區域」= 「卡拉奇」的根本原因維度來篩選計量圖表,並顯示每個計量的異常狀態。 藉由分析計量與異常狀態之間的關聯性,客戶可以進一步瞭解什麼是最終根本原因。
自動相關的異常
藉由在計量圖表上套用根本原因維度篩選,在目前事件的時間戳記上,每個計量上的異常都會自動相關。 這些異常應該與識別出目前事件的根本原因有關。