使用計量建議程式來診斷事件
重要
從 2023 年 9 月 20 日起,您將無法建立新的計量建議程式資源。 計量建議程式服務將於 2026 年 10 月 1 日淘汰。
什麼是事件?
在特定時間戳記於一個計量內的多個時間序列上偵測到異常時,計量建議程式將會自動將「共用相同根本原因」的異常群組為一個事件。 事件通常指出實際問題,計量建議程式會對其執行分析,並提供自動根本原因分析深入解析。
這將大幅移除客戶檢視每個個別異常的投入量,並快速找出問題的最重要促成因素。
計量建議程式所產生的警示可能會包含多個事件,而且每個事件都可能包含在相同的時間戳記於不同的時間序列上擷取到的多個異常。
可診斷事件的路徑
從警示通知進行診斷
如果您已設定電子郵件/小組類型的勾點,並至少套用一個警示設定。 然後,您將會收到持續警示通知,而這些警示通知會呈報計量建議程式所分析的事件。 在通知內,具有事件清單和簡短描述。 每個事件都會有一個 [診斷] 按鈕,而選取該按鈕會將您導向至事件詳細資料頁面,以檢視診斷深入解析。
從「事件中樞」中的事件進行診斷
計量建議程式中有一個集中的位置,可收集已擷取到並可輕鬆追蹤任何進行中問題的所有事件。 在左側導覽列中,選取 [事件中樞] 索引標籤時,將會列出所選取計量內的所有事件。 在事件清單內,選取其中一個來檢視詳細的診斷深入解析。
從計量頁面中所列出的事件進行診斷
在計量詳細資料頁面內,有一個名為 [事件] 的索引標籤,其中列出針對此計量所擷取的最新事件。 此清單可以依事件的嚴重性或計量的維度值進行篩選。
在清單中選取一個事件,會將您導向至事件詳細資料頁面,以檢視診斷深入解析。
一般診斷流程
導向事件詳細資料頁面之後,您可以利用計量建議程式所自動分析的深入解析,快速找出問題的根本原因,或使用分析工具進一步評估問題影響。 事件詳細資料頁面中有三個區段對應至可診斷事件的三個主要步驟。
步驟 1: 檢查目前事件的摘要
第一個區段列出目前事件的摘要,包括基本資訊、動作和追蹤,以及已分析的根本原因。
基本資訊包括圖表「最受影響的序列」、「影響開始和結束時間」、「事件嚴重性」和「包含的異常總數」。 閱讀這項資訊,您可以基本了解進行中的問題和其影響。
動作和追蹤用來協助小組對進行中的事件進行共同作業。 有時候,一個事件可能需要跨小組成員的合作,才能對其進行分析和解決。 有權檢視事件 (Incident) 的每個人都可以新增動作或追蹤事件 (Event)。
例如,診斷事件並識別出根本原因之後,工程師可以新增具有「自訂」類型的追蹤項目,並在註解區段中輸入根本原因。 將狀態保留為 [使用中]。 然後,其他小組成員可以共用相同的資訊,並知道有人員正在處理修正程式。 您也可以新增「Azure DevOps」項目,以追蹤具有特定工作或錯誤 (bug) 的事件。
已分析的根本原因是自動分析的結果。 計量建議程式會分析在一個計量內的時間序列上擷取到的所有異常,而此計量具有相同時間戳記的不同維度值。 接著執行相互關聯、叢集處理以將相關異常群組在一起,並產生根本原因建議。
針對具有多個維度的計量,同時偵測到多個異常是常見案例。 不過,這些異常可能會共用相同的根本原因。 利用「已分析的根本原因」應該是診斷目前事件最有效率的方式,而不是逐一分析所有異常。
步驟 2: 檢視跨維度的診斷深入解析
取得基本資訊和自動分析深入解析之後,您可以使用 「診斷樹狀結構」,以整體方式取得相同計量內其他維度異常狀態的詳細資訊。
針於具有多個維度的計量,計量建議程式會將時間序列分類為階層,其命名為「診斷樹狀結構」。 例如,「營收」計量是透過兩個維度進行監視:「區域」和「類別」。 雖然有具體維度值,但仍需要有「彙總」維度值,例如 SUM。 然後,"region" = "SUM" 和 "category" = "SUM" 的時間序列將會分類為樹狀結構內的根節點。 只要在 "SUM" 維度擷取到異常,就可以對其進行向下鑽取並進行分析,以找出哪個特定維度值對父節點異常所造成的影響最大。 選取每個節點,以將其展開並查看詳細資訊。
在計量中啟用「彙總」維度值
計量建議程式支援對維度執行「積存」,以計算「彙總」(Aggregate) 的維度值。 診斷樹狀結構支援診斷 SUM、AVG、MAX、MIN、COUNT 彙總。 若要啟用「彙總」維度值,您可以在資料上線期間啟用「積存」函數。 請確定您的計量「可用數學方法計算」,而且彙總維度具有實際的商業值。
計量中沒有「彙總」維度值
如果您的計量中沒有「彙總」維度值,而且在資料上線期間未啟用「積存」函數。 將不會計算「彙總」維度的計量值,而是會將其顯示為樹狀結構中的灰色節點,而且可以予以展開以檢視其子節點。
診斷樹狀結構的圖例
診斷樹狀結構中有三種節點:
- 「藍色節點」,對應至具有實際計量值的時間序列。
- 「灰色節點」,對應至沒有計量值的虛擬時間序列,其為邏輯節點。
- 紅色節點,對應至目前事件最受影響的時間序列。
針對每個節點,會以節點框線的色彩來描述異常狀態
- 「紅色框線」表示在對應至事件時間戳記的時間序列上擷取到的異常。
- 「非紅色框線」表示未在對應至事件時間戳記的時間序列上擷取到的異常。
顯示模式
診斷樹狀結構有兩種顯示模式:僅顯示異常序列或顯示主要比例。
- 「僅顯示異常序列模式」可讓客戶專注於目前在不同系列上擷取到的異常,並診斷最受影響系列的根本原因。
- 「顯示主要比例」可讓客戶檢查最受影響系列主要比例的異常狀態。 在此模式中,樹狀結構將會顯示偵測到異常的序列以及沒有異常的序列。 但更著重於重要系列。
分析選項
顯示差異比率
相較於父節點差異,「差異比率」是目前節點差異的百分比。 公式如下:
(目前節點的實際值 - 目前節點的預期值)/(父節點的實際值 - 父節點的預期值) * 100%
這用來分析父節點差異的主要貢獻。
顯示值比例
相較於父節點值,「值比例」是目前節點值的百分比。 公式如下:
(目前節點的實際值/父節點的實際值) * 100%
這是用來評估整體內目前節點的比例。
使用「診斷樹狀結構」,客戶可以將目前事件的根本原因找到特定維度。 這會大幅移除客戶檢視每個個別異常或透過不同維度進行樞紐分析的投入量,以找出主要異常貢獻。
步驟 3: 使用「計量圖表」檢視跨計量診斷深入解析
有時候,檢查一個單一計量的異常狀態,難以分析問題,但需要將多個計量相互關聯在一起。 客戶可以設定「計量圖表」,其會指出計量之間的關聯性。 請參閱如何建置計量圖表以開始使用。
檢查「計量圖表」內根本原因維度的異常狀態
使用上述跨維度診斷結果,可將根本原因限制於特定維度值。 然後使用「計量圖表」並依已分析的根本原因維度進行篩選,以檢查其他計量的異常狀態。
例如,如果在「營收」計量上擷取到的事件。 最受影響的序列位於具有 "region" = "SUM" 的全域區域。 使用跨維度診斷,根本原因已位於 "region" = "Karachi"。 具有預先設定的計量圖表,包括「營收」、「成本」、「DAU」、「PLT (頁面載入時間)」和「CHR (快取命中率)」的計量。
計量建議程式將會依根本原因維度「區域」=「喀拉蚩」來自動篩選計量圖表,並顯示每個計量的異常狀態。 分析計量與異常狀態之間的關聯,客戶即可進一步深入了解最終的根本原因。
自動相關異常
在計量圖表上套用根本原因維度篩選,目前事件時間戳記的每個計量異常就都會自動相關。 這些異常應該與目前事件的根本原因相關。