共用方式為


協調流程工作流程模型的評估計量

資料集分成兩個部分:一組用於定型,而一組用於測試。 定型集是用來定型模型,而測試集則用來在定型之後作為模型的測試,以計算模型效能和評估。 系統不會透過定型程序將測試集導入模型,以確保已針對新資料上測試模型。

成功完成定型之後,就會自動觸發模型評估。 評估程序會使用已定型的模型來針對測試集中的表達預測使用者定義的意圖,並將其與所提供的標籤比較 (而這會建立事實的基準)。 結果會傳回,讓您可以檢閱模型的效能。 協調流程工作流程會使用下列計量進行評估:

  • 精確度:測量模型的精確/正確程度。 這是正確識別到的肯定 (確判為真) 與所有識別到的肯定之間的比率。 精確度計量會顯示已正確標示的預測類別數目。

    Precision = #True_Positive / (#True_Positive + #False_Positive)

  • 召回率:測量模型預測實際肯定類別的能力。 這是所預測確判為真與實際標記項目之間的比率。 召回率計量會顯示有多少預測類別是正確的。

    Recall = #True_Positive / (#True_Positive + #False_Negatives)

  • F1 分數:F1 分數是精確度和召回率的函式。 當您在精確度和召回率之間尋求平衡時,需要用到此值。

    F1 Score = 2 * Precision * Recall / (Precision + Recall)

精確度、召回率及 F1 分數的計算方式如下:

  • 每個單獨意圖 (意圖層級評估)
  • 對於模型集體 (模型層級評估)。

對於意圖層級和模型層級的評估而言,精確度、召回率和評估的定義都相同。 不過,確判為真誤判為真誤判為假的計數可能會有所不同。 例如,請參閱下列文字。

範例

  • 以「十分感謝您」做出回應
  • 呼叫朋友
  • 您好
  • 早安

以下為使用的意圖:CLUEmailGreeting

該模型可能會進行下列預測:

表達 預測的意圖 實際意圖
以「十分感謝您」做出回應 CLUEmail CLUEmail
呼叫朋友 問候 CLUEmail
您好 CLUEmail 問候
Goodmorning 問候 問候

CLUEmail 意圖的意圖層級評估

機碼 計數 說明
真肯定 1 表達 1 已正確預測為 CLUEmail
誤判 1 表達 3 錯誤地預測為 CLUEmail
誤否定 1 表達 2 錯誤地預測為 Greeting

有效位數 = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

召回率 = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 分數 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Greeting 意圖的意圖等級評估

機碼 計數 說明
真肯定 1 表達 4 已正確預測為 Greeting
誤判 1 表達 2 錯誤地預測為 Greeting
誤否定 1 表達 3 錯誤地預測為 CLUEmail

有效位數 = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

召回率 = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 分數 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

集體模型的模型層級評估

機碼 計數 說明
真肯定 2 所有意圖的 TP 總和
誤判 2 所有意圖的 FP 總和
誤否定 2 所有意圖的 FN 總和

有效位數 = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

召回率 = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

F1 分數 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

混淆矩陣

混淆矩陣是用於模型效能評估的 N x N 矩陣,其中 N 是意圖的數量。 矩陣會比較實際標籤與模型預測的標籤。 這可讓您全面了解模型的表現,以及所犯的錯誤種類。

您可以使用混淆矩陣來識別彼此太接近且通常會弄錯 (模稜兩可) 的意圖。 在此情況下,請考慮將這些意圖合併在一起。 如果無法這麼做,請考慮針對兩個意圖新增更多有標籤的範例,以協助模型加以區分。

您可以從混淆矩陣計算模型層級的評估計量:

  • 模型的確判為真是所有意圖的確判為真加總。
  • 模型的誤判為真是所有意圖的誤判為真加總。
  • 模型的誤判為假是所有意圖的誤判為假加總。

下一步

在 Language Studio 中定型模型