評估模型

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

使用標準計量評估分類或回歸模型的結果

類別:機器學習/評估

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning設計工具提供類似的拖放模組。

模組概觀

本文說明如何使用 機器學習 Studio 中的評估模型模組, (傳統) 來測量定型模型的精確度。 您提供含有模型所產生分數的資料集,評估模型模組就會計算出一組業界標準的評估計量。

評估模型所傳回的計量取決於所評估模型的類型:

針對建議模型,請使用 評估推薦模組

提示

如果您不熟悉模型評估,建議您在 Azure AI 資源庫中使用這些範例,以建置模型,然後說明如何使用相關的計量:

我們也建議 Dr. Stephen Elston 的影片系列,作為 EdX 機器學習課程 的一部分。

如何使用評估模型

有三種方式可以使用 評估模型 模組:

  • 產生定型資料的分數,並根據這些分數評估模型
  • 產生模型分數,但會與保留的測試集進行比較
  • 使用相同的資料集,比較兩個不同但相關模型的分數

使用定型資料

若要評估模型,您必須連接包含一組輸入資料行和分數的資料集。 如果沒有其他資料可用,您可以使用原始資料集。

  1. 連線評分模型的計分資料集輸出至評估模型的輸入。
  2. 按一下 [評估模型 ] 模組,然後選取 [ 執行] 以產生評估分數。

使用測試資料

機器學習中的常見案例是使用 分割 模組或 分割和範例 模組,將您的原始資料集分成定型和測試資料集。

  1. 連線評分模型的評分資料集輸出至評估模型的輸入。
  2. 連線分割資料模組的輸出,其中包含評估模型右側輸入的測試資料。
  3. 按一下 [評估模型 ] 模組,然後選取 [ 執行] 以產生評估分數。

比較兩個模型的分數

您也可以將第二組分數連接到 評估模型。 分數可能是具有已知結果的共用評估集,或相同資料不同模型中的一組結果。

這項功能很有用,因為您可以輕鬆地比較兩個不同的模型使用相同資料的結果。 或者,您可以比較兩個不同的回合使用相同資料、不同參數的分數。

  1. 連線評分模型的計分資料集輸出至評估模型的輸入。
  2. 連線第二個模型的評分模型模組輸出到評估模型的右側輸入。
  3. 以滑鼠右鍵按一下 [ 評估模型],然後選取 [ 執行] 以產生評估分數。

結果

執行 評估模型之後,以滑鼠右鍵按一下模組,然後選取 [評估結果 ] 以查看結果。 您可以:

  • 將結果儲存為資料集,以方便使用其他工具進行分析
  • 在 Studio (傳統) 介面中產生視覺效果

如果您將資料集連結到評估模型的兩個輸入,則結果會包含這兩組資料或這兩個模型的計量。 附加至左側埠的模型或資料會先顯示在報表中,後面接著附加在右側埠上的資料集或模型的計量。

例如,下圖表示兩個建置在相同資料上,但具有不同參數的叢集模型所生結果的比較。

AML_Comparing2Models

因為這是叢集模型,所以評估結果會與比較兩個迴歸模型分數或比較兩個分類模型的結果不同。 不過,整體呈現是相同的。

計量

本節說明針對支援用於評估模型的特定模型類型所傳回的計量:

分類模型的計量

評估分類模型時會報告下列計量。 如果您比較模型,它們會依您選取的評估計量進行排名。

  • 正確性會測量分類模型的健全情況,表現方式為 True 結果對整體案例的比例。

  • 精確度是 True 結果對所有正面結果的比例。

  • 召回率是模型傳回的所有正確結果所佔的比例。

  • F 分數會計算為精確度和召回率的加權平均值,範圍介於 0 與 1 之間,其中理想的 F 分數值是 1。

  • AUC 會測量透過 y 軸上的正判和 x 軸上的誤判繪製出的曲線下的區域。 此計量十分有用,因為其會提供單一數字來讓您比較不同類型的模型。

  • 平均記錄遺失是用來表示錯誤結果懲罰的單一分數。 其計算方式為兩個機率分配 (True 項目和模型中的項目) 的差值。

  • 定型記錄遺失是代表分類器對隨機預測優勢的單一分數。 記錄遺失會藉由比較模型所輸出的機率與標籤中的已知值 (基準真相) 來測量模型的不確定性。 您會想要將整個模型的記錄遺失降至最低。

迴歸模型的計量

針對回歸模型傳回的計量通常設計來估計錯誤數量。 如果觀測值和預測值之間的差異很小,便會將模型視為與資料的配適程度高。 不過,查看殘差 (任何一個預測點和其對應的實際值之間的差值) 的模式可讓您知道許多有關模型中潛在偏差的資訊。

系統會報告下列計量以供評估迴歸模型。 當您比較模型時,這些模型會依您選取的評估計量進行排名。

  • 負數可能性 會測量損失函式,分數越低越好。 請注意,此計量只會針對 貝氏線性回歸決策樹系回歸計算;針對其他演算法,此值表示 Infinity 不做任何動作。

  • 平均絕對誤差 (MAE) 會測量預測與實際結果的接近程度;因此,分數越低越好。

  • 均方根誤差 (RMSE) 會建立單一值來彙總模型中的錯誤。 藉由將差值平方,此計量可忽略預測過頭和預測不足之間的差異。

  • 相對絕對誤差 (RAE) 是預期值與實際值之間的相對絕對差值;相對是因為會將平均值差除以算術平均值。

  • 相對平方誤差 (RSE) 同樣會將預測值的總平方誤差除以實際值的總平方誤差來將預測值的總平方誤差正規化。

  • 平均零一錯誤 (MZOE) 指出預測是否正確。 換句話說: ZeroOneLoss(x,y) = 1 當 時 x!=y ,則為 ,否則 0 為 。

  • 決定係數通常稱為 R2,可用 0 與 1 之間的值來表示模型的預測能力。 0 表示模型是隨機的 (無法說明任何事);1 表示有完美的配適。 不過,請小心解讀 R2 值,因為較低的值可能是完全正常,較高的值則很可疑。

叢集模型的計量

因為叢集模型在許多方面與分類模型和迴歸模型的差異很大,所以評估模型也會針對叢集模型傳回一組不同的統計資料。

針對叢集模型傳回的統計資料會描述指派給每個叢集的資料點數目、叢集之間的分隔量,以及每個叢集內資料點的緊密程度。

叢集模型的統計資料會取整個資料集的平均值,並會有額外的資料列包含每一叢集的統計資料。

例如,下列結果顯示範例實驗中一部分的結果,該實驗會叢集 PIMA 印度糖尿病二元分類資料集中的資料,該資料集可在 機器學習 Studio 中取得, (傳統) 。

結果描述 叢集中心的平均距離 其他中心的平均距離 點數 叢集中心的最大距離
合併評估 55.915068 169.897505 538 303.545166
叢集 No.0 的評估 0 1 570 0
叢集 No.1 的評估 0 1 178 0
叢集 No.2 的評估 0 1 178 0

從這些結果中,您會取得下列資訊:

  • 掃掠叢集模組會建立多個叢集模型,並依精確度順序列出。 為了簡單起見,我們在這裡只會顯示最佳排名的模型。 模型是使用所有可能的計量來測量,但模型會使用您指定的計量來排名。 如果您變更計量,則不同的模型可能會排名較高。

  • 結果每個區段頂端的 [合併評估 分數] 會列出在該特定模型中建立之叢集的平均分數。

    這個排名最高的模型發生于建立三個叢集;其他模型可能會建立兩個叢集或四個叢集。 因此,這個合併的評估分數可協助您比較模型與不同數目的叢集。

  • 與叢集中心的平均距離資料行中的分數,表示叢集中的每個點到該叢集距心的接近程度。

  • 與其他中心的平均距離資料行中的分數,表示叢集中的每個點與所有其他叢集的距心接近程度平均值。

    您可以選擇四個計量中的任何一個來測量此距離,但所有度量都必須使用相同的計量。

  • 點數資料行會顯示指派給每個叢集的資料點數量,以及任何叢集中的資料點整體總數。

    如果指派給叢集的資料點數目小於可用的資料點總數,則表示無法將資料點指派給叢集。

  • 資料行中[ 最大距離到叢集中心] 中的分數,代表每個點與該點叢集的中心之間的距離總和。

    如果這個值很高,就可能表示叢集分散很廣。 您應該與 叢集中心的平均距離 一起檢閱此統計資料,以判斷叢集的分佈。

範例

如需如何產生、視覺化及解譯評估計量的範例,請參閱 Azure AI 資源庫中的這些範例實驗。 這些實驗示範如何建置多個模型,並使用 [評估模型] 來判斷哪一個模型最適合。

預期的輸入

名稱 類型 描述
計分的資料集 資料表 計分的資料集
要比較的計分資料集 資料表 要比較的計分資料集 (選擇性)

輸出

名稱 類型 描述
Evaluation results 資料表 資料評估結果

例外狀況

例外狀況 描述
錯誤 0003 如果一或多個輸入為 Null 或空白,就會發生例外狀況。
錯誤 0013 如果傳遞給學習模組的類型無效,就會發生例外狀況。
錯誤 0020 如果傳至模組的某些資料集中的資料行數目太少,就會發生例外狀況。
錯誤 0021 如果傳至模組的某些資料集中的資料列數目太少,就會發生例外狀況。
錯誤 0024 如果資料集未包含標籤資料行,就會發生例外狀況。
錯誤 0025 如果資料集未包含分數資料行,就會發生例外狀況。

另請參閱

交叉驗證模型
評估推薦
評估
為模型評分