使用計量評估您的 ML.NET 模型

瞭解用來評估 ML.NET 模型的計量。

模型所執行機器學習工作的類型有特定的評估計量。

例如，針對分類工作，模型會藉由測量預測類別與實際類別的比對程度來評估。針對叢集，評估是以叢集專案彼此的距離，以及叢集之間有多少區隔為基礎。

二元分類的評估計量

指標	說明	尋找
準確度	精確度是具有測試數據集的正確預測比例。它是正確預測數目與輸入樣本總數的比率。如果屬於每個類別的樣本數目類似，則運作良好。	越接近 1.00，越好。但正好 1.00 表示問題（通常：標籤/目標洩漏、過度擬合或使用訓練數據進行測試）。當測試數據不平衡時（其中大部分實例屬於其中一個類別），數據集很小，或分數接近0.00或1.00，則精確度不會真正擷取分類器的有效性，而您需要檢查其他計量。
AUC	aucROC 或曲線下的 Area 會測量透過掃掠真率與誤判率所建立曲線下的區域。	越接近 1.00，越好。模型中的某個數值應大於 0.50，才能認為模型是可接受的。 AUC 為 0.50 或更低的模型毫無價值。
AUCPR	Precision-Recall 曲線下面積 aucPR 或 Area：在類別不平衡（高度偏斜數據集）時，預測成功的一種實用量度。	越接近 1.00，越好。接近1.00的高分顯示分類器正在傳回準確的結果（高精確度），並傳回大部分的積極結果（高召回率）。
F1 分數	F1 分數也稱為平衡 F 分數或 F指標（F-measure）。這是精確度和召回率的調和平均數。當您想要在精確度與召回率之間取得平衡時，F1 分數是一個很有用的指標。	越接近 1.00，越好。 F1 分數達到 1.00 的最佳值，最差的分數為 0.00。它會告訴您分類器有多精確。

如需二元分類計量的進一步詳細數據，請參閱下列文章：

多類別分類與文本分類的評估指標

指標	說明	尋找
微精確度	微平均精確度會匯總所有類別的貢獻，以計算平均計量。這是正確預測的實例分數。微平均不會將類別成員資格納入考慮。基本上，每個範例類別組都同樣會參與精確度計量。	越接近 1.00，越好。在多類別分類工作中，如果您懷疑類別不平衡，則微精確度最好高於巨集觀精確度（亦即您可能有多個類別比其他類別更多的範例）。
宏觀準確性	巨集平均精確度是類別層級的平均精確度。計算每個類別的精確度，而巨集精確度是這些精確度的平均值。基本上，每個類別都同樣會參與精確度計量。少數類別與較大的類別被賦予相等的權重。不論數據集包含多少實例，巨集平均計量都會為每個類別提供相同的權數。	越接近 1.00，越好。它會個別計算每個類別的計量，然後接受平均值（因此同樣對待所有類別）
記錄遺失	對數損失會測量分類模型的效能，其中預測輸入是介於0.00和1.00之間的機率值。對數損失隨著預測機率與實際值的偏離而增加。	越接近0.00，越好。完美的模型會有 0.00 的對數損失。機器學習模型的目標是將此值降到最低。
Log-Loss 減少	對數損失降低可以解譯為分類器優於隨機預測的優點。	-inf 和 1.00 的範圍，其中 1.00 是完美的預測，0.00 表示平均預測。例如，如果值等於 0.20，它可以解譯為「正確預測的機率是 20% 比隨機猜測好」

微精確度通常更符合 ML 預測的商務需求。如果您想要選取單一計量來選擇多類別分類工作的品質，通常應該是微精確度。

例如，針對支援票證分類工作：（將傳入的票證分配到支援團隊）

微精確度—傳入票證被正確分類到相應團隊的頻率有多高？
宏觀準確率—對於一般小組來說，傳入票證對小組正確的頻率有多高？

在此範例中，宏觀準確度對小型團隊的影響過大：一個每年僅處理 10 張票的小團隊和一個每年處理 1 萬張票的大型團隊被賦予同等權重。在此案例中，微精細度更符合商業需求，即「公司可以藉由自動化我的票務調度流程來節省多少時間/金錢」。

如需多類別分類計量的進一步詳細數據，請參閱精確度、召回率和 F 分數的微平均和巨集平均值。

回歸與推薦的評估指標

回歸和推薦任務都會預測數字。在回歸的情況下，數位可以是受輸入屬性影響的任何輸出屬性。針對建議，數位通常是評等值（例如介於 1 到 5 之間），或是/否建議（分別以 1 和 0 表示）。

計量	說明	尋找
R 平方	R 平方（R2）或判定係數代表模型預測能力，以 -inf 到 1.00 之間的值。 1.00 表示有一個完美的適合，但適合度可以隨意變差，因此分數可以是負數。分數為 0.00 表示模型正在猜測標籤的預期值。負的 R2 值表示模型的擬合與數據的趨勢不符，並且性能比隨機猜測還差。這隻適用於非線性回歸模型或限制線性回歸。 R2 測量實際測試數據值與預測值有多接近。	越接近 1.00，品質就越好。不過，有時候低 R 平方值（例如 0.50）可能完全正常或足夠適合您的案例，而高 R 平方值不一定是好的且可疑。
絕對損失	絕對損失或平均絕對誤差（MAE）測量預測與實際結果的接近程度。這是所有模型錯誤的平均值，其中模型錯誤是預測標籤值與正確標籤值之間的絕對距離。此預測錯誤是針對測試數據集的每個記錄計算。最後，會針對所有記錄的絕對錯誤計算平均值。	越接近 0.00，品質就越好。平均絕對誤差使用與所測量數據相同的小數位數（未正規化為特定範圍）。絕對損失、平方損失和均方根損失只能用來比較同一數據集或標籤值分佈相似的數據集的模型。
平方損失	平方損失或平均平方誤差（MSE）也稱為平均平方偏差（MSD），告訴您回歸線與一組測試數據值有多接近，方法是將距離從點到回歸線（這些距離是錯誤 E），並將它們四等。平方給較大的差異帶來更大的權重。	它一律為非負數，且接近0.00的值會更好。視您的數據而定，可能不可能針對平均平方誤差取得非常小的值。
RMS-loss	RMS 損失或均方根誤差 (RMSE)（亦稱為均方根偏差，RMSD），用來衡量模型所預測的值與在所建模環境中觀察到的值之間的差異。 RMS 損失是平方損失的平方根，並且具有與標籤相同的單位，類似於絕對損失，但對較大的差異給予更多的權重。根均方誤差通常用於氣候學、預測和回歸分析，以驗證實驗結果。	它一律為非負數，且接近0.00的值會更好。 RMSD 是精確度的量值，可比較特定數據集的不同模型預測錯誤，而不是數據集之間的預測錯誤，因為它是縮放相依的。

如需回歸計量的進一步詳細數據，請閱讀下列文章：

叢集評估指標

計量	說明	尋找
平均距離	數據點與其指派叢集中心之間的平均距離。平均距離是數據點與叢集距心相近的量值。這是一個測量叢集的「緊密」程度。	接近 0 的值比較好。平均距離越接近零，數據叢集愈多。不過請注意，如果叢集數目增加，而且在極端情況下，此計量將會減少（其中每個相異數據點為自己的叢集），其會等於零。
大衛斯布爾丁索引	叢集內距離與叢集距離之間的平均比率。叢集越緊密，叢集之間距離越遠，這個值越低。	接近 0 的值比較好。相距較遠且分散較少的叢集會導致更好的分數。
標準化相互資訊	當用於訓練群集模型的訓練數據同時附有真實標籤時，可以使用（即受監督的群集分析）。標準化相互資訊計量會測量如何將類似的數據點指派給相同的叢集，並將不同的數據點指派給不同的叢集。標準化相互資訊是介於 0 到 1 之間的值。	更接近 1 的值比較好。

排名的評估計量

計量	說明	尋找
折扣累計收益	折扣累計收益（DCG）是排名品質的衡量標準。其衍生自兩個假設。一：在排名順序較高時，高度相關的項目比較有用。有用性與相關性成正比，亦即相關性越高，項目就越有用。以排名順序計算特定位置的折扣累計收益。它將相關性評分加總，然後除以排名指數的對數，直到所關注的位置為止。它是使用 $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ 計算的，相關性分級被提供給排名演算法作為真實標籤。排名數據表中的每個位置都會提供一個 DCG 值，因此名稱為折扣累計收益。	較高的值比較好。
標準化折扣累計收益	對DCG進行正規化允許比較不同長度排名清單的指標。	更接近 1 的值比較好。

異常偵測的評估計量

計量	說明	尋找
ROC 曲線下的區域	接收器操作特徵曲線下的面積用來衡量模型分隔異常和一般數據點的效果。	更接近 1 的值比較好。只有大於 0.5 的值會示範模型的有效性。 0.5 或以下的值表示模型不會比隨機配置輸入到異常和一般類別更好。
誤判計數的偵測速率	偵測率是正確識別異常數目與測試集中異常總數的比值，以每次誤報計數來編製索引。也就是說，對於每個誤判項目，都有一個對應於誤判數量的偵測率值。	更接近 1 的值比較好。如果沒有誤判，則此值為 1。

句子相似性的評估指標

計量	說明	尋找
皮爾森相關係數	皮爾森相關，也稱為相關係數，用於測量兩組數據之間的依賴性或關聯性。	接近 1 的絕對值最類似。此計量的範圍從 -1 到 1。絕對值為 1 表示數據集相同。值為 0 表示兩組數據之間沒有關聯性。

意見反應

此頁面對您有幫助嗎？

Last updated on 2025-06-17