使用指标评估 ML.NET 模型

2025-06-19

了解用于评估 ML.NET 模型的指标。

评估指标特定于模型所执行的机器学习任务的类型。

例如，对于分类任务，通过测量预测类别与实际类别匹配程度来评估模型。对于聚类分析，评估基于群集项彼此的接近程度，以及群集之间的分离程度。

二元分类的评估指标

指标	DESCRIPTION	寻找
准确性	准确性是测试数据集的正确预测的比例。它是正确预测数与输入样本总数的比率。如果属于每个类的样本数相似，则效果良好。	越接近 1.00，越好。但刚好 1.00 表示存在问题（通常包括：标签/目标泄漏、过度拟合或使用训练数据进行测试）。当测试数据不均衡（其中大多数实例属于其中一个类）时，数据集很小，或者分数接近 0.00 或 1.00，则准确性不会真正捕获分类器的有效性，并且需要检查其他指标。
AUC	aucROC 或曲线下面积通过扫描真正率和假正率来测量曲线下面积。	越接近 1.00，越好。模型的值应大于 0.50 才能被认为是可接受的。 AUC 为 0.50 或更低版本的模型毫无价值。
AUCPR	aucPR 或查准率-查全率曲线的曲线下面积：在类不均衡的情况下（高度偏斜的数据集），是成功预测的有用度量值。	越接近 1.00，越好。接近 1.00 的高分显示分类器返回准确的结果（高精度），并返回大部分正结果（高召回率）。
F1 分数	F1 分数也称为均衡 F 分数或 F 度量值。这是查准率和查全率的调和平均数。如果要在精度和召回之间寻求平衡，F1 分数非常有用。	越接近 1.00，越好。 F1 得分达到 1.00 的最佳值，最差的得分为 0.00。它告诉你分类器有多精确。

有关二元分类指标的更多详细信息，请阅读以下文章：

多类分类和文本分类的评估指标

指标	DESCRIPTION	寻找
微准确度	微平均准确性聚合所有类的贡献以计算平均指标。它是正确预测的实例的分数。微平均值不考虑类别成员身份。基本上，每个样本类对都同样有助于准确性指标。	越接近 1.00，越好。在多类分类任务中，如果怀疑存在类不平衡（例如，可能有多个类比其他类更多的示例），则微准确度优于宏准确性。
宏观准确性	宏平均准确性是类级别的平均准确性。计算每个类的准确性，宏准确性是这些准确性的平均值。基本上，每个类都同样有助于准确性指标。少数类的权重与较大的类相同。无论数据集包含的类中的实例数，宏平均值指标都会为每个类提供相同的权重。	越接近 1.00，越好。它单独计算每个类的指标，然后采用平均值（因此平等对待所有类）
对数损失	对数损失度量分类模型的性能，其中预测输入是介于 0.00 和 1.00 之间的概率值。随着预测概率偏离实际标签，对数损失会增加。	越接近 0.00，越好。完美的模型将具有 0.00 的日志损失。机器学习模型的目标是尽量减少此值。
对数损失减小	对数损失减小可以解释为分类器相较随机预测的优势。	范围从 -inf 和 1.00 不等，其中 1.00 是完美的预测，0.00 表示平均预测。例如，如果值等于 0.20，则可以将其解释为“正确预测的概率为 20% 优于随机猜测”

微准确度通常更符合 ML 预测的业务需求。如果要选择单个指标来选择多类分类任务的质量，它通常应该是微准确度。

例如，对于支持票证分类任务：（将传入的票证映射到支持团队）

微观准确性 - 传入票证分类给正确团队的频率如何？
宏观准确性 - 对于普通团队而言，传入票证符合其业务范围的频率如何？

在此示例中，宏观准确性对于小型团队而言任务过重；一个每年仅收到 10 个票证的小团队被视为每年可收到 10,000 个票证的大团队。在这种情况下，微观准确度与业务需求更紧密相关，即"通过自动化工单分配流程，公司能够节省多少时间和资金"。

有关多类分类指标的更多详细信息，请参阅精度、召回率和 F 分数的微平均值和宏平均值。

回归和建议评估指标

回归和建议任务都预测数字。对于回归，该数字可以是受输入属性影响的任何输出属性。对于建议，该数字通常是分级值（例如介于 1 和 5 之间），或“是/否”建议（分别以 1 和 0 表示）。

指标	DESCRIPTION	寻找
R-Squared	R 平方（R2）或确定系数表示模型预测能力，作为 -inf 和 1.00 之间的值。 1.00 意味着完美拟合，且拟合度可以无穷差，因此分数可能为负数。分数为 0.00 表示模型正在猜测标签的预期值。负 R2 值表示拟合不遵循数据的趋势，模型的性能比随机猜测差。这仅适用于非线性回归模型或约束线性回归。 R2 测量实际测试数据值与预测值之间的接近程度。	越接近 1.00，质量越好。但是，有时低 R 平方值（如 0.50）可能完全正常或足够好，适合你的方案，而高 R 平方值并不总是良好且可疑。
绝对损失	绝对损失或平均绝对误差（MAE）测量预测与实际结果的接近程度。它是所有模型错误的平均值，其中模型错误是预测标签值与正确标签值之间的绝对距离。此预测错误是针对测试数据集的每个记录计算的。最后，为所有记录的绝对错误计算平均值。	越接近 0.00，质量越好。平均绝对误差使用与所测量数据相同的比例（未规范化为特定范围）。绝对损失、平方损失和 RMS 损失只能用于对具有相同标签值分布的相同数据集或数据集的模型进行比较。
平方损失	平方损失或平均平方误差（MSE），也称为平均平方偏差（MSD），通过从点到回归线（这些距离是误差 E）并将它们平置，告诉你回归线与一组测试数据值有多近。求平方可赋予较大的差异更大的权重。	它始终为非负值，接近 0.00 的值更好。根据数据，可能不可能为平均平方误差获取非常小的值。
RMS 丢包率	RMS 损失或根均方误差（RMSE）（也称为根平均平方偏差，RMSD），测量模型预测的值与从正在建模的环境观察到的值之间的差异。 RMS 损失是平方损失的平方根，其具有与标签相同的单位，类似于绝对值损失，但赋予了较大的差异更大的权重。根平均平方误差通常用于气候学、预测和回归分析，以验证实验结果。	它始终为非负值，接近 0.00 的值更好。 RMSD 是一种准确性度量值，用于比较特定数据集的不同模型的预测错误，而不是数据集之间的预测错误，因为它依赖于缩放。

有关回归指标的更多详细信息，请阅读以下文章：

聚类分析的评估指标

指标	DESCRIPTION	寻找
平均距离	数据点与其分配的群集中心之间的距离平均值。平均距离是数据点与聚类质心相近的度量值。这是一个衡量群集紧密程度的方法。	值越接近 0 越好。平均距离越接近零，数据就越聚集。但请注意，如果增加群集数，则此指标将减少，在极端情况下（其中每个不同数据点都是其自己的群集），该指标将等于零。
戴维斯布尔丁索引	簇内距离与簇间距离的平均比率。群集越紧，群集越远，此值越低。	值越接近 0 越好。离得更远且分散程度较低的群集将产生更好的分数。
规范化相互信息	如果用于训练聚类分析模型的训练数据还附带地面真值标签（即监督式聚类分析），则可以使用此指标。规范化相互信息指标度量是否将类似的数据点分配给同一群集，并将不同的数据点分配给不同的群集。规范化相互信息是介于 0 和 1 之间的值。	值越接近 1 越好。

排名的评估指标

指标	DESCRIPTION	寻找
折扣累积收益	折扣累积收益（DCG）是排名质量的衡量标准。它派生自两个假设。一：在排名顺序较高时，高度相关的项目更有用。二：有用性跟踪相关性，即相关性越高，项越有用。为排名中的特定位置计算折扣累积增益。它使相关性评分除以排名索引的对数，直到达到目标位置。它通过使用 $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ 来进行计算，并将相关性评分作为真实标签提供给排名训练算法。为排名表中的每一个位置提供一个 DCG 值，因此名称为“折扣累积收益”。	值越高越好。
规范化折扣累积增益	规范化 DCG 使得可以对不同长度的排名列表进行指标比较。	值越接近 1 越好。

异常情况检测的评估指标

指标	DESCRIPTION	寻找
ROC 曲线下的区域	接收方运算符曲线下的面积测量模型如何分隔异常数据点和常规数据点。	值越接近 1 越好。只有大于 0.5 的值才能证明模型的有效性。值 0.5 或更低表示模型不比随机将输入分配到异常和常规类别更好。
假正计数的检测率	假正计数的检测率是指测试集中正确识别的异常数与异常总数的比率，按每个假正进行索引。也就是说，每个假正项的假正计数都有一个检测率值。	值越接近 1 越好。如果没有误报，则此值为 1。

句子相似性的评估指标

指标	DESCRIPTION	寻找
皮尔逊相关性	皮尔逊相关性（也称为相关系数）测量两组数据之间的依赖关系或关系。	接近 1 的绝对值最相似。此指标的范围从 -1 到 1。绝对值为 1 表示数据集相同。值为 0 表示两组数据之间没有关系。

通过