训练和评估模型

已完成 100 XP

训练和评估模型是一个迭代过程,用于向训练数据集添加数据和标记,以便更准确地训练模型。 若要了解需要改进的数据和标记类型,Language Studio 在左侧窗格的“查看模型详细信息”页中提供评分

Screenshot of the View model scoring tab.

单个实体和整体模型分数分为三个指标,以说明它们的性能以及需要改进之处。

跃点数 说明
精度 成功识别实体次数与尝试的所有识别次数的比率。 高分数意味着只要识别实体,它就已正确标记。
召回率 成功识别实体次数与文档中实际存在的实体数的比率。 高分数意味着它能够很好地查找实体,无论它是否为其分配正确的标签
F1 分数 将精准率和召回率组合可提供单个评分指标

分数可按各实体提供,也可提供整个模型的分数。 你可能会发现某个实体分数很高,但整个模型分数却不高。

如何解释指标

理想情况下,我们希望模型在精准率和召回率方面获得高分,这意味着实体识别效果良好。 如果这两个指标分数都低,则意味着模型很难识别文档中的实体,并且当它确实提取该实体时,它不会为其分配置信度高的正确标签。

如果精准率低,但召回率高,则表示模型能够很好地识别实体,但不将其标记为正确的实体类型。

如果精准率高,但召回率低,则表示模型并不总是识别实体,而是在模型提取实体时应用了正确的标签。

混淆矩阵

在同一“查看模型详细信息”页上,“混淆矩阵”顶部还有另一个选项卡。 此视图提供所有实体的可视表以及每个实体的表现,以全面了解模型及其不足之处。

Screenshot of a sample confusion matrix.

使用混淆矩阵,可以直观地发现在何处添加数据可提高模型的性能。


下一单元: 练习 - 提取自定义实体

上一篇 下一步