训练和评估模型

已完成

训练和评估模型是向训练数据集添加数据和标签以更准确地教授模型的迭代过程。 若要了解需要改进哪些类型的数据和标签,Language Studio 在左侧窗格的 “视图模型详细信息 ”页中提供评分。

“视图模型评分”选项卡的屏幕截图。

各个实体和整体模型分数分为三个指标,以说明它们的性能以及需要改进的位置。

指标 DESCRIPTION
精准率 成功识别实体次数与尝试的所有识别次数的比率。 高分意味着只要实体被识别,就会被正确标记。
召回率 成功实体识别与文档中实际实体数的比率。 高分数意味着它很好地识别出了一个或多个实体,无论是否为其分配了正确的标签。
F1 分数 精度和召回率的组合可提供单一评分指标

分数可用于每个实体和整个模型。 你可能会发现实体得分很高,但整个模型表现不好。

如何解释指标

理想情况下,我们希望模型在精度和召回率方面得分良好,这意味着实体识别效果良好。 如果两个评估分数都很低,这意味着模型不仅难以识别文档中的实体,即便提取了实体,也无法自信地为其分配正确的标签。

如果精度较低,但召回率较高,则意味着模型能够很好地识别实体,但不将其标记为正确的实体类型。

如果精度很高,但召回率较低,则意味着模型并不总是识别实体,但当模型提取实体时,将应用正确的标签。

混淆矩阵

在同一个视图模型详细信息页面的顶部,还有一个用于混淆矩阵的选项卡。 此视图提供所有实体的可视表以及每个实体的执行方式,提供模型的完整视图及其不足位置。

示例混淆矩阵的屏幕截图。

通过混淆矩阵,可以直观地确定在何处添加数据以提高模型的性能。