你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

如何对自定义命名实体识别使用自动标记

标记过程是准备数据集的重要部分。 由于此过程需要花费大量时间和精力,你可以使用自动标记功能来自动标记实体。 可以根据之前训练的模型或使用 GPT 模型开始自动标记作业。 使用基于之前训练的模型进行自动标记时,可以开始标记一些文档,训练模型,然后创建自动标记作业,以便基于该模型为其他文档生成实体标签。 使用 GPT 自动标记时,可以立即触发自动标记作业,而无需任何先前的模型训练。 此功能可以节省你手动标记实体的时间和精力。

先决条件

在基于已训练的模型使用自动标记之前,你需要:

触发自动标记作业

基于已训练的模型触发自动标记作业时,每个资源每月有 5,000 条文本记录的月限制。 这意味着相同的限制会适用于同一资源中的所有项目。

提示

文本记录以(文档中的字符数 / 1,000)的向上取整数来计算。 例如,如果文档包含 8921 个字符,则文本记录数为:

ceil(8921/1000) = ceil(8.921),即 9 条文本记录。

  1. 从左侧导航菜单中,选择“数据标记”。

  2. 选择页面右侧“活动”窗格下的“自动标记”按钮。

    显示如何触发自动标记作业的屏幕截图。

  3. 选择“基于已训练的模型自动标记”,然后选择“下一步”。

    显示自动标记的模型选择的屏幕截图。

  4. 选择一个已训练的模型。 建议在使用模型进行自动标记前先检查模型性能。

    显示如何为自动标记选择经过训练的模型的屏幕截图。

  5. 选择要包含在自动标记作业中的实体。 默认选中所有实体。 可以看到每个实体的标记总数、精准率和召回率。 建议包含性能良好的实体,以确保自动标记的实体的质量。

    显示要包含在自动标记作业中的实体的屏幕截图。

  6. 选择要自动标记的文档。 将显示每个文档的文本记录数。 选择一个或多个文档时,应会看到所选文本记录数。 建议从筛选器中选择未标记的文档。

    注意

    • 如果实体已自动标记,但具有用户定义的标记,则仅用户定义的标记可用并可见。
    • 可单击文档名来查看文档。

    显示自动标记作业中要包含哪些文档的屏幕截图。

  7. 选择“自动标记”以触发自动标记作业。 应会看到使用的模型、自动标记作业中包含的文档数、文本记录数和要自动标记的实体。 自动标记作业可能需要几秒钟到几分钟的时间,具体取决于包含的文档数。

    显示自动标记作业的评审屏幕的屏幕截图。

查看自动标记的文档

自动标记作业完成后,可以在 Language Studio 页面的“数据标记”中看到输出文档。 选择“审阅带自动标记的文档”,以查看应用了“已自动标记”筛选器的文档。

显示自动标记文档的屏幕截图

已自动标记的实体以虚线显示。 这些实体有两个选择器(一个复选标记和一个“X”),用于接受或拒绝自动标记。

接受实体后,虚线会变为实线,此标记会被包含在任何进一步的模型训练中,成为用户定义的标记。

此外,可以使用屏幕右上角的“全部接受”或“全部拒绝”,接受或拒绝文档中所有自动标记的实体。

接受或拒绝标记的实体后,选择“保存标记”以应用更改。

注意

  • 建议在接受自动标记的实体之前先验证这些实体。
  • 在训练模型时,所有未接受的标记会被删除。

显示如何接受和拒绝自动标记的实体的屏幕截图。

后续步骤