你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

如何对自定义文本分类使用自动标记

标记过程是准备数据集的重要部分。 由于此过程需要大量时间和精力,因此可以使用自动标记功能自动标记文档,其中包含要将文档分类到其中的类。 目前,可以使用 GPT 模型基于模型启动自动标记作业,无需任何之前的模型训练即可立即触发自动标记作业。 此功能可以节省手动标记文档的时间和精力。

先决条件

在使用 GPT 自动标记之前,需要:


触发自动标记作业

使用 GPT 触发自动标记作业时,Azure OpenAI 资源会根据使用量向你收费。 会根据自动标记的每个文档中的标记数估算值向你收费。 请参阅 Azure OpenAI 定价页,详细了解不同模型中每个标记的定价明细。

  1. 从左侧导航菜单选择“数据标记”。

  2. 选择页面右侧“活动”窗格下的“自动标记”按钮。

    显示如何从活动窗格触发自动标记作业的屏幕截图。

  3. 选择“使用 GPT 自动标记”,然后选择“下一步”。

    显示自动标记的模型选择的屏幕截图。

  4. 选择 Azure OpenAI 资源和部署。 必须 创建 Azure OpenAI 资源并部署模型 才能继续。

    显示如何选择 OpenAI 资源和部署的屏幕截图

  5. 选择要包含在自动标记作业中的类。 默认情况下,会选中所有类。 建议为类提供描述性名称,并为每个类添加示例,从而使用 GPT 实现高质量的标记。

    显示要包含在自动标记作业中的标记的屏幕截图。

  6. 选择要自动标记的文档。 建议从筛选器中选择未标记的文档。

    注意

    • 如果文档已自动标记,但此标签已由用户定义,则仅使用用户定义的标签。
    • 可单击文档名来查看文档。

    显示自动标记作业中要包含哪些文档的屏幕截图。

  7. 选择“启动作业”以触发自动标记作业。 应定向到自动标记页面,其中显示了启动的自动标记作业。 自动标记作业可能需要几秒钟到几分钟的时间,具体取决于包含的文档数。

    显示自动标记作业的评审屏幕的屏幕截图。


查看自动标记的文档

自动标记作业完成后,可以在 Language Studio 页面的“数据标记”中看到输出文档。 选择“审阅带自动标记的文档”,以查看应用了“已自动标记”筛选器的文档。

显示自动标记的文档的屏幕截图

已自动分类的文档在活动窗格中具有以紫色突出显示的建议标签。 每个建议的标签都有两个选择器 (复选标记和取消图标) ,允许你接受或拒绝自动标签。

接受标签后,紫色会变为默认的蓝色,并且标签会包含在任何进一步的模型训练中,成为用户定义的标签。

接受或拒绝自动标记的文档的实体后,选择“保存标记”以应用更改。

注意

  • 建议在接受自动标记的文档之前先验证它们。
  • 训练模型时,所有未接受的标记都会删除。

显示如何接受和拒绝自动标记的文档的屏幕截图。

后续步骤