你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

标记用于训练模型的文本数据

在训练模型之前,需要使用要将文档分类到的类来标记文档。 数据标记是开发生命周期的关键步骤;在此步骤中,可以创建要将数据分类到的类,并使用这些类标记文档。 这些数据将在下一步训练模型时使用,以便模型可以从标记的数据中学习。 如果已标记了数据,可以直接将其导入到项目中,但需要确保数据遵循接受的数据格式

在创建自定义文本分类模型之前,需要先标记数据。 如果数据尚未标记,可以在 Language Studio 中对其进行标记。 标记的数据可告知模型如何解释文本,并且会用于训练和评估。

先决条件

标记数据之前,需要:

有关详细信息,请参阅项目开发生命周期

数据标记指南

准备数据、设计架构创建项目之后,需要标记数据。 标记数据很重要,这样你的模型就知道哪些文档将与你需要的类相关联。 在 Language Studio 中标记数据(或导入标记的数据)时,这些标签将存储在已连接到此项目的存储容器内的 JSON 文件中。

标记数据时,请记住:

  • 通常,如果数据是准确标记的,则已标记的数据越多,产生的结果就越好。

  • 固定的标签数量无法保证模型性能最佳。 模型性能取决于架构中可能存在的歧义以及标记数据的质量。 不过,我们建议每个类有 50 个已标记的文档。

标记数据

使用以下步骤标记数据:

  1. 转到 Language Studio 中的项目页面。

  2. 在左侧菜单中,选择“数据标记”。 可以在存储容器中找到所有文档的列表。 参阅下图。

    提示

    可以使用顶部菜单中的筛选器来查看未标记的文件,以便开始标记它们。 还可以使用筛选器查看标有特定类的文档。

  3. 在顶部菜单的左侧更改为单个文件视图或选择特定文件以开始标记。 可以在左侧找到项目中所有可用 .txt 文件的列表。 可以使用页面底部的“返回”和“下一步”按钮来浏览文档。

    注意

    如果为项目启用了多种语言,则可在顶部菜单中找到一个“语言”下拉菜单,从而选择每个文档的语言。

  4. 在右侧窗格中,向项目“添加类”,以便开始使用它们标记数据。

  5. 开始标记文件。

    多标签分类:文件可以标有多个类,你可通过选择要用于标记此文档的类旁边所有适用的复选框来实现此目的。

    显示多标签分类标记页的屏幕截图。

    还可以使用自动标记功能来确保完全标记。

  6. 在“标签”透视项下方的右侧窗格中,可以找到项目中的所有类以及每个类的已标记实例计数。

  7. 在右侧窗格的底部,可以将正在查看的当前文件添加到训练集或测试集。 默认情况下,所有文档都将添加到训练集内。 详细了解训练集和测试集以及它们如何用于模型训练和评估。

    提示

    如果计划使用自动数据拆分,请使用将所有文档分配到训练集的默认选项。

  8. 在“分布”透视下,可以查看训练集和测试集中的分布。 有两种查看方式:

    • 实例总数,即可以在其中查看特定类的所有已标记实例的计数。
    • 至少具有一个标签的文档,即如果文档至少包含该类的一个已标记的实例,则将被计算在内。
  9. 当你标记时,更改将定期同步,如果尚未保存更改,你会在页面顶部看到一条警告。 如果想手动保存,请选择页面底部的“保存标签”按钮。

删除标签

如果要删除标签,请取消选中该类旁边的按钮。

删除类

若要删除类,请选择要删除的类旁边的删除图标。 删除一个类会将其所有已标记的实例从数据集中删除。

后续步骤

标记数据后,可以开始训练要基于数据进行学习的模型