你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

自定义文本分类中使用的术语和定义

通过本文了解在使用自定义文本分类时可能会遇到的一些定义和术语。

类是用户定义的类别,用于指示文本的整体分类。 开发人员在将数据传递给模型进行训练之前,会使用他们的类对数据进行标记。

F1 分数

F1 分数是精准率和召回率的函数。 在精准率召回率之间进行平衡时,需要用到它。

型号

模型是经过训练来执行特定任务的对象,在此示例中为文本分类任务。 将通过提供要从中进行学习的带标记数据来训练模型,以便以后可以将其用于分类任务。

  • 模型训练指的是指导你的模型根据带标记数据对文档进行分类的过程。
  • 模型评估是一种在训练后立即进行的过程,可了解模型的性能情况。
  • 部署指的是将模型分配到部署以便通过预测 API 使用它的过程。

Precision

度量模型的精确度/准确度。 它是正确识别的正值(真正)与所有识别出的正值之间的比率。 精准率指标指示正确标记了多少个预测类。

Project

项目是一个工作区,用于基于你的数据构建自定义 ML 模型。 只有你和对所使用的 Azure 资源具有访问权限的其他人才能访问你的项目。 作为创建自定义文本分类项目的先决条件,在创建新项目时,必须将资源连接到包含数据集的存储帐户。 你的项目自动包含容器中所有可用的 .txt 文件。

在项目中,可以执行以下操作:

  • 标记数据:对你的数据进行标记,以便在训练模型时模型可了解你要提取的内容。
  • 构建和训练模型:项目的核心步骤,模型在此步骤中将开始从带标记数据中进行学习。
  • 查看模型评估详细信息:查看模型性能,以确定是否有改进空间,或者你是否对结果感到满意。
  • 部署:在你查看了模型的性能并确定它适合在环境中使用之后,你需要将该模型分配给某个部署以便能够对其进行查询。 将模型分配给部署会使其可通过预测 API 使用。
  • 测试模型:在部署模型后,可以在 Language Studio 中使用此操作来试用部署,并查看它在生产环境中的性能。

项目类型

自定义文本分类支持两种类型的项目

  • 单标签分类 - 你只能为数据集中的每个文档分配一个类。 例如,一个电影剧本只能分类为“爱情”或“喜剧”。
  • 多标签分类 - 可以为数据集的每个文档分配多个类。 例如,一个电影剧本可以分类为“喜剧”或“爱情”和“喜剧”。

Recall

度量模型预测实际正类的能力。 这是预测的真正值与实际标记的结果之间的比率。 召回率指标显示正确的预测类的数量。

后续步骤