(预览) 训练预测编码模型

在 Microsoft Purview 电子数据展示 (Premium) 中创建预测编码模型后,下一步是执行第一轮训练,以根据审阅集中的相关和不相关内容训练模型。 完成第一轮训练后,可以执行后续训练轮次,以提高模型预测相关和不相关内容的能力。

若要查看预测编码工作流,请参阅 了解电子数据展示中的预测编码 (Premium)

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

训练模型之前

  • 在训练轮次期间,根据文档中内容的相关性将项目标记为 “相关 ”或“ 相关”。 不要基于元数据字段中的值做出决策。 例如,对于电子邮件或 Teams 对话,不要基于邮件参与者做出标记决策。

首次训练模型

  1. 在Microsoft Purview 合规门户中,打开电子数据展示 (高级版) 事例,然后选择“审阅集”选项卡。

  2. 打开审阅集,然后选择“ 分析>管理预测编码 (预览)

  3. “预测编码模型 (预览) ”页上,选择要训练的模型。

  4. 在“ 概述 ”选项卡上的“ 第 1 轮”下,选择 “开始下一轮训练”。

    将显示“ 训练 ”选项卡,其中包含 50 个要标记的项目。

  5. 查看每个文档,然后选择阅读窗格底部的“ 相关 ”或“ 不相关 ”按钮进行标记。

    将每个文档标记为相关或不相关。

  6. 标记所有 50 个项目后,选择“ 完成”。

    系统需要几分钟时间才能从标记中“学习”并更新模型。 此过程完成后,预测编码模型 (预览) 页上显示模型的状态为“就绪”。

执行其他训练轮次

执行第一轮训练后,可以按照上一节中的步骤执行后续训练轮次。 唯一的区别是在“模型 概述 ”选项卡上更新训练轮的数目。例如,执行第一轮训练后,可以选择“ 开始下一轮训练 ”以开始第二轮训练。 等等。

每轮训练 (正在进行的训练和完成的训练) 都显示在模型的“ 训练 ”选项卡上。 选择训练轮次时,将显示一个浮出控件页面,其中包含该轮的信息和指标。

执行训练轮后会发生什么情况

执行第一轮训练后,将启动执行以下操作的作业:

  • 根据你在训练集中标记 40 项的方式,模型从标记中学习,并更新自身以变得更准确。

  • 然后,该模型处理整个评审集中的每个项目,并将预测分数分配在 0 (不相关的) 和 1 个 (相关) 之间。

  • 模型将预测分数分配给在训练轮期间标记的控件集中的 10 个项目。 该模型将这 10 个项目的预测分数与在训练轮中分配给该项目的实际标签进行比较。 基于此比较,模型标识以下分类 (称为 控制集混淆矩阵) 来评估模型的预测性能:



标签 模型预测项相关 模型预测项不相关
审阅者将项目标记为相关 真正例 误报
审阅者将项目标记为不相关 假负 真负

根据这些比较,模型派生 F 分数、精度和召回率指标的值,以及每个指标的误差边距。 这些模型性能指标的分数显示在训练轮的浮出控件页上。 有关这些指标的说明,请参阅 预测编码参考

  • 最后,模型确定接下来的 50 个项目,这些项将用于下一轮训练。 这一次,模型可能从控件集中选择 20 个项目,从审阅集中选择 30 个新项,并将它们指定为下一轮的训练集。 下一轮训练的采样不统一采样。 该模型将优化从评审集中选择的项目采样,以选择预测不明确的项目,这意味着预测分数在 0.5 范围内。 此过程称为 有偏差选择

执行后续训练轮后会发生什么情况

在第一轮训练) 后 (执行后续训练轮次后,模型将执行以下操作:

  • 模型根据你应用于该轮训练中的训练集的标签进行更新。
  • 系统会对控件集中的项评估模型的预测分数,并检查分数是否与控件集中对项的标记方式一致。 评估将针对所有训练轮对控件集中的所有标记项执行。 此评估的结果合并到模型的“概述”选项卡上的仪表板中。
  • 更新后的模型会重新处理审阅集中的每一项,并为每个项目分配更新的预测分数。

后续步骤

执行第一轮训练后,可以执行更多训练轮次或将模型的预测分数筛选器应用于评审集,以查看模型预测为相关或不相关的项。 有关详细信息,请参阅 将预测分数筛选器应用于审阅集