(预览) 训练预测编码模型

在 Microsoft Purview 电子数据展示 (Premium) 中创建预测编码模型后，下一步是执行第一轮训练，以根据审阅集中的相关和不相关内容训练模型。完成第一轮训练后，可以执行后续训练轮次，以提高模型预测相关和不相关内容的能力。

提示

如果你不是 E5 客户，请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。立即从Microsoft Purview 合规门户试用中心开始。了解有关注册和试用条款的详细信息。

训练模型之前

在训练轮次期间，根据文档中内容的相关性将项目标记为 “相关 ”或“ 不相关”。不要基于元数据字段中的值做出决策。例如，对于电子邮件或 Teams 对话，不要基于邮件参与者做出标记决策。

在Microsoft Purview 合规门户中，打开电子数据展示 (高级版) 事例，然后选择“审阅集”选项卡。
打开审阅集，然后选择“ 分析>管理预测编码 (预览) 。
在 “预测编码模型 (预览) ”页上，选择要训练的模型。
在“ 概述 ”选项卡上的“ 第 1 轮”下，选择 “开始下一轮训练”。

将显示“ 训练 ”选项卡，其中包含 50 个要标记的项目。
查看每个文档，然后选择阅读窗格底部的“ 相关 ”或“ 不相关 ”按钮进行标记。
标记所有 50 个项目后，选择“ 完成”。

系统需要几分钟时间才能从标记中“学习”并更新模型。此过程完成后，预测编码模型 (预览) 页上显示模型的状态为“就绪”。

执行第一轮训练后，可以按照上一节中的步骤执行后续训练轮次。唯一的区别是在“模型概述 ”选项卡上更新训练轮的数目。例如，执行第一轮训练后，可以选择“ 开始下一轮训练 ”以开始第二轮训练。等等。

每轮训练 (正在进行的训练和完成的训练) 都显示在模型的“ 训练 ”选项卡上。选择训练轮次时，将显示一个浮出控件页面，其中包含该轮的信息和指标。

执行第一轮训练后，将启动执行以下操作的作业：

根据你在训练集中标记 40 项的方式，模型从标记中学习，并更新自身以变得更准确。
然后，该模型处理整个评审集中的每个项目，并将预测分数分配在 0 (不相关的) 和 1 个 (相关) 之间。
模型将预测分数分配给在训练轮期间标记的控件集中的 10 个项目。该模型将这 10 个项目的预测分数与在训练轮中分配给该项目的实际标签进行比较。基于此比较，模型标识以下分类 (称为 控制集混淆矩阵) 来评估模型的预测性能：

根据这些比较，模型派生 F 分数、精度和召回率指标的值，以及每个指标的误差边距。这些模型性能指标的分数显示在训练轮的浮出控件页上。有关这些指标的说明，请参阅预测编码参考。

最后，模型确定接下来的 50 个项目，这些项将用于下一轮训练。这一次，模型可能从控件集中选择 20 个项目，从审阅集中选择 30 个新项，并将它们指定为下一轮的训练集。下一轮训练的采样不统一采样。该模型将优化从评审集中选择的项目采样，以选择预测不明确的项目，这意味着预测分数在 0.5 范围内。此过程称为 有偏差选择。

在第一轮训练) 后 (执行后续训练轮次后，模型将执行以下操作：

模型根据你应用于该轮训练中的训练集的标签进行更新。
系统会对控件集中的项评估模型的预测分数，并检查分数是否与控件集中对项的标记方式一致。评估将针对所有训练轮对控件集中的所有标记项执行。此评估的结果合并到模型的“概述”选项卡上的仪表板中。
更新后的模型会重新处理审阅集中的每一项，并为每个项目分配更新的预测分数。

执行第一轮训练后，可以执行更多训练轮次或将模型的预测分数筛选器应用于评审集，以查看模型预测为相关或不相关的项。有关详细信息，请参阅将预测分数筛选器应用于审阅集。