创建预测编码模型 (预览)

项目
10/01/2023

在电子数据展示 (Premium) 中使用预测编码的机器学习功能的第一步是创建预测编码模型。创建模型后，可以对其进行训练，以识别评审集中的相关和不相关的内容。

若要查看预测编码工作流，请参阅了解电子数据展示中的预测编码 (Premium)

提示

如果你不是 E5 客户，请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。立即从Microsoft Purview 合规门户试用中心开始。了解有关注册和试用条款的详细信息。

创建模型之前

评审集中必须至少有 2,000 个项目才能创建预测编码模型。
在创建模型之前，请务必将所有集合提交到审阅集。在创建模型后添加到审阅集的项将不会得到处理，也不会为模型生成的预测分数分配。
审阅集中不包含文本的任何项都不会由模型处理或分配预测分数。带有文本的项将包含在控件集或训练集中。

创建模型

在Microsoft Purview 合规门户中，打开电子数据展示 (高级版) 事例，然后选择“审阅集”选项卡。
打开审阅集，然后选择“ 分析>管理预测编码 (预览) 。
在 “预测编码模型 (预览) ”页上，选择“ 新建模型”。
在浮出控件页上，键入模型的名称和可选说明。
（可选）可以通过在浮出控件页上选择“ 高级选项 ”来配置 (高级设置，) 与置信度和误差边距相关。这些设置会影响控件集中包含的项数。 控制集在训练过程中用于评估模型分配给具有训练轮期间执行的标记的项的预测分数。如果你的组织有关于文档审阅的置信度和误差幅度的指南，请在相应的框中指定它们。否则，请使用默认设置。
选择“ 保存” 以创建模型。

系统准备模型需要几分钟时间。准备就绪后，可以进行第一轮训练。

创建模型后会发生什么情况

创建模型后，在创建和准备模型期间，后台会出现以下情况：

系统计算控件集的项数。此大小基于审阅集中的项目数以及置信度和误差边距的设置。控件集的项随机选择并指定为控件集项。系统包括第一轮训练中控制集中的 10 个项目。
系统从评审集中随机选择 40 个项目，以包含在第一轮训练的训练集中。因此，第一轮训练包括 50 项用于标记：训练集中的 40 项和控制集中的 10 项。

后续步骤

为审阅集创建模型后，下一步是执行训练轮次，以“教授”模型以识别与调查相关的内容。有关详细信息，请参阅训练预测编码模型。

反馈

即将发布：在整个 2024 年，我们将逐步淘汰作为内容反馈机制的“GitHub 问题”，并将其取代为新的反馈系统。有关详细信息，请参阅：https://aka.ms/ContentUserFeedback。

提交和查看相关反馈

查看所有页面反馈