在 SharePoint 中训练非结构化文档处理模型

项目
2025/01/07

^{适用于： • 非结构化文档处理}

按照在 Syntex 中创建模型中的说明在内容中心创建非结构化文档处理模型。或者，按照在本地 SharePoint 网站上创建模型中的说明在本地网站上创建模型。然后从本文开始，开始训练模型。

创建分类器

分类器是一种模型类型，可用于自动化文档类型的标识和分类。

例如，可能想要标识所有添加到文档库中的“合同续订”文档，如下图所示。

“合同续订”文档。

创建分类器使你能够创建将与模型关联的新 SharePoint 内容类型。

创建分类器时，需要创建说明来定义模型。通过此步骤，可以记下预期会一致找到此文档类型的常见数据。

使用文档类型的示例（“示例文件”）来“培训”你的模型，以便识别具有相同内容类型的文件。

若要创建分类器，需要执行以下操作：

命名模型。
添加示例文件。
标记示例文件。
创建说明。
测试模型。

备注

虽然你的模型使用分类器来标识和分类文档类型，但是你也可以选择从模型识别的每个文件中提取特定信息。可通过创建提取程序并添加到模型中来实现此操作。请参阅“创建提取程序”。

命名模型

创建模型的第一步是为其命名：

在内容中心，选择“ 新建”，然后选择“ 模型”。
在 “模型创建选项” 页上，选择“ 教学方法”。
在 “教学方法：详细信息 ”页上，选择“ 下一步”。
在“ 使用教学方法创建模型 ”页上的“ 模型名称 ”字段中，键入模型的名称。例如，如果想要标识合同续订文档，可将该模型命名“合同续订”。
选择“创建”。此作为模型创建主页。

创建模型时，还会创建新的网站内容类型。内容类型表示具有共同特征的文档类别，并共享该特定内容的列或元数据属性的集合。可通过“内容类型库”管理 SharePoint 内容类型。对于此示例，创建模型时，将创建新的 合同续订 内容类型。

如果要将此模型映射到 SharePoint 内容类型库中的现有企业内容类型以使用其架构，请选择“高级设置”。企业内容类型存储在 SharePoint 管理中心中的内容类型中心中，并与租户中的所有网站联合。请注意，即使可以使用现有内容类型来利用其架构来帮助标识和分类，你仍需要训练模型以从它标识的文件中提取信息。

高级设置。

添加示例文件

在模型主页上，添加帮助训练模型以识别文档类型所需的示例文件。

备注

应为分类器和提取程序培训使用相同的文件。你始终可以选择稍后再添加更多，但你通常可以添加完整的示例文件集。标记一些文件以培训模型，并测试其余未标记的文件以评估模型适用性。

对于你的培训集，你应该要使用正例和反例：

正例：表示文档类型的文档。其中包含始终属于此类型文档内的字符串和信息。
负面示例：不表示要分类的文档的任何其他文档。

请务必使用至少五个正例，以及至少一个反例来培新模型。你希望创建另一个模型，用于在训练过程后测试模型。

添加示例文件：

在模型主页的“ 添加示例文件” 磁贴中，选择“ 添加文件”。
在“为模型选择示例文件”页面上，从内容中心的”培训文件”库中选择示例文件。如果尚未将这些文件上传到训练文件库，请单击“ 上传 ”，选择立即上传它们。
选择要用于训练模型的示例文件后，选择“ 添加”。

标记示例文件

添加示例文件后，需要将其标记为正例或反例。

在模型主页的 “分类文件和运行训练 ”磁贴上，选择“ 训练分类器”。此步骤显示标签页，其中显示了示例文件的列表，其中第一个文件在查看器中可见。
在查看器中第一个示例文件的顶部那里，你会看到询问该文件是否为刚创建模型的示例的文本。如果是正面示例，请选择“ 是”。如果是负面示例，请选择“ 否”。
在左侧“已标记示例”的列表中，选择要用作示例的附加文件，然后为其添加标签。

备注

标记至少五个正例。还必须标记至少一个反例。

创建说明

下一步是让你在“培训”页面上创建说明。说明有助于模型理解如何识别文档。例如，“合同续订”文档始终包含“请求附加说明”的文本字符串。

备注

与提取程序配合使用时，说明将会识别你想要从文档中提取的字符串。

要创建说明，请执行以下操作：

在模型主页中，选择“培训”选项卡以转到“培训”页面。
在“培训”页面上的“已培训文件”部分中，你应该会看到先前标记的示例文件列表。从列表中选择其中一个正例文件，然后它将在查看器中显示。
在“说明”部分中，选择“新建”，然后“空白”。
在 “创建说明 ”页上：
a。键入“名称”（例如，“说明文本块”）。
b. 选择“类型”。对于示例，请选择“短语列表”，因为添加了文本字符串。
c. 在“在此处键入”框中，键入字符串。对于示例，请添加“请求附加说明”。如果字符串需要区分大小写，则可以选择“区分大小写”。
d. 选择“保存”。
现在，内容中心将检查你创建的说明是否完整，足以正确地识别其他已标记的示例文件为正例和反例。在“已培训文件”的部分中，训练完成后，检查“评估”列以查看结果。如果你创建的说明足以匹配标记为正例或反例的内容，则文件显示“匹配”。

如果在已标记的文件上收到“不匹配”，则可能需要创建额外的说明，以便为模型提供更多标识文档类型的信息。如果发生不匹配，请选择文件以获取有关发生不匹配的原因的详细信息。