在 Microsoft Syntex 中训练非结构化文档处理模型
适用于: • 非结构化文档处理
按照 在 Syntex 中创建模型 中的说明在内容中心创建非结构化文档处理模型。 或者,按照 在本地 SharePoint 网站上创建模型 中的说明在本地网站上创建模型。 然后从本文开始,开始训练模型。
创建分类器
分类器是一种模型类型,可用于自动化文档类型的标识和分类。
例如,可能想要标识所有添加到文档库中的“合同续订”文档,如下图所示。
创建分类器使你能够创建将与模型关联的新 SharePoint 内容类型。
创建分类器时,需要创建说明来定义模型。 通过此步骤,可以记下预期会一致找到此文档类型的常见数据。
使用文档类型的示例(“示例文件”)来“培训”你的模型,以便识别具有相同内容类型的文件。
若要创建分类器,需要执行以下操作:
注意
虽然你的模型使用分类器来标识和分类文档类型,但是你也可以选择从模型识别的每个文件中提取特定信息。 可通过创建提取程序并添加到模型中来实现此操作。 请参阅“创建提取程序”。
命名模型
创建模型的第一步是为其命名:
在内容中心,选择“ 新建”,然后选择“ 模型”。
在 “模型创建选项” 页上,选择“ 教学方法”。
在 “教学方法: 详细信息 ”页上,选择“ 下一步”。
在“ 使用教学方法创建模型 ”页上的“ 模型名称 ”字段中,键入模型的名称。 例如,如果想要标识合同续订文档,可将该模型命名“合同续订”。
选择“创建”。 此操作将创建模型的主页。
创建模型时,还会创建新的网站内容类型。 内容类型表示具有共同特征的文档类别,并共享该特定内容的列或元数据属性的集合。 可通过“内容类型库”管理 SharePoint 内容类型。 对于此示例,创建模型时,将创建新的 合同续订 内容类型。
如果要将此模型映射到 SharePoint 内容类型库中的现有企业内容类型以使用其架构,请选择“高级设置”。 企业内容类型存储在 SharePoint 管理中心中的内容类型中心中,并与租户中的所有网站联合。 请注意,即使可以使用现有内容类型来利用其架构来帮助标识和分类,你仍需要训练模型以从它标识的文件中提取信息。
添加示例文件
在模型主页上,添加帮助训练模型以识别文档类型所需的示例文件。
注意
应为分类器和提取程序培训使用相同的文件。 你始终可以选择稍后再添加更多,但你通常可以添加完整的示例文件集。 标记一些文件以培训模型,并测试其余未标记的文件以评估模型适用性。
对于你的培训集,你应该要使用正例和反例:
- 正例:表示文档类型的文档。 其中包含始终属于此类型文档内的字符串和信息。
- 负面示例:不表示要分类的文档的任何其他文档。
请务必使用至少五个正例,以及至少一个反例来培新模型。 你希望创建另一个模型,用于在训练过程后测试模型。
添加示例文件:
在模型主页的“ 添加示例文件” 磁贴中,选择“ 添加文件”。
在“为模型选择示例文件”页面上,从内容中心的”培训文件”库中选择示例文件。 如果尚未将这些文件上传到训练文件库,请单击“ 上传 ”,选择立即上传它们。
选择要用于训练模型的示例文件后,选择“ 添加”。
标记示例文件
添加示例文件后,需要将其标记为正例或反例。
在模型主页的 “分类文件和运行训练 ”磁贴上,选择“ 训练分类器”。 此步骤显示标签页,其中显示了示例文件的列表,其中第一个文件在查看器中可见。
在查看器中第一个示例文件的顶部那里,你会看到询问该文件是否为刚创建模型的示例的文本。 如果是正面示例,请选择“ 是”。 如果是负面示例,请选择“ 否”。
在左侧“已标记示例”的列表中,选择要用作示例的附加文件,然后为其添加标签。
注意
标记至少五个正例。 还必须标记至少一个反例。
创建说明
下一步是让你在“培训”页面上创建说明。 说明有助于模型理解如何识别文档。 例如,“合同续订”文档始终包含“请求附加说明”的文本字符串。
注意
与提取程序配合使用时,说明将会识别你想要从文档中提取的字符串。
要创建说明,请执行以下操作:
在模型主页中,选择“培训”选项卡以转到“培训”页面。
在“培训”页面上的“已培训文件”部分中,你应该会看到先前标记的示例文件列表。 从列表中选择其中一个正例文件,然后它将在查看器中显示。
在“说明”部分中,选择“新建”,然后“空白”。
在 “创建说明 ”页上:
a。 键入“名称”(例如,“说明文本块”)。
B。 选择“类型”。 对于示例,请选择“短语列表”,因为添加了文本字符串。
C。 在“在此处键入”框中,键入字符串。 对于示例,请添加“请求附加说明”。 如果字符串需要区分大小写,则可以选择“区分大小写”。
d. 选择“保存”。现在,内容中心将检查你创建的说明是否完整,足以正确地识别其他已标记的示例文件为正例和反例。 在“已培训文件”的部分中,训练完成后,检查“评估”列以查看结果。 如果你创建的说明足以匹配标记为正例或反例的内容,则文件显示“匹配”。
如果在已标记的文件上收到“不匹配”,则可能需要创建额外的说明,以便为模型提供更多标识文档类型的信息。 如果发生不匹配,请选择文件以获取有关发生不匹配的原因的详细信息。
培训提取程序后,已培训提取程序就可以作为说明了。 在“说明”部分中,这显示为模型参考。
测试模型
如果在标记的示例文件上收到匹配项,现在可以在模型以前未看到的其他未标记示例文件上测试模型。 此步骤是可选的,但对于在使用模型之前,通过在模型以前未见过的文件上测试模型来评估模型的“适用性”或就绪情况,这是一个有用的步骤。
在模型主页中,选择“测试”选项卡。这将在未标记的示例文件上运行模型。
在“测试文件”列表中,将列出并显示示例文件(如果模型将其预测为正例或反例的话)。 使用此信息以帮助确定分类器在文档识别中的有效性。