在 Microsoft Syntex 中创建提取程序时利用术语库分类

适用于: • 非结构化文档处理



使用 Microsoft Syntex 在非结构化文档处理模型中创建提取器时,可以利用 术语存储 中的全局术语集来显示提取数据的首选术语。

例如,你的模型标识并分类上传到文档库的所有合同文档。 此外,该模型还会提取每个合同中的合同服务值,并将其显示在库视图中的一列中。 在合同中的各种合同服务值之间,有一些你的公司不再使用且已重命名了的旧值。 例如,对术语 DesignGraphicsTopography 合同服务的所有引用现在都应称为创意。 每当模型从合同文档中提取过时术语之一时,你都希望它在库视图中显示当前术语(创意)。 在以下示例中,在训练模型时,我们看到一个示例文档包含过时的 “设计”术语。

术语库。

在提取器中使用托管元数据列

术语集在 SharePoint 管理中心的托管元数据服务 (MMS) 术语存储中配置。 在下面的示例中, Contract Services术语集 配置为包含多个术语,包括 Creative。 它的详细信息显示该术语有三个同义词(DesignGraphicsTopography),并且同义词应翻译为创意

术语集。

在术语集中使用同义词的原因可能有很多。 例如,组织部门的命名中可能存在已过时的术语、已重命名的术语或差异。

若要确保在模型中创建提取器时托管元数据字段可供选择,需要将其添加为托管元数据网站列。 添加该网站列后,便可以在为模型创建提取器时选择该字段。

合同服务。

将模型应用到文档库之后,将文档上传到库中时,当提取器发现任意同义词值(DesignGraphicsTopography)时,创意服务 列将显示首选术语(创意)。

协定服务列。

注意

如果术语集处于打开状态,则与首选字词或同义词值不匹配的任何提取值都将作为新术语添加到术语集的根目录中。 这些新术语可以在术语集所在的术语库中移动、合并或成为同义词。

另请参阅

托管元数据简介

创建提取器

创建托管元数据列