步骤 1. 使用Microsoft Syntex标识合同文件和提取数据

组织需要一种方法来识别和分类收到的许多文件中的所有合同文档。 你还希望能够快速查看每个合同文件中 (标识的多个关键元素,例如, 客户承包商费用金额) 。 为此,可以使用 Syntex] 创建非结构化文档处理模型并将其应用于文档库。

过程概述

非结构化文档处理模型 使用人工智能 (AI) 来自动分类文件和提取信息。 这些类型的模型在从非结构化和半结构化文档中提取信息方面也是最佳选择,其中所需的信息未包含在表或窗体中,例如合同。

非结构化文档处理模型使用光学字符识别 (OCR) 技术扫描 PDF、图像和 TIFF 文件,无论是使用示例文件训练模型还是针对文档库中的文件运行模型。

  1. 首先,需要找到至少五个可用于“训练”模型的示例文件,以搜索特定于你尝试标识的内容类型的特征, (合同) 。

  2. 使用 Syntex 创建新的非结构化文档处理模型。 使用示例文件,需要 创建分类器。 通过使用示例文件训练分类器,可以教它搜索特定于你在公司合同中看到的特征。 例如, 创建一个“说明” ,用于搜索合同中的特定字符串,例如 服务协议协议条款赔偿。 你甚至可以训练说明,以在文档的特定部分或位于其他字符串旁边查找这些字符串。 如果认为已使用分类器所需的信息训练了分类器,则可以在示例文件集上测试模型,以了解其效率。 测试后,如果需要,可以选择对说明进行更改,使其更高效。

  3. 在模型中,可以 创建提取器 ,从每个协定中提取特定数据。 例如,对于每个合同,你最关心的信息是客户是谁、承包商的姓名以及总成本。

  4. 成功创建模型后, 将其应用于 SharePoint 文档库。 将文档上传到文档库时,非结构化文档处理模型将运行,并将识别和分类与模型中定义的协定内容类型匹配的所有文件。 分类为协定的所有文件将显示在自定义库视图中。 这些文件还会显示提取器中定义的每个协定中的值。

    文档库中的协定。

  5. 如果你有合同的保留或安全要求,还可以使用模型来应用 保留标签敏感度标签 ,以防止在指定时间段内删除合同,或限制谁可以访问合同。

创建和训练模型的步骤

注意

对于这些步骤,可以使用 合同管理解决方案资产存储库中的示例文件。 此存储库中的示例包含模型文件和用于训练模型的文件。

创建协定模型

第一步是创建合同模型。

  1. 在内容中心,选择“ 新建>模型>教学方法”。

  2. 在“ 使用教学方法创建模型 ”窗格的“ 名称” 字段中,键入模型的名称。 对于此合同管理解决方案,可以将模型 命名为“合同”。

  3. 选择"创建"。 这将为该模型创建主页。

    合同主页的屏幕截图。

训练模型以对文件类型进行分类

为模型添加示例文件

至少需要添加五个作为合同文档的示例文件,以及一个不是合同文档的示例文件 (例如,工作) 语句。

  1. “模型 > 协定 ”页上,在 “关键操作>”“添加示例文件”下,选择“ 添加文件”。

    显示“合同”页的屏幕截图,其中突出显示了“添加示例文件”选项。

  2. “选择模型的示例文件” 页上,打开“协定”文件夹,选择要使用的文件,然后选择“ 添加”。 如果那里没有示例文件,请选择“ 上传 ”以添加它们。

将文件标记为正面或负面示例

  1. “模型 > 协定 ”页上,在 “关键操作>分类文件和运行训练”下,选择“ 训练分类器”。

    显示“合同”页的屏幕截图,其中突出显示了“分类文件和运行训练”选项。

  2. “模型 > 协定 > 协定分类器 ”页上,在第一个示例文件顶部的查看器中,你将看到询问该文件是否是你创建的合同模型示例的文本。 如果是正例,请选择“是”。 如果是反例,请选择“否”

  3. 从左侧的 “已标记的示例 ”列表中,选择要用作示例的其他文件,并对其进行标记。

    分类器主页。

添加至少一个解释来训练分类器

  1. “模型 > 协定 > 协定分类器 ”页上,选择“ 训练 ”选项卡。

  2. “训练的文件 ”部分中,你将看到前面标记的示例文件的列表。 从列表中选择一个正文件,将其显示在查看器中。

  3. “说明 ”部分中,选择“ 新建 ”,然后选择“ 空白”。

  4. 在“创建说明”页面上:

    a. 在 “名称” 字段中,键入解释 (的名称,例如“协议”) 。

    b. 在 “说明类型 ”字段中,选择“ 短语列表”,因为添加文本字符串。

    c. 在 “短语”列表 框中,键入字符串 (,例如“AGREEMENT”) 。 如果字符串需要 区分大小写 ,则可以选择“区分大小写”。

    d. 选择“ 保存并训练”。

    “创建说明”面板的屏幕截图。

测试模型

可以在以前未见过的示例文件上测试合同模型。 这是可选的,但它可能是一种有用的最佳做法。

  1. “模型 > 协定 > 协定分类器 ”页上,选择“ 测试 ”选项卡。这会在未标记的示例文件上运行模型。

  2. “测试文件” 列表中,示例文件将显示并显示模型预测为正数还是负值。 使用此信息以帮助确定分类器在文档识别中的有效性。

    “文本文件”列表中的未标记文件的屏幕截图。

  3. 完成后,选择“ 退出训练”。

创建和训练提取程序

  1. “模型>协定”页上,在“创建和训练提取程序的关键操作>”下,选择“创建提取程序”。

    显示“合同”页的屏幕截图,其中突出显示了“创建和训练提取程序”选项。

  2. “新建实体提取程序 ”面板的“ 新建名称” 字段中,键入提取程序的名称。 例如 ,如果要从 每个协定中提取客户端名称,请将其命名为 Client。

  3. 完成操作后,选择“创建”。

标记要提取的实体

创建提取程序时,将打开提取程序页。 此时,将看到示例文件的列表,并在查看器中显示列表中的第一个文件。

“客户端提取程序标记的示例”页的屏幕截图。

若要标记实体,请执行以下操作:

  1. 从查看器中,选择要从文件中提取的数据。 例如,如果要提取 “客户端”,请突出显示第一个文件中的客户端值, (此示例中的 “最佳有机) ”,然后选择“ 保存”。 你将在“标签”列下的已标记示例”列表中看到文件中显示的值。

  2. 选择“ 下一个文件 ”以自动保存,并在查看器的列表中打开下一个文件。 或选择“ 保存”,然后从“ 已标记的示例 ”列表中选择另一个文件。

  3. 在查看器中,重复步骤 1 和 2,然后重复步骤,直到将标签保存在所有文件中。

标记文件后,会显示一个通知横幅,通知你转到训练。 可以选择标记更多文档或转到训练。

添加说明

可以创建一个说明,提供有关实体格式本身及其在示例文件中可能存在的变体的提示。 例如,日期值可以采用多种不同的格式,例如:

  • 10/14/2019
  • 2019 年 10 月 14 日
  • 星期一,2019 年 10 月 14 日

若要帮助确定 合同开始日期,可以创建说明。

  1. “说明 ”部分中,选择“ 新建 ”,然后选择“ 空白”。

  2. 在“创建说明”页面上:

    a. 在“ 名称” 字段中,键入说明 (的名称,例如 日期) 。

    b. 在 “说明类型 ”字段中,选择“ 短语列表”。

    c. 在 “值” 字段中,提供示例文件中出现的日期变体。 例如,如果你的日期格式显示为 0/00/0000,则可在文档中输入显示的任何变体,如:

    • 0/0/0000
    • 0/00/0000
    • 00/0/0000
    • 00/00/0000
  3. 选择“ 保存并训练”。

再次测试模型

可以在以前未见过的示例文件上测试合同模型。 这是可选的,但它可能是一种有用的最佳做法。

  1. “模型 > 协定 > 协定分类器 ”页上,选择“ 测试 ”选项卡。这会在未标记的示例文件上运行模型。

  2. “测试文件 ”列表中,示例文件将显示并显示模型是否能够提取所需的信息。 使用此信息以帮助确定分类器在文档识别中的有效性。

  3. 完成后,选择“ 退出训练”。

将模型应用到文档库

若要将模型应用到 SharePoint 文档库,请执行以下操作:

  1. “模型>协定”页上,在“将模型应用于库的关键操作>”下,选择“应用模型”。

    显示“合同”页的屏幕截图,其中突出显示了“将模型应用于库”选项。

  2. “添加合同 ”面板上,选择包含要应用模型的文档库的 SharePoint 网站。 如果该网站未显示在列表中,请使用搜索框进行查找。 选择“添加”。

    注意

    你必须拥有管理列表 权限,或者编辑 对应用模型的文档库的权限。

  3. 选择网站后,选择要应用模型的文档库。

  4. 由于模型与内容类型相关联,因此在将它应用于库时,它将添加内容类型及其视图,其中提取的标签显示为列。 默认情况下,此视图是库的默认视图,但可以选择通过选中 “高级设置 ”并清除“ 将此新视图设置为默认 视图”复选框来选择将其设置为默认视图。

  5. 选择“添加”将模型应用到库中。

  6. “模型 > 协定 ”页上的“ 具有此模型的库 ”部分,你将看到列出 SharePoint 网站的 URL。

    合同主页的屏幕截图,其中显示了“具有此模型的库”部分。

  7. “设置库设置”>下:

    • 添加名为 “状态” 的列,然后选择“ 选择” 作为列类型。
    • 应用 “审阅中”、“ 已批准”“已拒绝” 值。

将模型应用到文档库后,可以开始将文档上传到网站并查看结果。

后续步骤

步骤 2. 使用 Microsoft Teams 创建合同管理通道