如何使用 Syntex 处理内容
大概,与 Contoso Electronics 一样,你的组织已经拥有大量文档,并且你希望了解如何使用 Syntex 来优化处理文档的过程。 本单元介绍 Syntex 如何帮助你完成内容生命周期的阶段 2、3 和 4:通过 Contoso Electronics 的镜头对内容进行分类、提取元数据和应用标签。
你将了解:
- Syntex 提供的文档处理模型类型
- 每个模型的特征、要求和限制
- 分析需求、设置和训练模型的典型过程
在开始之前,我们建议你在 SharePoint 网站上设置“SharePoint 合同管理团队网站模板”。 使用此模板,可以练习此模板附带的示例文件、模板、库和模型。
文档处理模型
Microsoft Syntex 中的内容理解始于文档处理模型。 使用文档处理模型可以识别上传到 SharePoint 文档库的文档并对其进行分类,然后从每个文件中提取所需的信息。 根据文档的功能和用途,Syntex 提供用于处理文档的不同模型。 文档处理模型分为两类:预生成模型和自定义模型。
让我们看看每个类别中模型的关键事实。
预生成模型
首先,Syntex 附带三个预生成模型 - 合同模型、发票模型和收据模型,分别用于分析和提取合同文档的关键信息,以处理销售发票和销售收据。 这些预生成模型经过预配置和预训练。 可以先根据预生成模型分析文件并确定要提取的字段,而不是从头开始生成模型。 这两种模型都适用于以下文件类型中的文件:.bmp、.jpeg、.pdf、.png 和.tiff。
合同处理
协定处理模型从合同文档分析和提取关键信息。 预生成的 合同处理模型 识别各种格式的合同,并提取关键合同信息,例如客户端名称和地址、合同持续时间和续订日期。
发票处理
发票处理模型处理发票以提取关键信息。 预生成 发票处理模型 适用于 PDF 文档和图像文件,但仅支持来自美国的英语发票。
收据处理
使用收据处理模型可以从打印或手写收据获取重要信息。 此预生成 收据处理模型 适用于 PDF 文档和图像文件,但仅支持来自澳大利亚、加拿大、英国、印度和美国的英语销售收据。
使用预生成模型
若要使用预生成模型,请首先创建模型。 然后,上传示例文件以与预生成模型进行比较。 你需要告诉模型应从文档中提取哪些信息 (选择提取程序) 。 选择提取程序后,可以保存模型并将其应用于文档库。 提取程序提取的关键数据显示在文档库中。
自定义模型
更多情况下,文档不是合同、发票和收据。 需要创建自定义模型来处理这些文档。 自定义模型有三种类型:结构化文档处理模型、任意格式文档处理模型和非结构化文档处理模型。 每种类型的文档在信息结构、文件格式和支持的语言方面都最适合。 使用每个模型的成本、要求以及设置工作也因模型类型而异。
结构化文档处理模型
当文档中的信息以表格格式(如窗体和发票)存储时, 结构化文档处理模型 效果最佳。 此自定义模型适用于 PDF 文档和图像文件。 它支持 多种语言 ,并使用布局方法对信息进行分类和提取。
任意格式文档处理模型
任意格式文档处理模型最适用于非结构化文档和任意格式文档,这些文档的格式可能不同,但所有文档中都存在类似的内容。 此自定义模型适用于 PDF 文档和图像文件,但目前仅支持英文文档。 此模型使用任意多边形选择方法对信息进行分类和提取。
注意
结构化文档处理和任意格式文档处理模型都依赖于 Power Platform。 在决定使用这两个模型之前,可能需要检查 Power Platform 的可用性。 这两个模型都需要 AI Builder 额度。 每个Microsoft Syntex 许可的“席位”附带 3,500 个信用额度,并 根据需要选择购买更多。
非结构化文档处理模型
如果文档具有各种内容结构,但包含类似的关键信息,则需要考虑使用 非结构化文档处理模型。 在所有三个自定义模型中,非结构化文档处理模型支持 最广泛的文档类型。 此模型支持基于拉丁语的语言,包括英语、法语、德语、意大利语和西班牙语。 它使用教学方法训练文件。 非结构化文档处理模型在所有区域中都可用。
以下视频简要概述了什么是非结构化文档处理模型:
所有模型
对于所有模型,需要首先上传一个或多个示例文件来 训练模型。 但是,不同的模型使用不同的训练方法,并支持不同的文档类型和语言集。 此外,对于某些模型,如果 Power Platform 和 AI Builder 在该区域中不可用,则需要考虑它们在某些区域可能不起作用。 有关 每个文档处理模型的要求和限制的更多详细信息。
请注意:
- 集中创建的模型称为 企业模型,本地称为 本地模型。
- 可以将企业模型应用于多个库,而只能将本地模型应用于单个库。
- 如果模型的置信度分数较低,请上传额外的示例文件,然后重新训练模型。
开始创建模型之前
- 请考虑需要提取的信息。
- 如果更新 Syntex 任意多边形或结构化模型,请不要忘记发布这些更改以使其生效。 在模型详细信息页中,选择上次训练的版本,然后选择“ 发布”。
- 如果要更新 Syntex 模型(例如添加或删除提取程序),请记住将模型同步到分配它的库。 同步操作相应地更新内容类型和列。
文档标记
除了文档处理模型,Syntex 还让你能够使用 AI 自动标记文档。 对于图像, 图像标记 将 AI 提取的描述性关键字存储在 “图像标记” 列中,以便更轻松地搜索、排序、筛选和管理图像。 对于 其他受支持的文档, 分类标记 将术语存储到术语库中的 分类 列,以便更轻松地搜索、排序、筛选和管理这些文档。
光学字符识别 (OCR)
Syntex 中的 OCR 服务 从图像和文档中提取打印或手写文本,然后在搜索中为它们编制索引。 此服务可帮助你快速准确地找到要查找的关键字和短语。
Contoso Electronics 使用结构化文档处理模型优化文档质量检查
现在,让我们看看 Contoso Electronics 如何确定其优化文档质量检查过程的方法。
确定方案
Contoso Electronics 是一家在多个国家/地区运营的大型公司,希望确保其所有文书工作都与客户在每个特定领域的期望一致。 这包括查看技术设计、流程等内容,并确保客户订单准确无误。 基本上,这一切都是为了确保他们遵循规则,一切都井然有序。
过去,Contoso Electronics 的文档处理者手动执行质量检查,从而花费了宝贵的时间和资源。 现在,借助 Syntex,文档处理器希望可以从与项目关联的每个文档自动捕获关键信息,从而更快、更轻松地进行质量检查。
确定方法
若要为 Contoso 的文档质量检查实现 Syntex,第一步是确定要使用的文档处理模型。 领导要求 IT 部门与各个项目和卫星位置的文档处理者合作做出决策。 团队首先分析 Contoso 文档的类型以进行质量检查、格式、内容结构和语言。
团队很快发现,Contoso Electronics 的文档采用多种格式,例如 PDF 文档、图像、Microsoft Word 文档、电子邮件和 html 页面。 但是,接受质量检查的文档的主要类型是 PDF 和采用.jpeg格式的扫描图像。 由于 Contoso Electronics 是一家跨国公司,其项目来自世界各地,因此许多文档都采用拉丁字母语言或非字母语言。 此外,这些文档中的大多数都有类似的结构和布局。 根据 每个自定义模型的比较表中的特征列表,团队发现结构化文档处理模型是要使用的合适模型。
设置 Syntex
接下来,IT 部门需要确认 Power Platform 和 AI Builder 在每个 Contoso Electronics 附属位置都可用。 确认所有附属位置都具有 Power Platform 和 AI Builder 后,IT 部门开始 设置 Syntex。 Contoso Electronics 已设置 Microsoft 365 多地理位置环境。 这意味着他们需要联系Microsoft支持人员,因为他们想要在其所有附属位置使用结构化文档处理模型。 根据每个卫星位置和总部的文档处理需求,团队还决定需要获取的初始 Syntex 许可证数量。
团队还会查看运行模型的成本。 结构化文档处理使用 AI Builder 额度。 每个 Syntex 许可证每月可以使用 3,500 个额度,每个组织每月最多分配 100 万个额度。 分配 100 万个额度允许处理 2,000 个文件页。 尽管未使用的信用额度不会逐月滚动更新,但在使用 AI Builder 计算器计算估计的每月信用额度后,团队决定默认信用额度应足够。 然后,IT 部门 创建一个内容中心,并将文档处理者作为其他管理员添加到内容中心网站。
创建和训练模型
在 Contoso Electronics,文档处理器现在可以 创建自己的本地结构化文档处理模型。 他们 训练这些模型 以分析结构化文档(如工程合同),并提取客户名称、项目编号、文档编号、状态和审批者等关键标识符。 为确保文档保持合规性和一致性,文档处理器可以训练模型以自动标记具有 保留 和 敏感度 标签的文档, (将在 2023 年晚些时候) 。
训练模型并在文档上使用模型后,将根据从文档提取的信息生成供应商名称、项目编号和文档编号的新列。 该模型还会在应用时自动标记保留和敏感度标签的文档。
在下一单元中,我们将了解 Contoso Electronics 的合同经理如何使用内容查询、规则和其他工具从生成的列中查找信息。 我们还将介绍如何将 Syntex 与其他工具组合在一起,以自动执行工作流。