Microsoft Syntex 中预生成文档处理的概述

注意

在 2024 年 6 月，如果设置了即用即付计费，则可以免费试用预生成的文档处理和其他选定的 Syntex 服务。有关信息和限制，请参阅试用Microsoft Syntex并浏览其服务。

除了自定义模型，Microsoft Syntex还提供预生成模型来自动提取信息。

注意

Microsoft 尊重你用于在 Syntex 中训练和处理模型的数据的隐私和所有权。 Microsoft 不会使用或传输组织的任何数据来训练 AI 模型、大语言模型或任何其他模型。数据安全地保留在组织的租户中。有关详细信息，请参阅 Microsoft 数据保护和隐私。

预生成模型简介

预生成文档处理使用预配置的预生成模型来识别文档和文档中的结构化信息。无需从头开始创建新的自定义模型，可以循环访问现有预先训练的模型，以添加符合组织需求的特定字段。

预生成模型使用光学字符识别 (OCR) 与深度学习模型相结合来识别和提取特定文档类型通用的预定义文本和数据字段。首先，根据预生成模型分析其中一个文件。然后，选择对用途有意义的检测到的字段。如果模型未检测到所需的字段，则可以使用其他文件再次进行分析。

与其他模型一样，预生成模型是在内容中心中创建和管理的。应用于 SharePoint 文档库时，模型与内容类型相关联，并且具有用于存储要提取的信息的列。

发布模型后，请使用内容中心将其应用到你有权访问的任何 SharePoint 文档库。

目前，有三种预生成模型可用：合同、发票和收据。

合同。 预生成 合同模型从合同 文档分析和提取关键信息。该模型识别各种格式的合同，并提取关键合同信息，例如客户端名称和地址、合同持续时间和续订日期。
发票。 预生成 发票模型 分析并从销售发票中提取关键信息。 API 以各种格式分析发票，并提取关键发票信息，例如客户名称、帐单邮寄地址、截止日期和应付金额。
收益。 预生成 收据模型 分析并从销售收据中提取关键信息。 API 分析打印的收据和手写收据，并提取关键收据信息，例如商家名称、商家电话号码、交易日期、税款和交易总额。

将来的版本中将提供其他预生成模型。

有关选择此模型时要考虑的要求的信息，请参阅 Microsoft Syntex 中模型的要求和限制。