你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

文档字段提取 - 自定义生成式 AI 模型

重要

  • 使用文档智能选公共预览版,可以提前使用目前正处于开发状态的功能。 在正式发布 (GA) 之前,根据用户反馈,功能、方法和流程可能会发生更改。
  • 文档智能客户端库的公共预览版默认使用 REST API 版本 2024-07-31-preview,目前仅在以下 Azure 区域提供。
    • 美国东部
    • 美国中北部

文档字段提取(自定义生成式 AI)模型利用生成式 AI 从各种可视化模板的文档中提取用户指定的字段。 自定义生成式 AI 模型将文档理解的功能与大型语言模型 (LLM) 以及自定义提取功能的严谨性和架构相结合,在几分钟内即可创建一个高准确性的模型。 借助这种生成式模型类型,可以从单个文档开始,在添加架构和创建模型的过程中尽量减少标注。 自定义生成式模型可让开发人员和企业轻松实现数据提取工作流的自动化,更准确、更快速地处理任何类型的文档。 自定义生成式 AI 模型在从无标记样本的文档中提取简单字段方面表现出色。 不过,对于复杂字段和用户定义字段(如表格),提供一些标记样本可以提高提取准确度。 可以使用 REST API 或客户端库提交文档,以便通过模型生成进行分析,并使用自定义生成式过程。

自定义生成式 AI 模型优势

  • 自动标记。 利用大型语言模型 (LLM) 并提取各种文档类型和可视化模板的用户指定字段。

  • 改进的通用化。 从非结构化数据和不同文档模板中提取数据,准确度更高。

  • 基于事实的结果。 本地化文档中提取的数据。 在适用的情况下,自定义生成式模型将结果作为依据,确保答复是根据内容生成的,并启用人工审核工作流。

  • 置信度分数。 使用每个提取字段的置信度分数来筛选高质量的提取数据,最大限度地提高文档的直接处理能力,并最大限度地降低人工审核成本。

常见用例

  • 合同生命周期管理。 构建生成式模型,并从各种合同类型中提取字段、条款和义务。

  • 贷款和抵押贷款申请。 贷款和抵押贷款申请流程的自动化使银行、贷款人和政府实体能够快速处理贷款和抵押贷款申请。

  • 金融服务。 通过自定义生成式 AI 模型,分析复杂的文档,如财务报表和资产管理报表。

  • 费用管理。 需要对来自不同零售商和企业的收据和发票进行分析,以验证费用。 自定义生成式 AI 模型可以从不同格式和具有各种模板的文档中提取费用。

管理训练数据集

对于我们的其他自定义模型,你需要维护数据集、添加新样本并训练模型以提高准确性。 对于自定义生成式 AI 模型,标记的文档会被转换、加密并存储在模型中。 这一过程可确保模型能够不断使用标记的样本来提高提取质量。 与其他自定义模型一样,模型存储在 Microsoft 存储中,你可以随时删除它们。

文档智能服务可以管理数据集,但文档是加密存储的,仅用于改进特定模型的模型结果。 服务管理的密钥可用于加密数据,或者可以选择使用客户管理的密钥对其进行加密。 数据集管理和生命周期的更改仅应用于自定义生成式模型。

模型功能

字段提取自定义生成式模型当前支持 2024-07-31-preview 的动态表和以下字段:

表单域 选定标记 表格字段 签名 区域标记 重叠字段
支持 受支持 支持 不支持 不支持 支持

生成模式

build custom model 操作支持自定义模板、神经模型和生成式模型,请参阅自定义模型生成模式。 下面是模型类型的差异:

  • 自定义生成式 AI 模型可以处理包含各种格式、不同模板和非结构化数据的复杂文档

  • 自定义神经模型支持复杂的文档处理,还支持结构化和半结构化文档页面的更多版本

  • 自定义模板模型依赖于一致的可视化模板(例如问卷或应用程序)来提取标记的数据

语言和区域设置支持

字段提取自定义生成式模型 2024-07-31-preview 版本支持 en-us 区域设置。 有关语言支持的详细信息,请参阅语言支持 - 自定义模型

区域支持

字段提取自定义生成式模型 2024-07-31-preview 版本仅在“美国东部”和 North Central US 可用。  

输入要求

  • 支持的文件格式:

    型号 PDF 图像:
    JPEG/JPGPNGBMPTIFFHEIF
    Microsoft Office:
    Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX)、HTML
    读取
    布局 ✔(2024-07-31-preview、2024-02-29-preview、2023-10-31-preview)
    常规文档
    预生成
    自定义提取
    自定义分类 ✔(2024-07-31-preview、2024-02-29-preview)
  • 为获得最佳结果,请针对每个文档提供一张清晰的照片或高质量的扫描件。

  • 对于 PDF 和 TIFF,最多可处理 2,000 页(对于免费层订阅,仅处理前两页)。

  • 用于分析文档的文件大小对于付费 (S0) 层为 500 MB,对于免费 (F0) 层为 4 MB。

  • 图像尺寸必须介于 50 像素 x 50 像素与 10,000 像素 x 10,000 像素之间。

  • 如果 PDF 是密码锁定的文件,则必须先删除锁,然后才能提交它们。

  • 对于 1024 x 768 像素的图像,要提取的文本的最小高度为 12 像素。 此尺寸对应于 150 点/英寸 (DPI) 的大约 8 号字文本。

  • 对于自定义模型训练,自定义模板模型的训练数据最大页数为 500,自定义神经模型的训练数据最大页数为 50,000。

    • 对于自定义提取模型训练,模板模型的训练数据总大小为 50 MB,神经网络模型的训练数据总大小为 1 GB。

    • 对于自定义分类模型训练,训练数据总大小为 1 GB,上限为 10,000 页。 对于 2024-07-31-preview 及更高版本,训练数据的总大小为 2 GB,上限为 10,000 页。

最佳做法

  • 代表性数据。 使用针对实际数据分发的代表性文档,训练高质量的自定义生成式模型。 例如,如果目标文档包含部分填充的表格字段,请添加包含部分填充表的训练文档。 或者,如果字段命名为日期,则此字段的值应该是一个日期,因为随机字符串可能会影响模型性能。

  • 字段命名。 选择代表字段值的精确字段名称。 例如,对于包含事务日期的字段值,请考虑将此字段命名为 TransactionDate 而不是 Date1

  • 字段说明。 在说明中提供更多上下文信息,以帮助明确需要提取的字段。 例如文档中的位置、可能与之关联的潜在字段标签、区分可能产生歧义的其他术语的方法。

  • 不同的情况。 自定义生成式模型可以在相同文档类型的不同文档模板中通用化。 作为最佳做法,请为某种文档类型的所有变体创建单个模型。 为了增强模型在文档生成或处理中的准确性和一致性,请为每个类型包括一个可视化模板,尤其是对于需要特定格式和/或结构元素的类型。

服务指南

  • 自定义生成式预览模型目前不支持固定表和签名提取。

  • 对同一文档的推理可能会在调用中产生略有不同的结果,这是当前 GPT 模型的已知限制。

  • 每个字段的置信度分数可能会有所不同。 建议使用具有代表性的数据进行测试,以建立应用场景的置信度阈值。

  • 落实(尤其是表格字段)具有挑战性,在某些情况下可能并不完美。

  • 大型文档的延迟较高,并且预览版中存在已知限制。

  • 组合模型不支持自定义生成式提取。

训练模型

2024-07-31-preview 版本及更高版本提供自定义生成式模型。

用于训练模型的 build operation 支持 buildMode 属性,若要训练自定义生成式模型,请将 buildMode 设置为 generative


https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "generative",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

后续步骤