你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

文档智能自定义模板模型

项目
2025/02/07

此内容适用于：v4.0 (GA) | 以前的版本：v3.1 (GA)v3.0 (GA)v2.1 (GA)

此内容适用于：v3.1 (GA) | 最新版本：v4.0 (GA) | 以前的版本：v3.0 v2.1

此内容适用于：v3.0 (GA) | 最新版本：v4.0 (GA)v3.1 | 以前的版本：v2.1

此内容适用于：v2.1 | 最新版本：v4.0 (GA)

自定义模板（以前称为自定义表单）是易于训练的文档模型，可准确提取文档中标记的键值对、选择标记、表、区域以及签名。模板模型使用布局提示从文档中提取值，适用于通过已定义的视觉对象模板从高度结构化文档中提取字段。

自定义模板模型与自定义神经模型具有相同的标记格式和策略，支持更多字段类型和语言。

模型功能

自定义模板模型支持键值对、选择标记、表、签名字段和选定区域。

表单域	选定标记	表格字段（表）	签名	选择区域	重叠字段
支持	受支持	受支持	受支持	受支持	不支持

表格字段

随着 API 版本 v3.0 及更高版本的发布，自定义模板模型将添加对“跨页”表格字段（表）的支持：

要标记跨多个页的表，请在单个表中跨不同页标记表的每一行。
最佳做法是确保数据集包含预期变体的几个示例。例如，如果希望在文档中看到以下变体，则包括相关示例：整个表位于单个页面上；表跨越两页或更多页。

在提取文档中未被识别为表格的重复信息时，表格字段也很有用。例如，可以将简历中重复的工作经历部分标记并提取为表格字段。

处理变体

模板模型依赖于已定义的视觉对象模板，对模板的更改将导致准确度降低。在这些情况下，请拆分你的训练数据集以包含每个模板的至少五个样本，并为每个变体训练一个模型。然后，可以将模型组合到单个终结点中。对于处理精细变体（例如数字 PDF 文档和图像），最好在同一训练数据集中至少包含每种类型的五个示例。

输入要求

为获得最佳结果，请针对每个文档提供一张清晰的照片或高质量的扫描件。

支持的文件格式：

型号	PDF	图像： J`PEG/JPG`、`PNG`、`BMP`、`TIFF`、`HEIF`	Microsoft Office： Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX) 和 HTML
阅读	✔	✔	✔
布局	✔	✔	✔
常规文档	✔	✔
预生成	✔	✔
自定义	✔	✔

✱ 其他模型或版本当前不支持 Microsoft Office 文件。

对于 PDF 和 TIFF，最多可处理 2,000 页（对于免费层订阅，仅处理前两页）。
用于分析文档的文件大小对于付费 (S0) 层为 500 MB，对于免费 (F0) 层为 4 MB。
图像尺寸必须介于 50 x 50 像素与 10,000 x 10,000 像素之间。
如果 PDF 是密码锁定的文件，则必须先删除锁，然后才能提交它们。
对于 1024 x 768 像素的图像，要提取的文本的最小高度为 12 像素。此尺寸对应于 150 点每英寸 (DPI) 的大约 8 号字文本。
对于自定义模型训练，自定义模板模型的训练数据最大页数为 500，自定义神经模型的训练数据最大页数为 50,000。
对于自定义提取模型训练，模板模型的训练数据总大小为 50 MB，神经模型的训练数据总大小为为 1G-MB。
对于自定义分类模型训练，训练数据的总大小为 1GB，最大为 10,000 页。

训练模型

自定义模板模型从 v2.0 API 及更高版本开始正式发布。如果要创建新项目，或者有现有的带标签数据集，请使用 v3.1 或 v3.0 API 和文档智能工作室来训练自定义模板模型。

型号	REST API	SDK	标记和测试模型
自定义模板	v3.1 API	文档智能 SDK	文档智能工作室

在 v3.0 及更高版本 API 中，用于训练模型的生成操作支持新的 buildMode 属性，若要训练自定义模板模型，请将 buildMode 设置为 template。

REST

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30


{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

自定义模板模型在 v3.1 API 中正式发布。如果要创建新项目，或者有现有的带标签数据集，请使用 v3.1 或 v3.0 API 和文档智能工作室来训练自定义模板模型。

型号	REST API	SDK	标记和测试模型
自定义模板	v3.1 API	文档智能 SDK	文档智能工作室

在 v3.0 及更高版本 API 中，用于训练模型的生成操作支持新的 buildMode 属性，若要训练自定义模板模型，请将 buildMode 设置为 template。

REST

https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

支持的语言和区域设置

有关受支持语言的完整列表，请参阅我们的“语言支持 - 自定义模型”页。

自定义（模板）模型在 v2.1 API 中正式发布。

建模	REST API	SDK	标记和测试模型
自定义模型（模板）	文档智能 2.1	文档智能 SDK	文档智能示例标记工具

后续步骤

了解如何创建和组合自定义模型：

生成自定义模型编写自定义模型

其他资源

文档

自定义神经网络文档模型 - 文档智能 - Azure AI services

使用自定义神经文档模型训练模型，以从结构化、半结构化和非结构化文档中提取数据。
自定义文档模型 - 文档智能 - Azure AI services

标记和训练文档的自定义模型，并将多个模型组合为单个模型标识符。
生成和训练自定义模型 - 文档智能 - Azure AI services

了解如何生成、标记和训练自定义模型。
操作指南：使用文档智能创建和制作自定义模型 - Azure AI services

了解如何创建、使用和管理文档智能自定义模型和组合模型
组合自定义模型 - 文档智能 - Azure AI services

将多个自定义模型组合成单个模型，以便更轻松地从不同表单类型的组中提取数据。
自定义模型生命周期 - 文档智能 - Azure AI services

文档智能自定义模型生命周期和管理指南。
Document Intelligence Studio 中的自定义模型的标记创建提示 - Azure AI services

Document Intelligence Studio 的标记提示和使用技巧
有关在文档智能工作室中标记文档的最佳做法 - Azure AI services

在工作室中标记文档以创建训练数据集。旨在以高准确度训练模型的标记准则

培训

模块

使用 Azure 文档智能从表单中提取数据 - Training

Azure 文档智能大规模提取数据，并准确且实时地进行大规模文档提交。本模块向用户提供使用 Azure 文档智能视觉 API 的工具。

认证

Microsoft Certified: Azure AI Engineer Associate - Certifications

使用 Azure AI 服务、Azure AI 搜索和 Azure Open AI 设计和实现 Azure AI 解决方案。

活动

生成 AI 应用和代理

3月17日 21时 - 3月21日 10时

加入会议系列，以基于与开发人员和专家的实际用例构建可缩放的 AI 解决方案。

立即注册

通过