活动
你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
文档智能自定义模板模型
此内容适用于:v2.1 | 最新版本:
v4.0 (GA)
自定义模板(以前称为自定义表单)是易于训练的文档模型,可准确提取文档中标记的键值对、选择标记、表、区域以及签名。 模板模型使用布局提示从文档中提取值,适用于通过已定义的视觉对象模板从高度结构化文档中提取字段。
自定义模板模型与自定义神经模型具有相同的标记格式和策略,支持更多字段类型和语言。
自定义模板模型支持键值对、选择标记、表、签名字段和选定区域。
表单域 | 选定标记 | 表格字段(表) | 签名 | 选择区域 | 重叠字段 |
---|---|---|---|---|---|
支持 | 受支持 | 受支持 | 受支持 | 受支持 | 不支持 |
随着 API 版本 v3.0 及更高版本的发布,自定义模板模型将添加对“跨页”表格字段(表)的支持:
- 要标记跨多个页的表,请在单个表中跨不同页标记表的每一行。
- 最佳做法是确保数据集包含预期变体的几个示例。 例如,如果希望在文档中看到以下变体,则包括相关示例:整个表位于单个页面上;表跨越两页或更多页。
在提取文档中未被识别为表格的重复信息时,表格字段也很有用。 例如,可以将简历中重复的工作经历部分标记并提取为表格字段。
模板模型依赖于已定义的视觉对象模板,对模板的更改将导致准确度降低。 在这些情况下,请拆分你的训练数据集以包含每个模板的至少五个样本,并为每个变体训练一个模型。 然后,可以将模型组合到单个终结点中。 对于处理精细变体(例如数字 PDF 文档和图像),最好在同一训练数据集中至少包含每种类型的五个示例。
为获得最佳结果,请针对每个文档提供一张清晰的照片或高质量的扫描件。
支持的文件格式:
型号 PDF 图像:
JPEG/JPG
、PNG
、BMP
、TIFF
、HEIF
Microsoft Office:
Word (DOCX)、Excel (XLSX)、PowerPoint (PPTX) 和 HTML阅读 ✔ ✔ ✔ 布局 ✔ ✔ ✔ 常规文档 ✔ ✔ 预生成 ✔ ✔ 自定义 ✔ ✔ ✱ 其他模型或版本当前不支持 Microsoft Office 文件。
对于 PDF 和 TIFF,最多可处理 2,000 页(对于免费层订阅,仅处理前两页)。
用于分析文档的文件大小对于付费 (S0) 层为 500 MB,对于免费 (F0) 层为 4 MB。
图像尺寸必须介于 50 x 50 像素与 10,000 x 10,000 像素之间。
如果 PDF 是密码锁定的文件,则必须先删除锁,然后才能提交它们。
对于 1024 x 768 像素的图像,要提取的文本的最小高度为 12 像素。 此尺寸对应于 150 点每英寸 (
DPI
) 的大约8
号字文本。对于自定义模型训练,自定义模板模型的训练数据最大页数为 500,自定义神经模型的训练数据最大页数为 50,000。
对于自定义提取模型训练,模板模型的训练数据总大小为 50 MB,神经模型的训练数据总大小为为 1G-MB。
对于自定义分类模型训练,训练数据的总大小为
1GB
,最大为 10,000 页。
自定义模板模型从 v2.0 API 及更高版本开始正式发布。 如果要创建新项目,或者有现有的带标签数据集,请使用 v3.1 或 v3.0 API 和文档智能工作室来训练自定义模板模型。
在 v3.0 及更高版本 API 中,用于训练模型的生成操作支持新的 buildMode
属性,若要训练自定义模板模型,请将 buildMode
设置为 template
。
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
自定义模板模型在 v3.1 API 中正式发布。 如果要创建新项目,或者有现有的带标签数据集,请使用 v3.1 或 v3.0 API 和文档智能工作室来训练自定义模板模型。
在 v3.0 及更高版本 API 中,用于训练模型的生成操作支持新的 buildMode
属性,若要训练自定义模板模型,请将 buildMode
设置为 template
。
https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
有关受支持语言的完整列表,请参阅我们的“语言支持 - 自定义模型”页。
自定义(模板)模型在 v2.1 API 中正式发布。
建模 | REST API | SDK | 标记和测试模型 |
---|---|---|---|
自定义模型(模板) | 文档智能 2.1 | 文档智能 SDK | 文档智能示例标记工具 |
了解如何创建和组合自定义模型:
其他资源
培训
模块
使用 Azure 文档智能从表单中提取数据 - Training
Azure 文档智能大规模提取数据,并准确且实时地进行大规模文档提交。 本模块向用户提供使用 Azure 文档智能视觉 API 的工具。
认证
Microsoft Certified: Azure AI Engineer Associate - Certifications
使用 Azure AI 服务、Azure AI 搜索和 Azure Open AI 设计和实现 Azure AI 解决方案。
文档
-
自定义神经网络文档模型 - 文档智能 - Azure AI services
使用自定义神经文档模型训练模型,以从结构化、半结构化和非结构化文档中提取数据。
-
自定义文档模型 - 文档智能 - Azure AI services
标记和训练文档的自定义模型,并将多个模型组合为单个模型标识符。
-
生成和训练自定义模型 - 文档智能 - Azure AI services
了解如何生成、标记和训练自定义模型。