你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
此内容适用于:
v3.0 (即将过时) | 最新版本:
v4.0 (GA)
v3.1 | 以前版本:
v2.1 (即将过时)
此内容适用于:
v2.1 | 最新版本:
v4.0(GA)
Azure Foundry 工具中的文档智能是基于云的 Foundry Tools 服务,可用于生成智能文档处理解决方案。 大量数据(跨越各种数据类型)存储在窗体和文档中。 可以使用Azure文档智能来有效管理收集和处理数据的速度。 Azure文档智能是改进操作、明智的数据驱动决策和启发式创新的关键。 有关区域访问的信息,请参阅 产品可用性(按区域)。
重要
- 文档智能 REST API v2.1 于 2027 年 9 月 15 日终止支持。
- 文档智能 REST API 2022-08-31 v3.0 于 2029 年 3 月 30 日终止支持。
- 若要避免生产中断,请立即迁移到 Azure Document Intelligence 2024-11-30 v4.0。 有关详细信息,请参阅 文档智能迁移指南。
Azure Foundry 工具中的文档智能是基于云的 Foundry Tools 服务,可用于生成智能文档处理解决方案。 大量数据(跨越各种数据类型)存储在窗体和文档中。 可以使用Azure文档智能来有效管理收集和处理数据的速度。 Azure文档智能是改进操作、明智的数据驱动决策和启发式创新的关键。 有关区域访问的信息,请参阅 产品可用性(按区域)。
|✔️ 文档分析模型 |✔️ 预生成模型 |✔️ 自定义模型 |
注意
- 作为Azure内容理解功能的一部分,Azure文档智能提供从结构化文档进行高准确性和可靠的确定性提取。
- 内容理解还提供 LLM 驱动的分析器,用于复杂、非结构化和多模式内容。
- 通过它们,可以更轻松地为智能代理和应用程序准备数据,这些智能代理和应用程序可以使用精度和速度读取、分析和响应真实内容。
- 若要比较这两种服务并确定最适合你的方案,请参阅 选择正确的文档处理Azure AI 工具。
文档分析模型
文档分析(常规提取)模型支持从表单和文档提取文本,并为组织的操作、使用或开发返回结构化的业务就绪内容。
预生成模型
可以使用预生成模型将智能文档处理添加到应用和流,而无需训练和生成自己的模型。
金融服务和法律
| 模型 | 描述 |
|---|---|
| 银行帐单 | 从银行帐单中提取帐户信息和详细信息。 |
| 检查 | 从检查中提取相关信息。 |
| 合同 | 提取协议和参与方详细信息。 |
| 信用卡 | 提取支付卡信息。 |
| 发票 | 提取客户和供应商详细信息。 |
| 工资单 | 提取工资单详细信息。 |
| 收据 | 提取销售交易详细信息。 |
美国税务
| 模型 | 描述 |
|---|---|
| 统一美国税务 | 从任何受支持美国税务表单中提取。 |
| 美国税 W-2 | 提取应纳税补偿详细信息。 |
| 美国税 1098 | 提取 1098 个变体详情。 |
| 美国税 1099 | 提取 1099 变体表详细信息。 |
| 美国税 1040 | 提取 1040 变体表详细信息。 |
美国抵押贷款
| 模型 | 描述 |
|---|---|
| 美国抵押贷款 1003 | 提取贷款申请详细信息。 |
| 美国抵押贷款 1004 | 从评估中提取信息。 |
| 美国抵押贷款 1005 | 从就业验证中提取信息。 |
| 美国抵押贷款 1008 | 提取贷款传输详细信息。 |
| 美国抵押贷款披露 | 提取最终结算贷款条款。 |
个人标识
| 模型 | 描述 |
|---|---|
| 医疗保险卡 | 提取保险保障详情。 |
| 身份 | 提取验证详细信息。 |
| 结婚证 | 提取经过认证的婚姻信息。 |
| 模型 | 描述 |
|---|---|
| 发票 | 提取客户和供应商详细信息。 |
| 收据 | 提取销售交易详细信息。 |
| 身份 | 提取身份识别和验证信息。 |
| 医疗保险卡 | 提取医疗保险详细信息。 |
| 名片 | 提取业务联系人详细信息。 |
| 合同 | 提取协议和参与方详细信息。 |
| 美国税 W-2 | 提取应纳税补偿详细信息。 |
| 美国税 1098 | 提取 1098 个变体的详情。 |
自定义模型
自定义模型使用标记的数据集进行训练,以便从特定于你的用例的表单和文档中提取不同的数据。 可以组合独立自定义模型来创建组合模型。
文档字段提取模型
✔️ 文档字段提取模型经过训练,以便从文档中提取标记的字段。
| 模型 | 描述 |
|---|---|
| 自定义神经网络 | 从混合类型文档中提取数据。 |
| 自定义模板 | 从静态布局中提取数据。 |
| 定制撰写 | 使用模型集合提取数据。 |
自定义分类模型
✔️ 自定义分类器在调用提取模型之前标识文档类型。
| 模型 | 描述 |
|---|---|
| 自定义分类器 | 在调用提取模型之前标识指定的文档类型(类)。 |
字段类型提取
Document Intelligence 将提取的字段值作为强类型数据返回。 提取响应中的每个字段都有一个值类型,例如 字符串、 数字、 整数、 日期、 时间、 phoneNumber、 货币或 地址,用于确定原始文本在 API 响应中的规范化和显示方式。
预生成模型:对于预生成模型(如 prebuilt-invoice 或 prebuilt-receipt),字段架构由Microsoft定义和维护。 通用字段映射到特定类型(例如 ,InvoiceDate 作为 日期 类型返回, SubTotal 作为 货币 类型),因此,在没有任何配置的情况下自动进行规范化。
自定义模型:训练自定义提取模型时,可以定义字段架构。 对于每个标记字段,显式分配类型(字符串、 数字、 整数或 日期)。 然后,模型使用该类型定义在推理期间自动规范化提取的值。
有关完整字段架构参考信息,请参阅 Document Intelligence 支持的架构。
加载项功能
文档智能支持可以根据文档提取方案启用或禁用的可选功能:
分析功能
| 模型 ID | 内容提取 | 查询字段 | 段落 | 段落角色 | 选择标记 | 表 | 键/值对 | 语言 | 条形码 | 文档分析 | 公式* | 字体样式* | 高分辨率* | 可搜索 PDF |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
prebuilt-read |
✓ | ✓ | O | O | O | O | O | O | ||||||
prebuilt-layout |
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | O | O | O | O | O | O | ||
prebuilt-contract |
✓ | ✓ | ✓ | ✓ | ✓ | O | O | ✓ | O | O | ||||
prebuilt-healthInsuranceCard.us |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-idDocument |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-invoice |
✓ | ✓ | ✓ | ✓ | O | O | O | ✓ | O | O | O | |||
prebuilt-receipt |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-marriageCertificate.us |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-creditCard |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-check.us |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-payStub.us |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-bankStatement |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-mortgage.us.1003 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.1004 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.1005 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.1008 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.closingDisclosure |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.w2 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.w4 |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-tax.us.1040(各种) |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1095A |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-tax.us.1095C |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-tax.us.1098 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1098E |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1098T |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1099(各种) |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1099SSA |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
{ customModelName } |
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O |
• - 已启用
O - 可选
* - 高级功能会产生额外费用
模型和开发选项
使用文档智能在应用程序和工作流中自动执行文档处理,增强数据驱动策略,并丰富文档搜索功能。 使用表中的链接详细了解每个模型和浏览开发选项。
读
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-read | • 从文档中提取文本。 • 提取数据。 |
• 数字化任何文档 • 合规性和审核 • 在翻译之前处理手写笔记 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
版式
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| 预生成布局 | • 从文档中提取文本和布局信息。 • 提取数据。 |
• 按结构 编制索引和检索文档• 财务和医疗报告分析 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
将在2023-10-31预览版中弃用的常规文档
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| 预构建文档 | • 从文档中提取文本、布局和键/值对。 • 提取数据和字段。 |
• 键/值对提取 • 表单处理 • 调查数据收集和分析 |
• 文档智能工作室 • REST API |
发票
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| 预生成发票 | • 从发票中提取关键信息。 • 提取数据和字段。 |
• 应付账款处理 • 自动税务记录和报告 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
收据
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| 预构建收据 | • 从收据中提取关键信息。 • 提取数据和字段。 • 收据模型 v3.0 支持处理单页酒店收据。 |
• 费用管理 • 消费者行为数据分析 • 客户忠诚计划 • 商品申报处理 • 自动税务记录和报告 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
标识(ID)
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-idDocument (预构建身份证明文档) | • 从护照和身份证中提取密钥信息。 • 文档类型。 • 从美国驾驶执照中提取认可、限制和车辆分类。 |
• 了解客户 (KYC) 金融服务指南合规性 • 医疗帐户管理 • 标识检查点和网关 ● 酒店注册 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
检查
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-check | • 从检查中提取关键信息。 • 提取数据和字段。 |
• 信用管理 • 自动贷款人管理 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
工资单
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| 预装工资单 | • 从工资存根中提取关键信息。 • 提取数据和字段。 |
• 员工工资详细信息验证 • 雇佣欺诈检测 • 自动税务处理 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
银行帐单
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-bankStatement | • 从银行账单中提取关键信息。 • 提取数据和字段。 |
• 税务处理用例 • 自动会计管理 • 信用借记管理 • 贷款文档处理 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
医疗保险卡
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-healthInsuranceCard.us | • 从美国医疗保险卡中提取关键信息。 • 提取数据和字段。 |
• 覆盖范围和资格验证 • 预测建模 • 基于值的分析 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
合同模型
| 模型 ID | 描述 | 开发选项 |
|---|---|---|
| 预构建合同 | • 提取合同协议和参与方详细信息。 • 提取数据和字段。 |
• Document Intelligence Studio REST API REST API C# SDK Python SDK Java SDK JavaScript |
信用卡模型
| 模型 ID | 描述 | 开发选项 |
|---|---|---|
| 预构建-信用卡 | • 提取合同协议和参与方详细信息。
• 提取数据和字段。 |
• Document Intelligence Studio REST API REST API C# SDK Python SDK Java SDK JavaScript |
婚姻证书模型
| 模型 ID | 描述 | 开发选项 |
|---|---|---|
| prebuilt-marriageCertificate.us | • 提取合同协议和参与方详细信息。
• 提取数据和字段。 |
• Document Intelligence Studio REST API REST API C# SDK Python SDK Java SDK JavaScript |
美国抵押贷款 1003 形式
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-mortgage.us.1003 | • 从 1003 贷款申请中提取关键信息。
• 提取数据和字段。 |
Fannie Mae 和 Freddie Mac 文档要求 | • Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
美国抵押贷款 1004 形式
显示使用 Document Intelligence Studio 对美国抵押贷款 1004 文档模型进行分析的屏幕截图。
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-mortgage.us.1004 | • 从 1004 评估中提取关键信息。
• 提取数据和字段。 |
● Fannie Mae 和 Freddie Mac 文档要求 ● 统一住宅鉴定报告,帮助贷款方/客户了解标的物业的市场价值 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
美国抵押贷款 1005 形式
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-mortgage.us.1005 | • 从 1005 就业验证中提取关键信息。
• 提取数据和字段。 |
● Fannie Mae 和 Freddie Mac 文档要求 ● 就业文档验证,以确定作为潜在抵押人的资格 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
美国抵押贷款 1008 形式
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-mortgage.us.1008 | • 从统一承销和传输摘要中提取关键信息。
• 提取数据和字段。 使用汇总数据进行贷款承销处理 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
美国抵押贷款披露表单
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-mortgage.us.closingDisclosure | • 从统一承销和传输摘要中提取关键信息。
• 提取数据和字段。 |
按揭贷款最终细节要求 | • Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
美国税务W-2表格模型
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-tax.us.w2 | 从 IRS US W2 税单(2018-2021 年)中提取关键信息。 |
• 自动税务文档管理 • 抵押贷款申请处理 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
美国税 1098 (和变体) 表单
| 模型 ID | 描述 | 开发选项 |
|---|---|---|
prebuilt-tax.us.1098{variation} |
从 1098 表格的不同版本中提取关键信息。 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
美国税 1099 (和变体) 表单
| 模型 ID | 描述 | 开发选项 |
|---|---|---|
prebuilt-tax.us.1099{variation} |
提取 1099 表单变体中的信息。 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
美国税 1040 (和变体) 表单
| 模型 ID | 描述 | 开发选项 |
|---|---|---|
prebuilt-tax.us.1040{variation} |
从 1040 表格变体中提取信息。 |
• Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
统一的美国税单
| 模型 ID | 描述 | 开发选项 |
|---|---|---|
| prebuilt-tax.us | 从任何支持的美国税表中提取信息。 | • Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
名片
| 模型 ID | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| prebuilt-businessCard | • 从名片中提取关键信息。 • 提取数据和字段。 |
潜在客户和营销管理 | • Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript |
自定义模型概述
| 关于 | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| 自定义模型 | 从表单和文档中提取信息,并根据从一组具有代表性的训练文档集创建的模型生成结构化数据。 | 从特定于业务和用例的表单和文档中提取不同的数据。 | • Document Intelligence Studio REST API C# SDK Java SDK JavaScript SDK Python SDK |
自定义神经网络
注意
若要训练自定义神经模型,请将 buildMode 属性设置为 neural. 有关详细信息,请参阅 训练神经模型。
| 关于 | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| 自定义神经模型 | 从结构化(调查、问卷)、半结构化(发票、采购订单)和非结构化文档(合同、信件)中提取标记的数据。 | 从结构化和非结构化文档中提取文本数据、复选框和表格字段。 |
Document Intelligence Studio ● REST API ● C# SDK ● Java SDK ● JavaScript SDK ● Python SDK |
自定义模板
注意
若要训练自定义模板模型,请将 buildMode 属性设置为 template. 有关详细信息,请参阅 训练模板模型。
| 关于 | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| 自定义模板模型 | 从结构化和半结构化文档中提取带标签的值和字段。 |
从具有定义视觉模板或常见视觉布局和表单的高度结构化文档中提取关键数据。 | • Document Intelligence Studio REST API C# SDK Python SDK Java SDK JavaScript SDK |
自定义撰写
| 关于 | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| 组合自定义模型 | 通过获取自定义模型的集合并将其分配给基于表单类型生成的单个模型来创建组合模型。 | 训练多个模型并想要对模型进行分组以分析类似的表单类型(如采购订单)时非常有用 | • Document Intelligence Studio REST API C# SDK Java SDK JavaScript SDK Python SDK |
自定义分类模型
| 关于 | 描述 | 自动化用例 | 开发选项 |
|---|---|---|---|
| 组合分类模型 | 自定义分类模型结合了布局和语言功能,用于检测、识别和分类输入文件中的文档。 | • 包含应用程序表单、付款单和银行帐单 的贷款申请包• 扫描发票集合 |
• 文档智能工作室 • REST API |
Azure Document Intelligence是一个面向开发人员的云端Foundry Tools,用于构建智能文档处理解决方案。 Azure文档智能基于机器学习以及文档理解技术应用光学字符识别(OCR),以便从文档中提取文本、表、结构和键/值对。 还可以标记和训练自定义模型,以自动从结构化、半结构化和非结构化文档提取数据。 若要详细了解每个模型,请参阅概念文章。
| 模型类型 | 模型名称 |
|---|---|
| 文档分析模型 | • 布局分析模型 |
| 预生成模型 | • 发票模型• • 标识文档 (ID) 模型 • 名片模型 |
| 自定义模型 | • 自定义模型 • 组合模型 |
此内容适用于:
v2.1 | 最新版本:
v4.0(GA)
文档智能模型和开发选项
提示
若要获得增强的体验和高级模型质量,请尝试 使用 Document Intelligence v3.0 Studio:
- v3.0 Studio 支持使用 v2.1 标记的数据训练的任何模型。
- 有关从 v2.1 迁移到 v3.0 的详细信息,请参阅 API 迁移指南。
若要详细了解每个模型并浏览 API 引用,请使用下表中的链接。
| 模型 | 描述 | 开发选项 |
|---|---|---|
| 布局分析 | 从窗体和文档提取和分析文本、选择标记、表格和边界框坐标 | • 文档智能标记工具 • REST API • 客户端库 SDK • 文档智能 Docker 容器 |
| 自定义模型 | 从特定于不同业务数据和用例的表单和文档提取和分析数据 | • 文档智能标记工具 • REST API • 示例标记工具 • 文档智能 Docker 容器 |
| 发票模型 | 从销售发票自动处理和提取关键信息 | • 文档智能标记工具 • REST API • 客户端库 SDK • 文档智能 Docker 容器 |
| 收据模型 | 从销售收据中自动处理和提取关键信息。 | • 文档智能标记工具 • REST API • 客户端库 SDK • 文档智能 Docker 容器 |
| 身份文件(ID)模型 | 从美国驾照和国际护照自动数据处理和提取关键信息 | • 文档智能标记工具 • REST API • 客户端库 SDK • 文档智能 Docker 容器 |
| 名片模型 | 从名片自动处理和提取关键信息 | • 文档智能标记工具 • REST API • 客户端库 SDK • 文档智能 Docker 容器 |
数据隐私和安全性
与所有 Foundry 工具一样,使用文档智能的开发人员应了解有关客户数据的Microsoft策略。 有关详细信息,请参阅 文档智能的数据、隐私和安全性。
相关内容
- 选择文档智能模型。
- 使用 Document Intelligence Studio 处理自己的表单和文档。
- 完成 文档智能快速入门,然后使用所选的开发语言创建文档处理应用。
- 使用 文档智能示例标记工具处理自己的表单和文档。
- 完成 文档智能快速入门,然后使用所选的开发语言创建文档处理应用。