你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI 文档智能的新增功能

此内容适用于:选中标记 v4.0(预览版)选中标记 v3.1 (GA) 选中标记 v3.0 (GA) 选中标记 v2.1 (GA)

文档智能服务会不断更新。 将此页添加为书签,以了解最新的发行说明、功能增强和我们的最新文档。

重要

发布 GA API 后,预览版 API 将会停用。 2023-02-28-preview API 版本即将停用,如果仍在使用预览版 API 或关联的 SDK 版本,请将代码更新为面向最新 API 版本 2023-07-31 (GA)。

2024 年 8 月

文档智能 2024-07-31-preview REST API 现已推出。 此预览版 API 引入并更新了多项功能:

  • 公共预览版 2024-07-31-preview 目前仅在以下 Azure 区域中可用。 AI Studio 中的新文档字段提取模型仅适用于美国中北部区域:

  • 美国东部

  • 美国西部 2

  • “西欧”

  • 美国中北部

  • 🆕 文档字段提取(自定义生成式)模型

    • 使用“生成式 AI”从文档和表单中提取字段。 文档智能现在提供了新的文档字段提取模型,该模型利用大型语言模型 (LLM) 从具有各种视觉对象模板的非结构化文档或结构化表单中提取字段。 新的基于生成式 AI 的提取具有基于事实的值和置信度分数,适合你现有的流程。
  • 🆕 加入自定义分类器的模型

  • 自定义分类模型

    • 自定义分类模型现在也支持就地更新模型。
    • 自定义分类模型增加了对模型复制操作的支持,以启用备份和灾难恢复。
    • 自定义分类模型现在支持显式指定输入文档中要分类的页数。
  • 🆕 抵押贷款文档模型

    • 从鉴定(表单 1004)中提取信息。
    • 从就业验证(表单 1005)中提取信息。
  • 🆕 支票模型

    • 从支票中提取付款人、金额、日期和其他相关信息。
  • 🆕 付款存根模型

    • 新的预生成模型,用于处理付款存根,以提取工资、工时、扣减、净工资等。
  • 🆕 银行对帐单模型

    • 新的预生成模型,用于提取帐户信息,包括期初和期末余额、银行对帐单的交易详细信息。
  • 🆕 美国税务模型

    • 新的统一美国税务模型,可以从 W-2、1098、1099 和 1040 等表单中提取信息。
  • 🆕 可搜索 PDF。 预生成读取模型现在支持 PDF 输出,可下载包含提取结果中的嵌入文本的 PDF,因而允许在搜索和内容复制等方案中使用 PDF。

  • 布局模型现在支持改进的数字检测,现在可以将文档中的数字下载为图像文件,以便进一步了解数字。 布局模型还对已扫描文本的 OCR 模型进行改进,目标是针对单个字符、方框文本和密集文本文档进行改进。

  • 🆕 Batch API

    • 文档智能现在增加了对批处理分析操作的支持,以支持分析一组文档,从而简化开发人员体验并提高效率。
  • 附加功能

2024 年 5 月

文档智能工作室添加了对 Microsoft Entra(以前称为 Azure Active Directory)身份验证的支持。 有关详细信息,请参阅文档智能工作室概述

2024 年 2 月

文档智能 2024-07-31-preview REST API 现已推出。 此预览版 API 引入并更新了多项功能:

  • 公共预览版 2024-07-31-preview 目前仅在以下 Azure 区域中可用:

    • 美国东部
    • 美国西部 2
    • “西欧”
  • 布局模型现在支持图形检测分层文档结构分析(节和子节)。 读取顺序和逻辑角色检测的 AI 质量也得到了改进。

  • 自定义提取模型

    • 自定义提取模型现在支持单元格、行和表级别的置信度分数。 详细了解表、行和单元格置信度
    • 自定义提取模型对字段提取做出了 AI 质量改进。
    • 自定义模板提取模型现在支持提取重叠字段。 详细了解重叠字段及其用法
  • 自定义分类模型

    • 自定义分类模型现在支持增量训练,适用于需要使用已添加示例或类更新分类器模型的场景。 详细了解增量训练
    • 自定义分类模型添加了对 Office 文档类型(.docx、.pptx 和 .xls)的支持。 详细了解扩展文档类型支持
  • 发票模型

    • 支持新的区域设置:
    区域设置 代码
    阿拉伯语 (ar)
    保加利亚语 (bg)
    希腊语 (el)
    希伯来语 (he)
    马其顿语 (mk)
    俄语 (ru) 塞尔维亚语(西里尔)(sr-cyrl)
    乌克兰语 (uk)
    泰语 (th)
    土耳其语 (tr)
    越南语 (vi)
    • 支持新的货币代码:
    货币 区域设置 代码
    BAM 波斯尼亚可兑换马克 (ba)
    BGN 保加利亚列弗 (bg)
    ILS 以色列新谢克尔 (il)
    MKD 马其顿代纳尔 (mk)
    RUB 俄罗斯卢布 (ru)
    THB 泰国铢 (th)
    TRY 土耳其里拉 (tr)
    UAH 乌克兰格里夫纳 (ua)
    VND 越南盾 (vn)
    • 税务项支持德国 (de)、西班牙 (es)、葡萄牙 (pt)、加拿大英语 en-CA 的扩展。
  • ID 模型

  • 🆕 抵押贷款文档

    • 从统一住宅贷款申请中提取信息(表单 1003)。
    • 从统一承保和传递汇总(表单 1008)中提取信息。
    • 从抵押贷款最终披露中提取信息。
  • 🆕 信用卡/借记卡模型

    • 从银行卡中提取信息。
  • 🆕 结婚证

    • 用于从结婚证中提取信息的新预生成模型。

2023 年12 月

针对 REST API 2023-10-31-preview文档智能客户端库现已可供使用!

2023 年 11 月

文档智能 2023-10-31-preview REST API 现在可用。 此预览版 API 引入并更新了多项功能:

  • 公共预览版 2023-10-31-preview 目前仅在以下 Azure 区域中可用:

    • 美国东部
    • 美国西部 2
    • “西欧”
  • “读取”模型

    • 手写语言扩展:俄语(ru)、阿拉伯语(ar)、泰国语(th)。
    • 网络行政命令 (EO) 合规性。
  • 布局模型

    • 支持 Office 和 HTML 文件。
    • Markdown 输出支持。
    • 改进表提取、读取顺序和节标题检测。
    • 推出文档智能 2023-10-31-preview 后,常规文档模型(预生成文档)已弃用。 今后,若要从文档中提取键值对,请使用 prebuilt-layout 模型并启用可选的查询字符串参数 features=keyValuePairs
  • 收据模型

    • 现在提取所有与价格相关的字段的货币。
  • 医疗保险卡模型

    • 针对医疗保险和医疗补助信息的新字段支持。
  • 美国税务文件模型

    • 新的 1099 税务模型。 支持基本 1099 形式和以下变体:A、B、C、CAP、DIV、G、H、INT、K、LS、LTC、MISC、NEC、OID、PATR、Q、QA、R、S、SA、SB。
  • 发票模型

    • KVK 字段的支持。
    • BPAY 字段的支持。
    • 许多字段优化。
  • 自定义分类

    • 支持多语言文档。
    • 新的页面拆分选项:自动拆分、始终按页面拆分、不拆分。
  • 附加功能

注意

随着 2022-08-31 API 正式版 (GA) 的发布,关联的预览版 API 即将弃用。 如果使用 2021-09-30-preview、2022-01-30-preview 或 2022-06-30-preview API 版本,请更新应用程序,使之以 2022-08-31 API 版本为目标。 涉及一些细微更改。有关详细信息,请参阅迁移指南

2023 年 7 月

注意

表单识别器现在称为 Azure AI 文档智能!

  • 文档,Azure AI 服务包含之前称为认知服务和 Azure 应用 AI 服务的所有内容。
  • 定价不变。
  • Azure 计费、成本分析、价目表和价格 API 中将继续使用名称“认知服务”和“Azure 应用 AI”。
  • 应用程序编程接口 (API) 或客户端库没有中断性变更。
  • 某些平台仍在等待命名更新。 文档中所有提及的表单识别器或文档智能均指同一 Azure 服务。

文档智能 v3.1(正式发布)

文档智能 3.1 版 API 现已正式发布! 此 API 版本对应于 2023-07-31。 v3.1 API 引入并更新了多项功能:

文档智能工作室用户体验更新

✔️ 分析选项

  • 文档智能现支持更加复杂的分析功能,工作室允许通过统一入口(Azure 选项按钮)轻松配置加载项功能。

  • 根据文档提取的使用场景配置分析范围、文档页面范围、可选检测,以及高级检测功能。

    动态屏幕截图显示使用分析选项按钮配置工作室中的选项。

    注意

    字体提取在文档智能工作室中未进行可视化处理。 但可以查看字体检测结果 JSON 输出中的样式部分。

✔️ 使用预构建模型或你自己的模型自动标记文档

  • 在自定义提取模型标记页面,现在可以使用文档智能服务预构建的模型或你自己之前训练好的模型自动标记文档。

    动态屏幕截图显示工作室中的自动标记功能。

  • 对于某些文档,运行自动标记后可能会有重复的标签。 请确保修改标签,以便标记页面之后不存在重复的标签。

    屏幕截图显示自动标记后的重复标签警告。

✔️ 自动标记表

  • 在自定义提取模型标记页面,现在无需手动标记表即可自动标记文档中的表。

    动态屏幕截图显示工作室中的自动标记表的功能。

✔️ 将测试文件直接添加到训练数据集

  • 训练好自定义提取模型后,如果需要,可将测试文档上传到训练数据集,以利用测试页面来提高模型质量。

  • 如果某些标签返回的置信度分数较低,请确保正确地标记你的标签。 如果存在标记错误,请将其添加到训练数据集并重新标记以提高模型质量。

动态屏幕截图显示了如何将测试文件添加到训练数据集。

✔️ 在自定义项目中充分利用文档列表选项和筛选器

  • 使用自定义提取模型标记页。 现在,可以使用按特征搜索、筛选和排序轻松浏览训练文档。

  • 利用网格视图预览文档或使用列表视图更轻松地在文档间滚动浏览。

    屏幕截图显示文档列表视图选项和筛选器。

✔️ 项目共享

2023 年 5 月

2023 版本的更新文档简介

2023 年 4 月

宣布推出最新的文档智能客户端库公共预览版

2023 年 3 月

重要

2023-02-28-preview 功能目前仅在以下区域可用:

  • 西欧
  • 美国西部 2
  • 美国东部
  • 2023-02-28-preview API 开始,自定义分类模型是文档智能中的一项新功能。
  • 添加到“常规文档”模型的查询字段功能使用 Azure OpenAI 模型从文档中提取特定字段。 使用文档智能工作室尝试“带查询字段的常规文档”功能。 查询字段目前仅对 East US 区域的资源有效。
  • 加载项功能
  • 自定义提取模型更新
    • 自定义神经模型现在支持新增语言用于训练和分析。 训练荷兰语、法语、德语、意大利语和西班牙语的神经模型。
    • 自定义模板模型现在具有改进的签名检测功能。
  • 文档智能工作室更新
    • 除了支持分类和查询字段等所有新功能外,工作室现在还支持自定义模型项目的项目共享。
    • 处于封闭预览版阶段的新增模型有:疫苗接种卡合同美国税务 1098美国税务 1098-E美国税务 1098-T。 若要请求访问门控式预览版模型,请填写并提交文档智能个人预览版请求表单
  • 收据模型更新
    • 收据模型增加了对热收据的支持。
    • 收据模型现在增加了对 18 种语言和三种区域性语言(英语、法语、葡萄牙语)的语言支持。
    • 收据模型现在支持 TaxDetails 提取。
  • 布局模型现在改进了表识别。
  • 读取模型现在增加了对单位数字符识别的改进。

2023 年 2 月


2023 年 1 月

  • 预生成收据模型 - 添加了支持的语言。 收据模型现在支持这些添加的语言和区域设置

    • 日语 - 日本 (ja-JP)
    • 法语 - 加拿大 (fr-CA)
    • 荷兰语 - 荷兰 (nl-NL)
    • 英语 - 阿拉伯联合酋长国 (en-AE)
    • 葡萄牙语 - 巴西 (pt-BR)
  • 预生成发票模型 - 添加了支持的语言。 发票模型现在支持这些添加的语言和区域设置

    • 英语 - 美国 (en-US)、澳大利亚 (en-AU)、加拿大 (en-CA)、英国 (en-UK)、印度 (en-IN)
    • 西班牙语 - 西班牙 (es-ES)
    • 法语 - 法国 (fr-FR)
    • 意大利语 - 意大利 (it-IT)
    • 葡萄牙语 - 葡萄牙 (pt-PT)
    • 荷兰语 - 荷兰 (nl-NL)
  • 预生成发票模型 - 添加了识别的字段。 发票模型现在可识别这些添加的字段

    • 货币代码
    • 支付选项
    • 总折扣
    • 税项(仅限 en-IN)
  • 预生成 ID 模型 - 添加了支持的文档类型。 ID 模型现在支持这些添加的文档类型

    • 美国军人 ID

提示

所有 2023 年 1 月更新均通过 REST API 版本 2022-08-31 (GA) 提供。

  • 预生成收据模型 – 其他语言支持:

    预生成收据模型添加了对以下语言的支持:

    • 英语 - 阿拉伯联合酋长国 (en-AE)
    • 荷兰语 - 荷兰 (nl-NL)
    • 法语 - 加拿大 (fr-CA)
    • 德语–(de-DE)
    • 意大利语 - (it-IT)
    • 日语 - 日本 (ja-JP)
    • 葡萄牙语 - 巴西 (pt-BR)
  • 预生成发票模型 - 其他语言支持和字段提取

    预生成发票模型添加了对以下语言的支持:

    • 英语 - 澳大利亚 (en-AU)、加拿大 (en-CA)、英国 (en-UK)、印度 (en-IN)
    • 葡萄牙语 - 巴西 (pt-BR)

    预生成发票模型现在添加了对以下字段提取的支持:

    • 货币代码
    • 支付选项
    • 总折扣
    • 税项(仅限 en-IN)
  • 预生成 ID 文件模型 - 其他文件类型支持

    预生成 ID 文件模型现在添加了对以下文件类型的支持:

    • 支持印度、加拿大、英国和澳大利亚的驾照扩展
    • 美国军人 ID 和证件
    • 印度身份证和证件(PAN 和 Aadhaar)
    • 澳大利亚身份证和证件(照片卡、钥匙通身份证)
    • 加拿大身份证和证件(身份证、枫叶卡)
    • 英国身份证和证件(国家/地区身份证)

2022 年 12 月

  • 文档智能工作室更新

    12 月文档智能工作室版本包含对文档智能工作室的最新更新。 用户体验进行了重大改进,主要针对自定义模型标记支持。

    • 页面范围。 工作室现在支持分析文档中的指定页面。

    • 自定义模型标记:

      • 自动运行布局 API。 在自定义模型的设置过程中,可以选择为 Blob 存储中的所有文档自动运行布局 API。

      • 搜索。 工作室现在包含搜索功能,用于在文档中查找字词。 此改进有助于在标记时更轻松地导航。

      • 导航。 可以选择标签以便以文档中标记的字词作为目标。

      • 自动表标记。 选择文档中的表图标后,可以选择在标签视图中自动标记提取的表。

      • 标签子类型和二级子类型 工作室现在支持表列、表行的子类型,以及日期和数字等类型的二级子类型。

  • US Gov 弗吉尼亚州区域现在支持生成自定义神经网络模型。

  • 预览 API 版本 2022-01-30-preview2021-09-30-preview 将于 2023 年 1 月 31 日停用。 请更新到 2022-08-31 API 版本以避免任何服务中断。


2022 年 11 月

  • 宣布推出 Azure AI 文档智能库的最新稳定版本
    • 此版本包括 .NET、Java、JavaScript 和 Python 客户端库的重要更改和更新。 有关详细信息,请参阅Azure SDK DevBlog
    • 最重要的增强功能是引入了两个新客户端,即 DocumentAnalysisClientDocumentModelAdministrationClient

2022 年 10 月

  • 文档智能版本控制内容

    • 文档智能文档已更新,以提供带版本控制的体验。 现在,可以选择查看针对 v3.0 GA 体验或 v2.1 GA 体验的内容。 默认使用 v3.0 体验。

      文档智能登录页面的屏幕截图,表示版本下拉菜单。

  • 文档智能工作室示例代码

    • GitHub 上现已提供文档智能工作室标记体验的示例代码。 客户可以开发文档智能并将其集成到自己的用户体验中,或者使用文档智能工作室示例代码自行构建新的用户体验。
  • 语言扩展

    • 最新预览版文档智能的读取 (OCR)、布局和自定义模板模型支持 134 种新语言。 添加的这些语言包括希腊语、拉脱维亚语、塞尔维亚语、泰语、乌克兰语、越南语以及几种拉丁语和西里尔语。 文档智能现在共有 299 种支持的语言,适用于最新的正式版和新预览版。 请参阅“受支持的语言”页面,查看所有受支持的语言。
    • 使用 API 或相应的 SDK 在应用程序中支持新语言时,请使用 REST API 参数 api-version=2022-06-30-preview
  • 全新预生成合同模型

    • 全新的预生成方式,可从合同中提取信息(如当事方、标题、合同 ID、执行日期等)。 合同模型目前为预览版,在此处请求访问权限。
  • 用于训练自定义神经模型的区域扩展

    • 现已增加支持训练自定义神经模型的区域。
      • 美国东部
      • 美国东部 2
      • US Gov 亚利桑那州

2022 年 9 月

注意

从版本 4.0.0 开始,引入了一组新的客户端来利用文档智能服务的最新功能。

SDK 版本 4.0.0 正式版包括以下更新:

  • 版本 4.0.0 GA (2022-09-08)
  • 支持 REST API v3.0 和 v2.0 客户端

包 (NuGet)

更改日志/版本历史记录

迁移指南

自述文件

示例

  • 现在,有六个新区域用于支持训练自定义神经网络模型的区域扩展

    • 澳大利亚东部
    • 美国中部
    • 东亚
    • 法国中部
    • 英国南部
    • 美国西部 2
    • 有关支持训练的区域的完整列表,请参阅自定义神经模型

    • 文档智能 SDK 版本 4.0.0 GA 发布:

      • 文档智能客户端库版本 4.0.0(.NET/C#、Java、JavaScript)和版本 3.2.0 (Python) 现已正式发布,可供生产应用程序使用!
      • 有关文档智能客户端库的详细信息,请参阅 SDK 概述
      • 使用编程语言的“迁移指南”更新应用程序。

2022 年 8 月

文档智能 SDK beta 2022 年 8 月预览版包含以下更新:

版本 4.0.0-beta.5 (2022-08-09)

更改日志/版本历史记录

包 (NuGet)

SDK 参考文档

  • 文档智能 v3.0 正式发布

    • 文档智能 REST API v3.0 现已正式发布,可在生产应用程序中使用! 使用 REST API 版本 2022-08-31 更新应用程序。
  • 文档智能工作室更新

    • 后续步骤。 在每个模型页下,工作室现在都有一个后续步骤部分。 用户可以快速参考示例代码、故障排除指南和定价信息。
    • 自定义模型。 工作室现在包含在自定义模型项目中重新排序标签以提高标记效率的功能。
    • 复制模型。可以从工作室内跨文档智能服务复制自定义模型。 此操作可以将经过训练的模型提升到其他环境和区域。
    • 删除文档。 工作室现在支持从自定义项目中的已标记数据集中删除文档。
  • 文档智能服务更新

    • prebuilt-read。 读取 OCR 模型现在也可以在文档智能中使用,其中段落和语言检测是两项新功能。 文档智能读取的目标是与文档智能中更广泛的文档智能功能对齐的高级文档方案。
    • prebuilt-layout。 布局模型提取段落并识别提取的文本是段落、标题、节标题、脚注、页眉、页脚还是页码。
    • prebuilt-invoice。 TotalVAT 和 Line/VAT 字段现在分别解析为现有字段 TotalTax 和 Line/Tax。
    • prebuilt-idDocument。 数据提取支持美国身份证、社会保障卡和绿卡。 支持护照签证信息。
    • prebuilt-receipt。 扩展了对法语 (fr-FR)、西班牙语 (es-ES)、葡萄牙语 (pt-PT)、意大利语 (it-IT) 和德语 (de-DE) 的语言环境支持。
    • prebuilt-businessCard。 地址解析支持提取地址组件的子字段,例如地址、城市、省/市/自治区、国家/地区和邮政编码。
  • AI 质量改进

    • prebuilt-read。 增强了对单字符、手写日期、金额、名称以及收据和发票中常见的其他关键数据的支持,并改进了数字 PDF 文档的处理。
    • prebuilt-layout。 支持更好地检测裁剪表、无边框表,并改进了对长跨度单元格的识别。
    • prebuilt-document。 改进了值和复选框检测。
    • custom-neural。 提高了表检测和提取的准确性。

2022 年 6 月

  • 文档智能 SDK beta 2022 年 6 月预览版包含以下更新:
  • 文档智能工作室 6 月版本是文档智能工作室的最新更新。 此更新中有大量用户体验和可访问性改进:

    • JavaScript 和 C# 的代码示例。 除了现有的 Python 示例外,工作室代码选项卡现在还会添加 JavaScript 和 C# 代码示例。
    • 新的文档上传 UI。 工作室现支持通过拖放文档将其上传到新的上传用户界面中。
    • 自定义项目的新功能。 自定义项目现支持在配置项目时创建存储帐户和 Blob。 此外,自定义项目现支持直接在工作室中上传训练文件并复制现有的自定义模型。
  • 文档智能 v3.0 2022-06-30-preview 版本提供了跨功能 API 的大量更新:


2022 年 2 月

  • 文档智能 v3.0 预览版引入了几个新特性、功能和增强:

    • 自定义神经模型(自定义文档模型)是一个新的自定义模型,可用于从结构化表单、半结构化和非结构化文档中提取文本和选择标记。
    • W-2 预生成模型是一个新的预生成模型,可用于从 W-2 表单中提取字段以用于税务报告和收入确认场景。
    • 读取 API 可提取印刷体文本行、单词、文本位置、检测到的语言和手写文本(如检测到)。
    • 常规文档预训练模型现已更新为支持选择标记,此外还支持表格和文档中的 API 文本、表、结构和键值对。
    • 发票 API 发票预生成模型扩展了对西班牙语发票的支持。
    • 文档智能工作室新增了读取、W2、酒店收据示例的演示,并支持训练新的自定义神经模型。
    • 语言扩展在文档智能读取、布局和自定义表单中,添加了对 42 种新语言(包括阿拉伯语、印地语及其他使用阿拉伯文和梵文的语言)的支持,覆盖范围扩大至 164 种语言。 手写语言支持扩展到了日语和韩语。
  • 新的 v3.0 预览版 API 入门。

  • 文档智能模型数据提取:

    型号 文本提取 键值对 选择标记 签名
    读取
    常规文档
    Layout
    发票
    回执
    身份文档
    名片
    自定义模板
    自定义神经
  • 文档智能 SDK beta 预览版包含以下更新:


后续步骤