你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

文档智能附加功能

重要

  • 使用文档智能选公共预览版,可以提前使用目前正处于开发状态的功能。 在正式发布 (GA) 之前,根据用户反馈,功能、方法和流程可能会发生更改。
  • 文档智能客户端库的公共预览版默认使用 REST API 版本 2024-07-31-preview
  • 公共预览版 2024-07-31-preview 目前仅在以下 Azure 区域中可用。 请注意,AI Studio 中的自定义生成式(文档字段提取)模型仅适用于美国中北部区域:
    • 美国东部
    • 美国西部 2
    • “西欧”
    • 美国中北部

此内容适用于:选中标记v4.0(预览版) | 先前版本:蓝色复选标记v3.1 (GA)

此内容适用于:选中标记v3.1 (GA) | 最新版本:紫色复原标记v4.0(预览版)

注意

名片模型外,所有模型都提供加载项功能。

功能

文档智能支持更复杂的模块化分析功能。 使用加载项功能扩展结果,以包含从文档中提取的更多功能。 某些加载项功能会产生额外费用。 根据文档提取方案,可以启用和禁用这些可选功能。 若要启用某个功能,请将关联的功能名称添加到 features 查询字符串属性。 可以通过提供逗号分隔的功能列表,在请求中启用多个附加功能。 以下附加功能适用于 2023-07-31 (GA) 及更高版本。

对于 2024-07-31-preview 版本和更高版本,读取模型支持可搜索的 PDF 输出:

注意

  • 并非所有模型都支持所有附加功能。 有关详细信息,请参阅模型数据提取

  • Microsoft Office 文件类型目前不支持加载项功能。

文档智能支持可选功能,这些功能可以根据文档提取方案启用和禁用。 以下附加功能适用于 2023-10-31-preview 及更高版本:

注意

2023-10-30-preview API 中的查询字段实现与上一个预览版不同。 新实现成本更低,适用于结构化文档。

版本可用性

加载项功能 附加功能/免费 2024-02-29-preview 2023-07-31(正式发布) 2022-08-31(正式发布) v2.1 (GA)
字体属性提取 附加功能 ✔️ ✔️ 不适用 不适用
公式提取 附加功能 ✔️ ✔️ 不适用 不适用
高分辨率提取 附加功能 ✔️ ✔️ 不适用 不适用
条形码提取 免费 ✔️ ✔️ 不适用 不适用
语言检测 免费 ✔️ ✔️ 不适用 不适用
键值对 免费 ✔️ 不适用 不适用 不适用
查询字段 附加功能* ✔️ 不适用 不适用 n/a

✱ 附加功能 - 查询字段的定价与其他附加功能不同。 有关详细信息,请参阅定价

支持的文件格式

  • PDF

  • 映像:JPEG/JPGPNGBMPTIFFHEIF

✱ 当前不支持 Microsoft Office 文件。

高分辨率提取

从大型文档(如工程图纸)中识别小文本是一项挑战。 文本通常与其他图形元素混合在一起,并且具有不同的字体、大小和方向。 此外,文本可以分解为单独的部分或与其他符号连接。 文档智能现在支持使用 ocr.highResolution 功能从这些类型的文档中提取内容。 通过启用此附加功能,可以提高从 A1/A2/A3 文档中提取内容的质量。

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

公式提取

ocr.formula 功能将 formulas 集合中所有已识别的公式(如数学公式)提取为 content 下的顶级对象。 在 content 内,检测到的公式表示为 :formula:。 此集合中的每个条目表示一个公式,该公式类型为 inlinedisplay,其 LaTeX 表示形式 value 及其 polygon 坐标。 最初,公式显示在每页的末尾。

注意

confidence 分数是硬编码的。

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

字体属性提取

ocr.font 功能将 styles 集合中提取的文本的所有字体属性提取为 content 下的顶级对象。 每个样式对象都会指定一个字体属性、适用的文本范围及其相应的置信度分数。 现有样式属性扩展了更多字体属性,例如文本字体的 similarFontFamily、斜体和正常等样式的 fontStyle、粗体或正常样式的 fontWeight、文本颜色的 color 和文本边界框颜色的 backgroundColor

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

条形码属性提取

ocr.barcode 功能将 barcodes 集合中所有已识别的条形码提取为 content 下的顶级对象。 在 content 内,检测到的条形码表示为 :barcode:。 此集合中的每个条目都表示一个条形码,包括条形码类型(表示为 kind)和嵌入的条形码内容(表示为 value)及其 polygon 坐标。 最初,条形码显示在每页的末尾。 confidence 硬编码为 1。

支持的条形码类型

条形码类型 示例
QR Code QR 码的屏幕截图。
Code 39 代码 39 的屏幕截图。
Code 93 代码 93 的屏幕截图。
Code 128 代码 128 的屏幕截图。
UPC (UPC-A & UPC-E) UPC 的屏幕截图。
PDF417 PDF417 的屏幕截图。
EAN-8 欧洲商品编号条形码 ean-8 的屏幕截图。
EAN-13 欧洲商品编号条形码 ean-13 的屏幕截图。
Codabar 代码栏的屏幕截图。
Databar 数据栏的屏幕截图。
展开的 Databar 展开的数据栏的屏幕截图。
ITF 交错式 25 码 (ITF) 的屏幕截图。
Data Matrix 数据矩阵的屏幕截图。
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

语言检测

languages 功能添加到 analyzeResult 请求可以预测每个文本行所检测到的主要语言,以及 analyzeResultlanguages 集合中的 confidence

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

可搜索 PDF

借助可搜索的 PDF 功能,可以将模拟 PDF(如扫描图像 PDF 文件)转换为包含嵌入文本的 PDF。 嵌入文本通过在图像文件顶部覆盖检测到的文本实体,在 PDF 提取的内容中启用深度文本搜索。

重要

  • 目前,可搜索 PDF 功能仅受读取 OCR 模型 prebuilt-read 支持。 使用此功能时,请将 modelId 指定为 prebuilt-read,因为其他模型类型将返回此预览版的错误。
  • 2024-07-31-preview prebuilt-read 模型随附了可搜索 PDF,常规 PDF 使用无需使用成本。

使用可搜索 PDF

若要使用可搜索 PDF,请使用 Analyze 操作发出 POST 请求,并将输出格式指定为 pdf


POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202

完成 Analyze 操作后,发出 GET 请求以检索 Analyze 操作结果。

成功完成后,可以检索 PDF 并将其下载为 application/pdf。 此操作允许直接下载 PDF 的嵌入文本形式,而不是 Base64 编码的 JSON。


// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}

// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf

键值对

在早期 API 版本中,prebuilt-document 模型从窗体和文档中提取键值对。 通过添加 keyValuePairs 功能到预生成布局,布局模型现在会生成相同的结果。

键值对是文档中的特定范围,用于标识标签或键及其关联的响应或值。 在结构化形式中,这些对可以是用户为该字段输入的标签和值。 在非结构化文档中,它们可能是基于段落中的文本执行合同的日期。 AI 模型经过训练,可基于各种文档类型、格式和结构提取可识别的键和值。

当模型检测到有键但无关联的值,或模型处理可选字段时,键也可以单独存在。 例如,在某些实例中,窗体上的中间名字段可留空。 键值对是文档中包含的文本范围。 对应以不同方式描述相同值的文档,例如客户/用户,关联的键将是客户或用户(具体取决于上下文)。

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

查询字段

查询字段是一项附加功能,用于扩展从任何预生成模型中提取的架构,或者当键名称为变量时定义特定键名称。 若要使用查询字段,请将功能设置为 queryFields 并在 queryFields 属性中提供以逗号分隔的字段名称列表。

  • 文档智能现在支持查询字段提取。 使用查询字段提取,可以使用查询请求将字段添加到提取过程,而无需额外的训练。

  • 如果需要扩展预生成或自定义模型的架构,或者需要提取一些具有布局输出的字段,请使用查询字段。

  • 查询字段是高级加载项功能。 为了获得最佳结果,请使用适用于多单词字段名称的驼峰式大小写或 Pascal 拼写法字段名称来定义要提取的字段。

  • 查询字段支持每个请求最多 20 个字段。 如果文档包含字段的值,则返回字段和值。

  • 此版本具有查询字段功能的新实现,其定价低于早期实现,应进行验证。

注意

文档智能工作室查询字段提取目前可用于布局和预生成模型 2024-02-29-preview2023-10-31-preview API 及更高版本,US tax 模型(W2、1098s 和 1099s 模型)除外。

查询字段提取

对于查询字段提取,请指定要提取的字段,文档智能会相应地分析文档。 下面是一个示例:

  • 如果要在文档智能工作室中处理协定,请使用版本 2024-02-29-preview2023-10-31-preview

    文档智能工作室的查询字段按钮的屏幕截图。

  • analyze document 请求过程中,你可以传递字段标签列表,如 Party1Party2TermsOfUsePaymentTermsPaymentDate 以及 TermEndDate

    文档智能工作室中查询字段选择窗口的屏幕截图。

  • 文档智能能够分析和提取字段数据,并在结构化 JSON 输出中返回值。

  • 除了查询字段,响应还包括文本、表、选择标记和其他相关数据。

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

后续步骤

了解详细信息:读取模型布局模型

SDK 示例:python

查找更多示例:加载项功能

查找更多示例:加载项功能