你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
文档智能附加功能
重要
- 使用文档智能选公共预览版,可以提前使用目前正处于开发状态的功能。
- 在正式发布 (GA) 之前,根据用户反馈,功能、方法和流程可能会发生更改。
- 文档智能客户端库的公共预览版默认使用 REST API 版本 2024-02-29-preview。
- 公共预览版 2024-02-29-preview 目前仅在以下 Azure 区域中可用:
- 美国东部
- 美国西部 2
- “西欧”
此内容适用于:v4.0(预览版) | 先前版本:v3.1 (GA)
此内容适用于:v3.1 (GA) | 最新版本:v4.0(预览版)
注意
除名片模型外,所有模型都提供加载项功能。
功能
文档智能支持更复杂的模块化分析功能。 使用加载项功能扩展结果,以包含从文档中提取的更多功能。 某些加载项功能会产生额外费用。 根据文档提取方案,可以启用和禁用这些可选功能。 若要启用某个功能,请将关联的功能名称添加到 features
查询字符串属性。 可以通过提供逗号分隔的功能列表,在请求中启用多个附加功能。 以下附加功能适用于 2023-07-31 (GA)
及更高版本。
注意
并非所有模型都支持所有附加功能。 有关详细信息,请参阅模型数据提取。
以下附加功能适用于 2024-02-29-preview
、2024-02-29-preview
及更高版本:
注意
2023-10-30-preview API 中的查询字段实现与上一个预览版不同。 新实现成本更低,适用于结构化文档。
版本可用性
加载项功能 | 附加功能/免费 | 2024-02-29-preview | 2023-07-31 (正式发布) |
2022-08-31 (正式发布) |
v2.1 (GA) |
---|---|---|---|---|---|
字体属性提取 | 附加功能 | ✔ | ✔ | 不适用 | 不适用 |
公式提取 | 附加功能 | ✔ | ✔ | 不适用 | 不适用 |
高分辨率提取 | 附加功能 | ✔ | ✔ | 不适用 | 不适用 |
条形码提取 | 免费 | ✔ | ✔ | 不适用 | 不适用 |
语言检测 | 免费 | ✔ | ✔ | 不适用 | 不适用 |
键值对 | 免费 | ✔ | 不适用 | 不适用 | 不适用 |
查询字段 | 附加功能* | ✔ | 不适用 | 不适用 | n/a |
✱ 附加功能 - 查询字段的定价与其他附加功能不同。 有关详细信息,请参阅定价。
支持的文件格式
PDF
映像:
JPEG
/JPG
、PNG
、BMP
、TIFF
、HEIF
✱ 当前不支持 Microsoft Office 文件。
高分辨率提取
从大型文档(如工程图纸)中识别小文本是一项挑战。 文本通常与其他图形元素混合在一起,并且具有不同的字体、大小和方向。 此外,文本可以分解为单独的部分或与其他符号连接。 文档智能现在支持使用 ocr.highResolution
功能从这些类型的文档中提取内容。 通过启用此附加功能,可以提高从 A1/A2/A3 文档中提取内容的质量。
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution
公式提取
ocr.formula
功能将 formulas
集合中所有已识别的公式(如数学公式)提取为 content
下的顶级对象。 在 content
内,检测到的公式表示为 :formula:
。 此集合中的每个条目表示一个公式,该公式类型为 inline
或 display
,其 LaTeX 表示形式 value
及其 polygon
坐标。 最初,公式显示在每页的末尾。
注意
confidence
分数是硬编码的。
"content": ":formula:",
"pages": [
{
"pageNumber": 1,
"formulas": [
{
"kind": "inline",
"value": "\\frac { \\partial a } { \\partial b }",
"polygon": [...],
"span": {...},
"confidence": 0.99
},
{
"kind": "display",
"value": "y = a \\times b + a \\times c",
"polygon": [...],
"span": {...},
"confidence": 0.99
}
]
}
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas
字体属性提取
ocr.font
功能将 styles
集合中提取的文本的所有字体属性提取为 content
下的顶级对象。 每个样式对象都会指定一个字体属性、适用的文本范围及其相应的置信度分数。 现有样式属性扩展了更多字体属性,例如文本字体的 similarFontFamily
、斜体和正常等样式的 fontStyle
、粗体或正常样式的 fontWeight
、文本颜色的 color
和文本边界框颜色的 backgroundColor
。
"content": "Foo bar",
"styles": [
{
"similarFontFamily": "Arial, sans-serif",
"spans": [ { "offset": 0, "length": 3 } ],
"confidence": 0.98
},
{
"similarFontFamily": "Times New Roman, serif",
"spans": [ { "offset": 4, "length": 3 } ],
"confidence": 0.98
},
{
"fontStyle": "italic",
"spans": [ { "offset": 1, "length": 2 } ],
"confidence": 0.98
},
{
"fontWeight": "bold",
"spans": [ { "offset": 2, "length": 3 } ],
"confidence": 0.98
},
{
"color": "#FF0000",
"spans": [ { "offset": 4, "length": 2 } ],
"confidence": 0.98
},
{
"backgroundColor": "#00FF00",
"spans": [ { "offset": 5, "length": 2 } ],
"confidence": 0.98
}
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont
条形码属性提取
ocr.barcode
功能将 barcodes
集合中所有已识别的条形码提取为 content
下的顶级对象。 在 content
内,检测到的条形码表示为 :barcode:
。 此集合中的每个条目都表示一个条形码,包括条形码类型(表示为 kind
)和嵌入的条形码内容(表示为 value
)及其 polygon
坐标。 最初,条形码显示在每页的末尾。 confidence
硬编码为 1。
支持的条形码类型
条形码类型 | 示例 |
---|---|
QR Code |
|
Code 39 |
|
Code 93 |
|
Code 128 |
|
UPC (UPC-A & UPC-E) |
|
PDF417 |
|
EAN-8 |
|
EAN-13 |
|
Codabar |
|
Databar |
|
展开的 Databar |
|
ITF |
|
Data Matrix |
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes
语言检测
将 languages
功能添加到 analyzeResult
请求可以预测每个文本行所检测到的主要语言,以及 analyzeResult
下 languages
集合中的 confidence
。
"languages": [
{
"spans": [
{
"offset": 0,
"length": 131
}
],
"locale": "en",
"confidence": 0.7
},
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages
键值对
在早期 API 版本中,预生成文档模型将从窗体和文档中提取键值对。 通过添加 keyValuePairs
功能到预生成布局,布局模型现在会生成相同的结果。
键值对是文档中的特定范围,用于标识标签或键及其关联的响应或值。 在结构化形式中,这些对可以是用户为该字段输入的标签和值。 在非结构化文档中,它们可能是基于段落中的文本执行合同的日期。 AI 模型经过训练,可基于各种文档类型、格式和结构提取可识别的键和值。
当模型检测到有键但无关联的值,或模型处理可选字段时,键也可以单独存在。 例如,在某些实例中,窗体上的中间名字段可留空。 键值对是文档中包含的文本范围。 对应以不同方式描述相同值的文档,例如客户/用户,关联的键将是客户或用户(具体取决于上下文)。
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs
查询字段
查询字段是一项附加功能,用于扩展从任何预生成模型中提取的架构,或者当键名称为变量时定义特定键名称。 若要使用查询字段,请将功能设置为 queryFields
并在 queryFields
属性中提供以逗号分隔的字段名称列表。
文档智能现在支持查询字段提取。 使用查询字段提取,可以使用查询请求将字段添加到提取过程,而无需额外的训练。
如果需要扩展预生成或自定义模型的架构,或者需要提取一些具有布局输出的字段,请使用查询字段。
查询字段是高级加载项功能。 为了获得最佳结果,请使用适用于多单词字段名称的驼峰式大小写或 Pascal 拼写法字段名称来定义要提取的字段。
查询字段支持每个请求最多 20 个字段。 如果文档包含字段的值,则返回字段和值。
此版本具有查询字段功能的新实现,其定价低于早期实现,应进行验证。
注意
文档智能工作室查询字段提取目前可用于布局和预生成模型 2024-02-29-preview
2023-10-31-preview
API 及更高版本,US tax
模型(W2、1098 和 1099 模型)除外。
查询字段提取
对于查询字段提取,请指定要提取的字段,文档智能会相应地分析文档。 下面是一个示例:
如果要在文档智能工作室中处理协定,请使用版本
2024-02-29-preview
或2023-10-31-preview
:在
analyze document
请求过程中,你可以传递字段标签列表,如Party1
、Party2
、TermsOfUse
、PaymentTerms
、PaymentDate
以及TermEndDate
。文档智能能够分析和提取字段数据,并在结构化 JSON 输出中返回值。
除了查询字段,响应还包括文本、表、选择标记和其他相关数据。
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS
后续步骤
SDK 示例:python