你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Document Classifiers - Get Classify Result

获取文档分类器的结果。

GET {endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview

URI 参数

名称 必需 类型 说明
classifierId
path True

string

唯一的文档分类器名称。

Regex pattern: ^[a-zA-Z0-9][a-zA-Z0-9._~-]{1,63}$

endpoint
path True

string

文档智能服务终结点。

resultId
path True

string

uuid

分析操作结果 ID。

api-version
query True

string

要用于此操作的 API 版本。

响应

名称 类型 说明
200 OK

AnalyzeResultOperation

请求已成功。

Other Status Codes

ErrorResponse

意外的错误响应。

安全性

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

OAuth2Auth

Type: oauth2
Flow: accessCode
Authorization URL: https://login.microsoftonline.com/common/oauth2/authorize
Token URL: https://login.microsoftonline.com/common/oauth2/token

Scopes

名称 说明
https://cognitiveservices.azure.com/.default

示例

Get Classify Document Result

Sample Request

GET https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/myClassifier/analyzeResults/3b31320d-8bab-4f88-b19c-2322a7f11034?api-version=2024-02-29-preview

Sample Response

{
  "status": "succeeded",
  "createdDateTime": "2021-09-24T13:00:46Z",
  "lastUpdatedDateTime": "2021-09-24T13:00:49Z",
  "analyzeResult": {
    "apiVersion": "2024-02-29-preview",
    "modelId": "myClassifier",
    "stringIndexType": "textElements",
    "contentFormat": "text",
    "content": "",
    "pages": [
      {
        "pageNumber": 1,
        "width": 8.5,
        "height": 11,
        "unit": "inch",
        "spans": []
      },
      {
        "pageNumber": 2,
        "width": 8.5,
        "height": 11,
        "unit": "inch",
        "spans": []
      },
      {
        "pageNumber": 3,
        "width": 8.5,
        "height": 11,
        "unit": "inch",
        "spans": []
      }
    ],
    "documents": [
      {
        "docType": "formA",
        "boundingRegions": [
          {
            "pageNumber": 1,
            "polygon": [
              0,
              0,
              8.5,
              0,
              8.5,
              11,
              0,
              11
            ]
          },
          {
            "pageNumber": 2,
            "polygon": [
              0,
              0,
              8.5,
              0,
              8.5,
              11,
              0,
              11
            ]
          }
        ],
        "confidence": 0.97,
        "spans": []
      },
      {
        "docType": "formB",
        "boundingRegions": [
          {
            "pageNumber": 3,
            "polygon": [
              0,
              0,
              8.5,
              0,
              8.5,
              11,
              0,
              11
            ]
          }
        ],
        "confidence": 0.97,
        "spans": []
      }
    ]
  }
}

定义

名称 说明
AddressValue

地址字段值。

AnalyzeResult

文档分析结果。

AnalyzeResultOperation

分析操作的状态和结果。

BoundingRegion

输入的特定页上的边界多边形。

ContentFormat

分析结果中内容的格式。

CurrencyValue

货币字段值。

Document

描述文档的位置和语义内容的 对象。

DocumentBarcode

条形码对象。

DocumentBarcodeKind

条形码类型。

DocumentCaption

描述表或图形的描述文字对象。

DocumentField

表示字段值的内容和位置的 对象。

DocumentFieldType

字段值的语义数据类型。

DocumentFigure

一个对象,表示文档中的图形。

DocumentFootnote

描述表或图形的脚注对象。

DocumentFormula

公式对象。

DocumentFormulaKind

公式类型。

DocumentKeyValueElement

表示字段键或键值对中的值的对象。

DocumentKeyValuePair

表示具有不同字段标签的窗体域的对象 (键) 和字段值 (可能为空) 。

DocumentLanguage

一个 对象,表示给定文本范围检测到的语言。

DocumentLine

内容行对象,由相邻的内容元素序列(如字词和选择标记)组成。

DocumentList

一个表示文档中列表的 对象。

DocumentListItem

一个对象,表示文档中的列表项。

DocumentPage

从输入的页面中提取的内容和布局元素。

DocumentParagraph

由通常具有共同对齐和间距的连续行组成的段落对象。

DocumentSection

一个对象,表示文档中的节。

DocumentSelectionMark

一个选择标记对象,表示检查框、单选按钮和其他指示所选内容的元素。

DocumentSelectionMarkState

选择标记的状态。

DocumentSignatureType

是否存在签名。

DocumentSpan

串联内容属性的连续区域,指定为偏移量和长度。

DocumentStyle

表示观察到的文本样式的 对象。

DocumentTable

由以矩形布局排列的表格单元格组成的表对象。

DocumentTableCell

一个对象,表示表格单元格的位置和内容。

DocumentTableCellKind

表单元格类型。

DocumentWord

由连续字符序列组成的单词对象。 对于非空格分隔语言(如中文、日语和朝鲜语),每个字符都表示为自己的单词。

Error

错误对象。

ErrorResponse

错误响应对象。

FontStyle

字形。

FontWeight

字体粗细。

InnerError

包含有关错误的更具体信息的对象。

LengthUnit

宽度、高度和多边形属性使用的单位。 对于图像,单位为“像素”。 对于 PDF,单位为“英寸”。

OperationStatus

操作状态。

ParagraphRole

段落的语义角色。

StringIndexType

用于计算字符串偏移量和长度的方法。

AddressValue

地址字段值。

名称 类型 说明
city

string

市、镇、村等的名称。

cityDistrict

string

城市内的地区或行政区,如纽约市的布鲁克林或伦敦的威斯敏斯特市。

countryRegion

string

国家/地区。

house

string

生成名称,例如世贸中心。

houseNumber

string

房屋或建筑物编号。

level

string

楼层编号,例如 3F。

poBox

string

邮政票房号码。

postalCode

string

用于邮件排序的邮政编码。

road

string

街道名称。

state

string

一级行政区划。

stateDistrict

string

某些区域设置中使用的二级行政区划。

streetAddress

string

街道级地址,不包括市、州、国家/地区和邮政代码。

suburb

string

非官方的邻里名称,如唐人街。

unit

string

公寓或办公室号码

AnalyzeResult

文档分析结果。

名称 类型 说明
apiVersion

string

用于生成此结果的 API 版本。

content

string

按读取顺序连接所有文本元素和视觉元素的字符串表示形式。

contentFormat

ContentFormat

分析结果顶级内容的格式。

documents

Document[]

提取的文档。

figures

DocumentFigure[]

提取的图形。

keyValuePairs

DocumentKeyValuePair[]

提取的键值对。

languages

DocumentLanguage[]

检测到的语言。

lists

DocumentList[]

提取的列表。

modelId

string

用于生成此结果的文档模型 ID。

pages

DocumentPage[]

已分析页面。

paragraphs

DocumentParagraph[]

提取的段落。

sections

DocumentSection[]

提取的节。

stringIndexType

StringIndexType

用于计算字符串偏移量和长度的方法。

styles

DocumentStyle[]

提取的字体样式。

tables

DocumentTable[]

提取的表。

AnalyzeResultOperation

分析操作的状态和结果。

名称 类型 说明
analyzeResult

AnalyzeResult

文档分析结果。

createdDateTime

string

提交分析操作时 (UTC) 日期和时间。

error

Error

在文档分析期间遇到错误。

lastUpdatedDateTime

string

上次更新状态时 (UTC) 日期和时间。

status

OperationStatus

操作状态。 notStarted、running、succeeded 或 failed

BoundingRegion

输入的特定页上的边界多边形。

名称 类型 说明
pageNumber

integer

包含边界区域的页码(从 1 开始)。

polygon

number[]

页面上的边界多边形,如果未指定,则为整个页面。 相对于页面左上角指定的坐标。 这些数字表示多边形顶点的 x、y 值,从左 (-180 度(含元素方向)顺时针方向) 。

ContentFormat

分析结果中内容的格式。

名称 类型 说明
markdown

string

文档内容的 Markdown 表示形式,其中包含节标题、表格等。

text

string

不带任何格式的文档内容的纯文本表示形式。

CurrencyValue

货币字段值。

名称 类型 说明
amount

number

货币金额。

currencyCode

string

解析的货币代码 (ISO 4217) (如果有)。

currencySymbol

string

货币符号标签(如果有)。

Document

描述文档的位置和语义内容的 对象。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖文档的边界区域。

confidence

number

正确提取文档的置信度。

docType

string

文档类型。

fields

<string,  DocumentField>

命名字段值的字典。

spans

DocumentSpan[]

文档在阅读顺序中连接内容的位置。

DocumentBarcode

条形码对象。

名称 类型 说明
confidence

number

正确提取条形码的置信度。

kind

DocumentBarcodeKind

条形码类型。

polygon

number[]

条形码的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,从左 (-180 度(含元素方向)顺时针方向) 。

span

DocumentSpan

条形码在阅读顺序中串联内容的位置。

value

string

条形码值。

DocumentBarcodeKind

条形码类型。

名称 类型 说明
Aztec

string

Aztec 代码,如 ISO/IEC 24778:2008 中定义。

Codabar

string

Codabar 条形码,如 ANSI/AIM BC3-1995 中定义。

Code128

string

代码 128 条形码,如 ISO/IEC 15417:2007 中定义。

Code39

string

代码 39 条形码,如 ISO/IEC 16388:2007 中定义。

Code93

string

代码 93 条形码,如 ANSI/AIM BC5-1995 中定义。

DataBar

string

GS1 DataBar 条形码。

DataBarExpanded

string

GS1 DataBar 扩展条形码。

DataMatrix

string

数据矩阵代码,如 ISO/IEC 16022:2006 中定义。

EAN13

string

GS1 13 位国际文章编号 (欧洲文章编号) 。

EAN8

string

GS1 8 位国际文章编号 (欧洲文章编号) 。

ITF

string

交错 2(共 5 个条形码),如 ANSI/AIM BC2-1995 中定义。

MaxiCode

string

MaxiCode,如 ISO/IEC 16023:2000 中定义。

MicroQRCode

string

微 QR 码,如 ISO/IEC 23941:2022 中定义。

PDF417

string

PDF417,如 ISO 15438 中定义。

QRCode

string

QR 码,如 ISO/IEC 18004:2015 中定义。

UPCA

string

GS1 12 位通用产品代码。

UPCE

string

GS1 6 位通用产品代码。

DocumentCaption

描述表或图形的描述文字对象。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖描述文字的边界区域。

content

string

描述文字的内容。

elements

string[]

描述文字的子元素。

spans

DocumentSpan[]

读取顺序中串联内容的描述文字的位置。

DocumentField

表示字段值的内容和位置的 对象。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖字段的边界区域。

confidence

number

正确提取字段的置信度。

content

string

字段内容。

spans

DocumentSpan[]

阅读顺序串联内容的字段的位置。

type

DocumentFieldType

字段值的数据类型。

valueAddress

AddressValue

地址值。

valueArray

DocumentField[]

字段值的数组。

valueBoolean

boolean

布尔值。

valueCountryRegion

string

3 字母国家/地区代码值 (ISO 3166-1 alpha-3) 。

valueCurrency

CurrencyValue

货币值。

valueDate

string

YYYY-MM-DD 格式的日期值 (ISO 8601) 。

valueInteger

integer

整数值。

valueNumber

number

浮点值。

valueObject

<string,  DocumentField>

命名字段值的字典。

valuePhoneNumber

string

E.164 格式的电话号码值 (例如 +19876543210) 。

valueSelectionGroup

string[]

选择组值。

valueSelectionMark

DocumentSelectionMarkState

选择标记值。

valueSignature

DocumentSignatureType

是否存在签名。

valueString

string

字符串值。

valueTime

string

hh:mm:ss 格式的时间值 (ISO 8601) 。

DocumentFieldType

字段值的语义数据类型。

名称 类型 说明
address

string

已分析地址。

array

string

相同类型的子字段列表。

boolean

string

布尔值,规范化为 true 或 false。

countryRegion

string

国家/地区,规范化为 ISO 3166-1 alpha-3 格式 (例如 USA) 。

currency

string

具有可选货币符号和单位的货币金额。

date

string

日期,规范化为 ISO 8601 (YYYY-MM-DD) 格式。

integer

string

整数,规范化为 64 位带符号整数。

number

string

浮点数,规范化为双精度浮点。

object

string

可能不同类型的子字段的命名列表。

phoneNumber

string

电话号码,规范化为 E.164 (+{CountryCode}{SubscriberNumber}) 格式。

selectionGroup

string

所选字符串值的数组。

selectionMark

string

是否选择了字段?

signature

string

签名是否存在?

string

string

纯文本。

time

string

时间,规范化为 ISO 8601 (hh:mm:ss) 格式。

DocumentFigure

一个对象,表示文档中的图形。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖图形的边界区域。

caption

DocumentCaption

与图形关联的标题。

elements

string[]

图形的子元素,不包括任何描述文字或脚注。

footnotes

DocumentFootnote[]

与图关联的脚注列表。

spans

DocumentSpan[]

图形在阅读顺序中连接内容的位置。

DocumentFootnote

描述表或图形的脚注对象。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖脚注的边界区域。

content

string

脚注的内容。

elements

string[]

脚注的子元素。

spans

DocumentSpan[]

脚注在阅读顺序中串联的内容的位置。

DocumentFormula

公式对象。

名称 类型 说明
confidence

number

正确提取公式的置信度。

kind

DocumentFormulaKind

公式类型。

polygon

number[]

公式的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,从左 (-180 度(含元素方向)顺时针方向) 。

span

DocumentSpan

公式在阅读顺序中串联内容的位置。

value

string

描述公式的 LaTex 表达式。

DocumentFormulaKind

公式类型。

名称 类型 说明
display

string

在显示模式下占用整行的公式。

inline

string

嵌入段落内容中的公式。

DocumentKeyValueElement

表示字段键或键值对中的值的对象。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖键值元素的边界区域。

content

string

键值元素按读取顺序串联的内容。

spans

DocumentSpan[]

键值元素在读取顺序中串联内容的位置。

DocumentKeyValuePair

表示具有不同字段标签的窗体域的对象 (键) 和字段值 (可能为空) 。

名称 类型 说明
confidence

number

正确提取键值对的置信度。

key

DocumentKeyValueElement

键值对的字段标签。

value

DocumentKeyValueElement

键值对的字段值。

DocumentLanguage

一个 对象,表示给定文本范围检测到的语言。

名称 类型 说明
confidence

number

正确标识语言的置信度。

locale

string

检测到的语言。 值可以是 ISO 639-1 语言代码 (例如“en”、“fr”) 或 BCP 47 语言标记 (例如“zh-Hans”) 。

spans

DocumentSpan[]

语言应用到的串联内容中文本元素的位置。

DocumentLine

内容行对象,由相邻的内容元素序列(如字词和选择标记)组成。

名称 类型 说明
content

string

按读取顺序连接包含的元素的内容。

polygon

number[]

线条的边界多边形,具有相对于页面左上角指定的坐标。 这些数字表示多边形顶点的 x、y 值,从左 (-180 度(含元素方向)顺时针方向) 。

spans

DocumentSpan[]

阅读顺序中串联内容的行的位置。

DocumentList

一个表示文档中列表的 对象。

名称 类型 说明
items

DocumentListItem[]

列表中的项。

spans

DocumentSpan[]

列表在阅读顺序中串联内容的位置。

DocumentListItem

一个对象,表示文档中的列表项。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖列表项的边界区域。

content

string

列表项的内容。

elements

string[]

列表项的子元素。

level

integer

列表项的级别 (索引为 1 的) 。

spans

DocumentSpan[]

阅读顺序串联内容中列表项的位置。

DocumentPage

从输入的页面中提取的内容和布局元素。

名称 类型 说明
angle

number

内容在顺时针方向的一般方向,以 (-180, 180 之间的度为单位。

barcodes

DocumentBarcode[]

从页面提取的条形码。

formulas

DocumentFormula[]

从页面中提取的公式。

height

number

图像/PDF 的高度(以像素/英寸为单位)。

lines

DocumentLine[]

从页面中提取的行,可能同时包含文本元素和视觉元素。

pageNumber

integer

输入文档中从 1 开始的页码。

selectionMarks

DocumentSelectionMark[]

从页面中提取的选择标记。

spans

DocumentSpan[]

页面在阅读顺序中连接内容的位置。

unit

LengthUnit

宽度、高度和多边形属性使用的单位。 对于图像,单位为“像素”。 对于 PDF,单位为“英寸”。

width

number

图像/PDF 的宽度(以像素/英寸为单位)。

words

DocumentWord[]

从页面中提取的单词。

DocumentParagraph

由通常具有共同对齐和间距的连续行组成的段落对象。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖段落的边界区域。

content

string

按阅读顺序连接段落的内容。

role

ParagraphRole

段落的语义角色。

spans

DocumentSpan[]

段落在阅读顺序中串联内容的位置。

DocumentSection

一个对象,表示文档中的节。

名称 类型 说明
elements

string[]

节的子元素。

spans

DocumentSpan[]

阅读顺序中串联内容的节的位置。

DocumentSelectionMark

一个选择标记对象,表示检查框、单选按钮和其他指示所选内容的元素。

名称 类型 说明
confidence

number

正确提取选择标记的置信度。

polygon

number[]

选择标记的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,从左 (-180 度(含元素方向)顺时针方向) 。

span

DocumentSpan

选择标记在阅读顺序串联内容中的位置。

state

DocumentSelectionMarkState

选择标记的状态。

DocumentSelectionMarkState

选择标记的状态。

名称 类型 说明
selected

string

选择标记处于选中状态,通常由选择标记内的 检查 ✓ 或十字 X 指示。

unselected

string

未选择选择标记。

DocumentSignatureType

是否存在签名。

名称 类型 说明
signed

string

检测到签名。

unsigned

string

未检测到任何签名。

DocumentSpan

串联内容属性的连续区域,指定为偏移量和长度。

名称 类型 说明
length

integer

范围表示的内容中的字符数。

offset

integer

范围表示的内容的从零开始的索引。

DocumentStyle

表示观察到的文本样式的 对象。

名称 类型 说明
backgroundColor

string

#rrggbb 十六进制格式的背景色。

color

string

#rrggbb 十六进制格式的前景色。

confidence

number

正确标识样式的置信度。

fontStyle

FontStyle

字形。

fontWeight

FontWeight

字体粗细。

isHandwritten

boolean

内容是手写的吗?

similarFontFamily

string

在视觉上最相似的字体来自支持的字体系列集,回退字体遵循 CSS 约定 (例如'Arial, sans-serif') 。

spans

DocumentSpan[]

样式应用于的串联内容中文本元素的位置。

DocumentTable

由以矩形布局排列的表格单元格组成的表对象。

名称 类型 说明
boundingRegions

BoundingRegion[]

覆盖表的边界区域。

caption

DocumentCaption

与表关联的标题。

cells

DocumentTableCell[]

表中包含的单元格。

columnCount

integer

表中的列数。

footnotes

DocumentFootnote[]

与表关联的脚注列表。

rowCount

integer

表中的行数。

spans

DocumentSpan[]

表在读取顺序中串联内容的位置。

DocumentTableCell

一个对象,表示表格单元格的位置和内容。

名称 类型 默认值 说明
boundingRegions

BoundingRegion[]

覆盖表单元格的边界区域。

columnIndex

integer

单元格的列索引。

columnSpan

integer

1

此单元格跨越的列数。

content

string

按读取顺序连接表单元格的内容。

elements

string[]

表单元格的子元素。

kind

DocumentTableCellKind

content

表格单元格类型。

rowIndex

integer

单元格的行索引。

rowSpan

integer

1

此单元格跨越的行数。

spans

DocumentSpan[]

表单元格在阅读顺序中串联内容的位置。

DocumentTableCellKind

表单元格类型。

名称 类型 说明
columnHeader

string

描述列的内容。

content

string

包含main内容/数据。

description

string

描述表) (部分中的内容。

rowHeader

string

描述行的内容。

stubHead

string

描述通常位于表格左上角的行标题。

DocumentWord

由连续字符序列组成的单词对象。 对于非空格分隔语言(如中文、日语和朝鲜语),每个字符都表示为自己的单词。

名称 类型 说明
confidence

number

正确提取单词的置信度。

content

string

单词的文本内容。

polygon

number[]

单词的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,从左 (-180 度(含元素方向)顺时针方向) 。

span

DocumentSpan

单词在阅读顺序中连接内容的位置。

Error

错误对象。

名称 类型 说明
code

string

服务器定义的一组错误代码中的一个。

details

Error[]

有关导致此项报告错误的特定错误的详细信息数组。

innererror

InnerError

一个 对象,该对象包含比当前对象更具体的错误信息。

message

string

错误的用户可读表示形式。

target

string

错误的目标。

ErrorResponse

错误响应对象。

名称 类型 说明
error

Error

错误信息。

FontStyle

字形。

名称 类型 说明
italic

string

字符在视觉上向右倾斜。

normal

string

字符以正常方式表示。

FontWeight

字体粗细。

名称 类型 说明
bold

string

字符以较粗的笔划表示。

normal

string

字符以正常方式表示。

InnerError

包含有关错误的更具体信息的对象。

名称 类型 说明
code

string

服务器定义的一组错误代码中的一个。

innererror

InnerError

内部错误。

message

string

错误的用户可读表示形式。

LengthUnit

宽度、高度和多边形属性使用的单位。 对于图像,单位为“像素”。 对于 PDF,单位为“英寸”。

名称 类型 说明
inch

string

PDF 文件的长度单位。

pixel

string

图像文件的长度单位。

OperationStatus

操作状态。

名称 类型 说明
canceled

string

操作已取消。

completed

string

操作已完成。

failed

string

操作失败。

notStarted

string

操作尚未启动。

running

string

操作正在进行中。

succeeded

string

操作已成功执行。

ParagraphRole

段落的语义角色。

名称 类型 说明
footnote

string

注释通常放在页面上main内容之后。

formulaBlock

string

公式块,通常采用共享对齐方式。

pageFooter

string

页面下边缘附近的文本。

pageHeader

string

页面上边缘附近的文本。

pageNumber

string

页码。

sectionHeading

string

描述文档部分的子标题。

title

string

描述整个文档的顶级标题。

StringIndexType

用于计算字符串偏移量和长度的方法。

名称 类型 说明
textElements

string

Unicode 8.0.0 定义的用户感知显示字符或图形群集。

unicodeCodePoint

string

由单个 unicode 码位表示的字符单位。 由 Python 3 使用。

utf16CodeUnit

string

由 16 位 Unicode 代码单元表示的字符单元。 由 JavaScript、Java 和 .NET 使用。