你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Document Classifiers - Get Classify Result
获取文档分类器的结果。
GET {endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview
URI 参数
名称 | 在 | 必需 | 类型 | 说明 |
---|---|---|---|---|
classifier
|
path | True |
string |
唯一的文档分类器名称。 Regex pattern: |
endpoint
|
path | True |
string |
文档智能服务终结点。 |
result
|
path | True |
string uuid |
分析操作结果 ID。 |
api-version
|
query | True |
string |
要用于此操作的 API 版本。 |
响应
名称 | 类型 | 说明 |
---|---|---|
200 OK |
请求已成功。 |
|
Other Status Codes |
意外的错误响应。 |
安全性
Ocp-Apim-Subscription-Key
Type:
apiKey
In:
header
OAuth2Auth
Type:
oauth2
Flow:
accessCode
Authorization URL:
https://login.microsoftonline.com/common/oauth2/authorize
Token URL:
https://login.microsoftonline.com/common/oauth2/token
Scopes
名称 | 说明 |
---|---|
https://cognitiveservices.azure.com/.default |
示例
Get Classify Document Result
Sample Request
GET https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/myClassifier/analyzeResults/3b31320d-8bab-4f88-b19c-2322a7f11034?api-version=2024-02-29-preview
Sample Response
{
"status": "succeeded",
"createdDateTime": "2021-09-24T13:00:46Z",
"lastUpdatedDateTime": "2021-09-24T13:00:49Z",
"analyzeResult": {
"apiVersion": "2024-02-29-preview",
"modelId": "myClassifier",
"stringIndexType": "textElements",
"contentFormat": "text",
"content": "",
"pages": [
{
"pageNumber": 1,
"width": 8.5,
"height": 11,
"unit": "inch",
"spans": []
},
{
"pageNumber": 2,
"width": 8.5,
"height": 11,
"unit": "inch",
"spans": []
},
{
"pageNumber": 3,
"width": 8.5,
"height": 11,
"unit": "inch",
"spans": []
}
],
"documents": [
{
"docType": "formA",
"boundingRegions": [
{
"pageNumber": 1,
"polygon": [
0,
0,
8.5,
0,
8.5,
11,
0,
11
]
},
{
"pageNumber": 2,
"polygon": [
0,
0,
8.5,
0,
8.5,
11,
0,
11
]
}
],
"confidence": 0.97,
"spans": []
},
{
"docType": "formB",
"boundingRegions": [
{
"pageNumber": 3,
"polygon": [
0,
0,
8.5,
0,
8.5,
11,
0,
11
]
}
],
"confidence": 0.97,
"spans": []
}
]
}
}
定义
名称 | 说明 |
---|---|
Address |
地址字段值。 |
Analyze |
文档分析结果。 |
Analyze |
分析操作的状态和结果。 |
Bounding |
输入的特定页上的边界多边形。 |
Content |
分析结果中内容的格式。 |
Currency |
货币字段值。 |
Document |
描述文档的位置和语义内容的 对象。 |
Document |
条形码对象。 |
Document |
条形码类型。 |
Document |
描述表或图形的描述文字对象。 |
Document |
表示字段值的内容和位置的 对象。 |
Document |
字段值的语义数据类型。 |
Document |
一个对象,表示文档中的图形。 |
Document |
描述表或图形的脚注对象。 |
Document |
公式对象。 |
Document |
公式类型。 |
Document |
表示字段键或键值对中的值的对象。 |
Document |
表示具有不同字段标签的窗体域的对象 (键) 和字段值 (可能为空) 。 |
Document |
一个 对象,表示给定文本范围检测到的语言。 |
Document |
内容行对象,由相邻的内容元素序列(如字词和选择标记)组成。 |
Document |
一个表示文档中列表的 对象。 |
Document |
一个对象,表示文档中的列表项。 |
Document |
从输入的页面中提取的内容和布局元素。 |
Document |
由通常具有共同对齐和间距的连续行组成的段落对象。 |
Document |
一个对象,表示文档中的节。 |
Document |
一个选择标记对象,表示检查框、单选按钮和其他指示所选内容的元素。 |
Document |
选择标记的状态。 |
Document |
是否存在签名。 |
Document |
串联内容属性的连续区域,指定为偏移量和长度。 |
Document |
表示观察到的文本样式的 对象。 |
Document |
由以矩形布局排列的表格单元格组成的表对象。 |
Document |
一个对象,表示表格单元格的位置和内容。 |
Document |
表单元格类型。 |
Document |
由连续字符序列组成的单词对象。 对于非空格分隔语言(如中文、日语和朝鲜语),每个字符都表示为自己的单词。 |
Error |
错误对象。 |
Error |
错误响应对象。 |
Font |
字形。 |
Font |
字体粗细。 |
Inner |
包含有关错误的更具体信息的对象。 |
Length |
宽度、高度和多边形属性使用的单位。 对于图像,单位为“像素”。 对于 PDF,单位为“英寸”。 |
Operation |
操作状态。 |
Paragraph |
段落的语义角色。 |
String |
用于计算字符串偏移量和长度的方法。 |
AddressValue
地址字段值。
名称 | 类型 | 说明 |
---|---|---|
city |
string |
市、镇、村等的名称。 |
cityDistrict |
string |
城市内的地区或行政区,如纽约市的布鲁克林或伦敦的威斯敏斯特市。 |
countryRegion |
string |
国家/地区。 |
house |
string |
生成名称,例如世贸中心。 |
houseNumber |
string |
房屋或建筑物编号。 |
level |
string |
楼层编号,例如 3F。 |
poBox |
string |
邮政票房号码。 |
postalCode |
string |
用于邮件排序的邮政编码。 |
road |
string |
街道名称。 |
state |
string |
一级行政区划。 |
stateDistrict |
string |
某些区域设置中使用的二级行政区划。 |
streetAddress |
string |
街道级地址,不包括市、州、国家/地区和邮政代码。 |
suburb |
string |
非官方的邻里名称,如唐人街。 |
unit |
string |
公寓或办公室号码 |
AnalyzeResult
文档分析结果。
名称 | 类型 | 说明 |
---|---|---|
apiVersion |
string |
用于生成此结果的 API 版本。 |
content |
string |
按读取顺序连接所有文本元素和视觉元素的字符串表示形式。 |
contentFormat |
分析结果顶级内容的格式。 |
|
documents |
Document[] |
提取的文档。 |
figures |
提取的图形。 |
|
keyValuePairs |
提取的键值对。 |
|
languages |
检测到的语言。 |
|
lists |
提取的列表。 |
|
modelId |
string |
用于生成此结果的文档模型 ID。 |
pages |
已分析页面。 |
|
paragraphs |
提取的段落。 |
|
sections |
提取的节。 |
|
stringIndexType |
用于计算字符串偏移量和长度的方法。 |
|
styles |
提取的字体样式。 |
|
tables |
提取的表。 |
AnalyzeResultOperation
分析操作的状态和结果。
名称 | 类型 | 说明 |
---|---|---|
analyzeResult |
文档分析结果。 |
|
createdDateTime |
string |
提交分析操作时 (UTC) 日期和时间。 |
error |
在文档分析期间遇到错误。 |
|
lastUpdatedDateTime |
string |
上次更新状态时 (UTC) 日期和时间。 |
status |
操作状态。 notStarted、running、succeeded 或 failed |
BoundingRegion
输入的特定页上的边界多边形。
名称 | 类型 | 说明 |
---|---|---|
pageNumber |
integer |
包含边界区域的页码(从 1 开始)。 |
polygon |
number[] |
页面上的边界多边形,如果未指定,则为整个页面。 相对于页面左上角指定的坐标。 这些数字表示多边形顶点的 x、y 值,从左 (-180 度(含元素方向)顺时针方向) 。 |
ContentFormat
分析结果中内容的格式。
名称 | 类型 | 说明 |
---|---|---|
markdown |
string |
文档内容的 Markdown 表示形式,其中包含节标题、表格等。 |
text |
string |
不带任何格式的文档内容的纯文本表示形式。 |
CurrencyValue
货币字段值。
名称 | 类型 | 说明 |
---|---|---|
amount |
number |
货币金额。 |
currencyCode |
string |
解析的货币代码 (ISO 4217) (如果有)。 |
currencySymbol |
string |
货币符号标签(如果有)。 |
Document
描述文档的位置和语义内容的 对象。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖文档的边界区域。 |
|
confidence |
number |
正确提取文档的置信度。 |
docType |
string |
文档类型。 |
fields |
<string,
Document |
命名字段值的字典。 |
spans |
文档在阅读顺序中连接内容的位置。 |
DocumentBarcode
条形码对象。
名称 | 类型 | 说明 |
---|---|---|
confidence |
number |
正确提取条形码的置信度。 |
kind |
条形码类型。 |
|
polygon |
number[] |
条形码的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,从左 (-180 度(含元素方向)顺时针方向) 。 |
span |
条形码在阅读顺序中串联内容的位置。 |
|
value |
string |
条形码值。 |
DocumentBarcodeKind
条形码类型。
名称 | 类型 | 说明 |
---|---|---|
Aztec |
string |
Aztec 代码,如 ISO/IEC 24778:2008 中定义。 |
Codabar |
string |
Codabar 条形码,如 ANSI/AIM BC3-1995 中定义。 |
Code128 |
string |
代码 128 条形码,如 ISO/IEC 15417:2007 中定义。 |
Code39 |
string |
代码 39 条形码,如 ISO/IEC 16388:2007 中定义。 |
Code93 |
string |
代码 93 条形码,如 ANSI/AIM BC5-1995 中定义。 |
DataBar |
string |
GS1 DataBar 条形码。 |
DataBarExpanded |
string |
GS1 DataBar 扩展条形码。 |
DataMatrix |
string |
数据矩阵代码,如 ISO/IEC 16022:2006 中定义。 |
EAN13 |
string |
GS1 13 位国际文章编号 (欧洲文章编号) 。 |
EAN8 |
string |
GS1 8 位国际文章编号 (欧洲文章编号) 。 |
ITF |
string |
交错 2(共 5 个条形码),如 ANSI/AIM BC2-1995 中定义。 |
MaxiCode |
string |
MaxiCode,如 ISO/IEC 16023:2000 中定义。 |
MicroQRCode |
string |
微 QR 码,如 ISO/IEC 23941:2022 中定义。 |
PDF417 |
string |
PDF417,如 ISO 15438 中定义。 |
QRCode |
string |
QR 码,如 ISO/IEC 18004:2015 中定义。 |
UPCA |
string |
GS1 12 位通用产品代码。 |
UPCE |
string |
GS1 6 位通用产品代码。 |
DocumentCaption
描述表或图形的描述文字对象。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖描述文字的边界区域。 |
|
content |
string |
描述文字的内容。 |
elements |
string[] |
描述文字的子元素。 |
spans |
读取顺序中串联内容的描述文字的位置。 |
DocumentField
表示字段值的内容和位置的 对象。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖字段的边界区域。 |
|
confidence |
number |
正确提取字段的置信度。 |
content |
string |
字段内容。 |
spans |
阅读顺序串联内容的字段的位置。 |
|
type |
字段值的数据类型。 |
|
valueAddress |
地址值。 |
|
valueArray |
字段值的数组。 |
|
valueBoolean |
boolean |
布尔值。 |
valueCountryRegion |
string |
3 字母国家/地区代码值 (ISO 3166-1 alpha-3) 。 |
valueCurrency |
货币值。 |
|
valueDate |
string |
YYYY-MM-DD 格式的日期值 (ISO 8601) 。 |
valueInteger |
integer |
整数值。 |
valueNumber |
number |
浮点值。 |
valueObject |
<string,
Document |
命名字段值的字典。 |
valuePhoneNumber |
string |
E.164 格式的电话号码值 (例如 +19876543210) 。 |
valueSelectionGroup |
string[] |
选择组值。 |
valueSelectionMark |
选择标记值。 |
|
valueSignature |
是否存在签名。 |
|
valueString |
string |
字符串值。 |
valueTime |
string |
hh:mm:ss 格式的时间值 (ISO 8601) 。 |
DocumentFieldType
字段值的语义数据类型。
名称 | 类型 | 说明 |
---|---|---|
address |
string |
已分析地址。 |
array |
string |
相同类型的子字段列表。 |
boolean |
string |
布尔值,规范化为 true 或 false。 |
countryRegion |
string |
国家/地区,规范化为 ISO 3166-1 alpha-3 格式 (例如 USA) 。 |
currency |
string |
具有可选货币符号和单位的货币金额。 |
date |
string |
日期,规范化为 ISO 8601 (YYYY-MM-DD) 格式。 |
integer |
string |
整数,规范化为 64 位带符号整数。 |
number |
string |
浮点数,规范化为双精度浮点。 |
object |
string |
可能不同类型的子字段的命名列表。 |
phoneNumber |
string |
电话号码,规范化为 E.164 (+{CountryCode}{SubscriberNumber}) 格式。 |
selectionGroup |
string |
所选字符串值的数组。 |
selectionMark |
string |
是否选择了字段? |
signature |
string |
签名是否存在? |
string |
string |
纯文本。 |
time |
string |
时间,规范化为 ISO 8601 (hh:mm:ss) 格式。 |
DocumentFigure
一个对象,表示文档中的图形。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖图形的边界区域。 |
|
caption |
与图形关联的标题。 |
|
elements |
string[] |
图形的子元素,不包括任何描述文字或脚注。 |
footnotes |
与图关联的脚注列表。 |
|
spans |
图形在阅读顺序中连接内容的位置。 |
DocumentFootnote
描述表或图形的脚注对象。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖脚注的边界区域。 |
|
content |
string |
脚注的内容。 |
elements |
string[] |
脚注的子元素。 |
spans |
脚注在阅读顺序中串联的内容的位置。 |
DocumentFormula
公式对象。
名称 | 类型 | 说明 |
---|---|---|
confidence |
number |
正确提取公式的置信度。 |
kind |
公式类型。 |
|
polygon |
number[] |
公式的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,从左 (-180 度(含元素方向)顺时针方向) 。 |
span |
公式在阅读顺序中串联内容的位置。 |
|
value |
string |
描述公式的 LaTex 表达式。 |
DocumentFormulaKind
公式类型。
名称 | 类型 | 说明 |
---|---|---|
display |
string |
在显示模式下占用整行的公式。 |
inline |
string |
嵌入段落内容中的公式。 |
DocumentKeyValueElement
表示字段键或键值对中的值的对象。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖键值元素的边界区域。 |
|
content |
string |
键值元素按读取顺序串联的内容。 |
spans |
键值元素在读取顺序中串联内容的位置。 |
DocumentKeyValuePair
表示具有不同字段标签的窗体域的对象 (键) 和字段值 (可能为空) 。
名称 | 类型 | 说明 |
---|---|---|
confidence |
number |
正确提取键值对的置信度。 |
key |
键值对的字段标签。 |
|
value |
键值对的字段值。 |
DocumentLanguage
一个 对象,表示给定文本范围检测到的语言。
名称 | 类型 | 说明 |
---|---|---|
confidence |
number |
正确标识语言的置信度。 |
locale |
string |
检测到的语言。 值可以是 ISO 639-1 语言代码 (例如“en”、“fr”) 或 BCP 47 语言标记 (例如“zh-Hans”) 。 |
spans |
语言应用到的串联内容中文本元素的位置。 |
DocumentLine
内容行对象,由相邻的内容元素序列(如字词和选择标记)组成。
名称 | 类型 | 说明 |
---|---|---|
content |
string |
按读取顺序连接包含的元素的内容。 |
polygon |
number[] |
线条的边界多边形,具有相对于页面左上角指定的坐标。 这些数字表示多边形顶点的 x、y 值,从左 (-180 度(含元素方向)顺时针方向) 。 |
spans |
阅读顺序中串联内容的行的位置。 |
DocumentList
一个表示文档中列表的 对象。
名称 | 类型 | 说明 |
---|---|---|
items |
列表中的项。 |
|
spans |
列表在阅读顺序中串联内容的位置。 |
DocumentListItem
一个对象,表示文档中的列表项。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖列表项的边界区域。 |
|
content |
string |
列表项的内容。 |
elements |
string[] |
列表项的子元素。 |
level |
integer |
列表项的级别 (索引为 1 的) 。 |
spans |
阅读顺序串联内容中列表项的位置。 |
DocumentPage
从输入的页面中提取的内容和布局元素。
名称 | 类型 | 说明 |
---|---|---|
angle |
number |
内容在顺时针方向的一般方向,以 (-180, 180 之间的度为单位。 |
barcodes |
从页面提取的条形码。 |
|
formulas |
从页面中提取的公式。 |
|
height |
number |
图像/PDF 的高度(以像素/英寸为单位)。 |
lines |
从页面中提取的行,可能同时包含文本元素和视觉元素。 |
|
pageNumber |
integer |
输入文档中从 1 开始的页码。 |
selectionMarks |
从页面中提取的选择标记。 |
|
spans |
页面在阅读顺序中连接内容的位置。 |
|
unit |
宽度、高度和多边形属性使用的单位。 对于图像,单位为“像素”。 对于 PDF,单位为“英寸”。 |
|
width |
number |
图像/PDF 的宽度(以像素/英寸为单位)。 |
words |
从页面中提取的单词。 |
DocumentParagraph
由通常具有共同对齐和间距的连续行组成的段落对象。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖段落的边界区域。 |
|
content |
string |
按阅读顺序连接段落的内容。 |
role |
段落的语义角色。 |
|
spans |
段落在阅读顺序中串联内容的位置。 |
DocumentSection
一个对象,表示文档中的节。
名称 | 类型 | 说明 |
---|---|---|
elements |
string[] |
节的子元素。 |
spans |
阅读顺序中串联内容的节的位置。 |
DocumentSelectionMark
一个选择标记对象,表示检查框、单选按钮和其他指示所选内容的元素。
名称 | 类型 | 说明 |
---|---|---|
confidence |
number |
正确提取选择标记的置信度。 |
polygon |
number[] |
选择标记的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,从左 (-180 度(含元素方向)顺时针方向) 。 |
span |
选择标记在阅读顺序串联内容中的位置。 |
|
state |
选择标记的状态。 |
DocumentSelectionMarkState
选择标记的状态。
名称 | 类型 | 说明 |
---|---|---|
selected |
string |
选择标记处于选中状态,通常由选择标记内的 检查 ✓ 或十字 X 指示。 |
unselected |
string |
未选择选择标记。 |
DocumentSignatureType
是否存在签名。
名称 | 类型 | 说明 |
---|---|---|
signed |
string |
检测到签名。 |
unsigned |
string |
未检测到任何签名。 |
DocumentSpan
串联内容属性的连续区域,指定为偏移量和长度。
名称 | 类型 | 说明 |
---|---|---|
length |
integer |
范围表示的内容中的字符数。 |
offset |
integer |
范围表示的内容的从零开始的索引。 |
DocumentStyle
表示观察到的文本样式的 对象。
名称 | 类型 | 说明 |
---|---|---|
backgroundColor |
string |
#rrggbb 十六进制格式的背景色。 |
color |
string |
#rrggbb 十六进制格式的前景色。 |
confidence |
number |
正确标识样式的置信度。 |
fontStyle |
字形。 |
|
fontWeight |
字体粗细。 |
|
isHandwritten |
boolean |
内容是手写的吗? |
similarFontFamily |
string |
在视觉上最相似的字体来自支持的字体系列集,回退字体遵循 CSS 约定 (例如'Arial, sans-serif') 。 |
spans |
样式应用于的串联内容中文本元素的位置。 |
DocumentTable
由以矩形布局排列的表格单元格组成的表对象。
名称 | 类型 | 说明 |
---|---|---|
boundingRegions |
覆盖表的边界区域。 |
|
caption |
与表关联的标题。 |
|
cells |
表中包含的单元格。 |
|
columnCount |
integer |
表中的列数。 |
footnotes |
与表关联的脚注列表。 |
|
rowCount |
integer |
表中的行数。 |
spans |
表在读取顺序中串联内容的位置。 |
DocumentTableCell
一个对象,表示表格单元格的位置和内容。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
boundingRegions |
覆盖表单元格的边界区域。 |
||
columnIndex |
integer |
单元格的列索引。 |
|
columnSpan |
integer |
1 |
此单元格跨越的列数。 |
content |
string |
按读取顺序连接表单元格的内容。 |
|
elements |
string[] |
表单元格的子元素。 |
|
kind | content |
表格单元格类型。 |
|
rowIndex |
integer |
单元格的行索引。 |
|
rowSpan |
integer |
1 |
此单元格跨越的行数。 |
spans |
表单元格在阅读顺序中串联内容的位置。 |
DocumentTableCellKind
表单元格类型。
名称 | 类型 | 说明 |
---|---|---|
columnHeader |
string |
描述列的内容。 |
content |
string |
包含main内容/数据。 |
description |
string |
描述表) (部分中的内容。 |
rowHeader |
string |
描述行的内容。 |
stubHead |
string |
描述通常位于表格左上角的行标题。 |
DocumentWord
由连续字符序列组成的单词对象。 对于非空格分隔语言(如中文、日语和朝鲜语),每个字符都表示为自己的单词。
名称 | 类型 | 说明 |
---|---|---|
confidence |
number |
正确提取单词的置信度。 |
content |
string |
单词的文本内容。 |
polygon |
number[] |
单词的边界多边形,指定相对于页面左上角的坐标。 这些数字表示多边形顶点的 x、y 值,从左 (-180 度(含元素方向)顺时针方向) 。 |
span |
单词在阅读顺序中连接内容的位置。 |
Error
错误对象。
名称 | 类型 | 说明 |
---|---|---|
code |
string |
服务器定义的一组错误代码中的一个。 |
details |
Error[] |
有关导致此项报告错误的特定错误的详细信息数组。 |
innererror |
一个 对象,该对象包含比当前对象更具体的错误信息。 |
|
message |
string |
错误的用户可读表示形式。 |
target |
string |
错误的目标。 |
ErrorResponse
错误响应对象。
名称 | 类型 | 说明 |
---|---|---|
error |
错误信息。 |
FontStyle
字形。
名称 | 类型 | 说明 |
---|---|---|
italic |
string |
字符在视觉上向右倾斜。 |
normal |
string |
字符以正常方式表示。 |
FontWeight
字体粗细。
名称 | 类型 | 说明 |
---|---|---|
bold |
string |
字符以较粗的笔划表示。 |
normal |
string |
字符以正常方式表示。 |
InnerError
包含有关错误的更具体信息的对象。
名称 | 类型 | 说明 |
---|---|---|
code |
string |
服务器定义的一组错误代码中的一个。 |
innererror |
内部错误。 |
|
message |
string |
错误的用户可读表示形式。 |
LengthUnit
宽度、高度和多边形属性使用的单位。 对于图像,单位为“像素”。 对于 PDF,单位为“英寸”。
名称 | 类型 | 说明 |
---|---|---|
inch |
string |
PDF 文件的长度单位。 |
pixel |
string |
图像文件的长度单位。 |
OperationStatus
操作状态。
名称 | 类型 | 说明 |
---|---|---|
canceled |
string |
操作已取消。 |
completed |
string |
操作已完成。 |
failed |
string |
操作失败。 |
notStarted |
string |
操作尚未启动。 |
running |
string |
操作正在进行中。 |
succeeded |
string |
操作已成功执行。 |
ParagraphRole
段落的语义角色。
名称 | 类型 | 说明 |
---|---|---|
footnote |
string |
注释通常放在页面上main内容之后。 |
formulaBlock |
string |
公式块,通常采用共享对齐方式。 |
pageFooter |
string |
页面下边缘附近的文本。 |
pageHeader |
string |
页面上边缘附近的文本。 |
pageNumber |
string |
页码。 |
sectionHeading |
string |
描述文档部分的子标题。 |
title |
string |
描述整个文档的顶级标题。 |
StringIndexType
用于计算字符串偏移量和长度的方法。
名称 | 类型 | 说明 |
---|---|---|
textElements |
string |
Unicode 8.0.0 定义的用户感知显示字符或图形群集。 |
unicodeCodePoint |
string |
由单个 unicode 码位表示的字符单位。 由 Python 3 使用。 |
utf16CodeUnit |
string |
由 16 位 Unicode 代码单元表示的字符单元。 由 JavaScript、Java 和 .NET 使用。 |