Analyzer - Analyze Layout
从给定文档中提取文本和布局信息。 输入文档必须是受支持的内容类型之一-“application/pdf”、“image/jpeg”、“image/png”、“image/tiff”或“image/bmp”。 或者,使用“application/json”类型指定要分析的文档的位置(Uri 或本地路径)。
POST {endpoint}/formrecognizer/v2.1/layout/analyze
POST {endpoint}/formrecognizer/v2.1/layout/analyze?pages={pages}&language={language}&readingOrder={readingOrder}
URI 参数
名称 | 在 | 必需 | 类型 | 说明 |
---|---|---|---|---|
endpoint
|
path | True |
string |
支持的认知服务终结点(协议和主机名,例如:https://westus2.api.cognitive.microsoft.com)。 |
language
|
query |
目前, 只有非洲人('af')、阿尔巴尼亚语('sq')、阿图里安('ast')、巴斯克('eu')、比斯拉马('bi')、布雷顿('br')、加泰罗尼亚语('ca')、塞布亚诺('ceb')、查莫罗('ch')、科西肯('co')、克里米安·塔塔尔 -拉丁剧本('crh') 捷克语('cs')、丹麦语('da')、荷兰语('nl')、英语('en')、爱沙尼亚语('et')、斐济语('fj')、菲律宾语('fil')、芬兰语('fi')、法语('fr')、弗里利亚语('fur')、加利西亚语('gl')、德语('de')、吉尔伯特语('吉尔')、格陵兰蒂语('kl')、 海地克里奥勒('ht')、哈尼('hni')、Hmong Daw('兆瓦')、匈牙利语('胡')、印度尼西亚语('id')、国际语('ia')、伊努特语('iu')、爱尔兰语('ga')、意大利语('it')、日本语('ja')、爪哇语('jv')、卡布韦迪亚努语('kea')、卡钦('kac')、 Kara-Kalpak('kaa')、卡苏比安('csb')、哈西('kha')、朝鲜语('ko')、库尔德语 - 拉丁语脚本('ku')、K'iche'('quc')、卢森堡语('lb')、马来语('ms')、曼克斯('gv')、那不勒斯('nap')、挪威语('no')、奥西坦('oc')、波兰语('pl')、 葡萄牙语('pt')、罗曼什('rm')、苏格兰语('sco')、苏格兰盖利语('gd')、简体中文('zh-Hans')、斯洛文尼亚语('sl')、西班牙语('es')、斯瓦希利语('sw')、瑞典语('sv')、塔塔尔语 -拉丁语脚本('tt')、泰图姆('tet')、传统中文('zh-汉特')、 支持土耳其语('tr')、上索比安语('hsb')、乌兹别克('乌兹')、沃尔佩克('vo')、沃尔瑟('wae')、西弗里西亚语('fy')、尤卡特克·玛雅('yua')、壮族('za')和祖鲁('祖')(印刷-七十三种语言和手写-英语)。 布局支持自动语言识别和多语言文档,因此,如果想要强制将记录的文档作为该特定语言进行处理,则仅提供语言代码。 |
||
pages
|
query |
string[] |
多页文档(PDF/TIFF)的自定义页码,输入要获取 OCR 结果的页面数。 对于页面范围,请使用连字符。 用逗号分隔每个页面或区域。 |
|
reading
|
query |
用于对返回的文本行进行排序的阅读顺序算法。 支持的阅读顺序包括:basic(default),自然。 |
请求头
Media Types: "application/pdf", "application/json", "image/jpeg", "image/png", "image/tiff", "image/bmp"
名称 | 必需 | 类型 | 说明 |
---|---|---|---|
Ocp-Apim-Subscription-Key | True |
string |
请求正文
Media Types: "application/pdf", "application/json", "image/jpeg", "image/png", "image/tiff", "image/bmp"
名称 | 类型 | 说明 |
---|---|---|
source |
string minLength: 0maxLength: 2048 |
文件源路径。 |
响应
名称 | 类型 | 说明 |
---|---|---|
202 Accepted |
请求已成功排队。 标头 Operation-Location: string |
|
Other Status Codes |
包含有关错误的其他详细信息的非成功响应的响应实体。 |
安全性
Ocp-Apim-Subscription-Key
类型:
apiKey
在:
header
示例
Analyze layout
示例请求
POST {endpoint}/formrecognizer/v2.1/layout/analyze?language=en
示例响应
Operation-Location: {endpoint}/formrecognizer/v2.1/layout/analyzeResults/3b1e6c5b-e113-4114-ab6b-ce65dfe8050f
定义
名称 | 说明 |
---|---|
Error |
|
Error |
|
Language |
目前, 只有非洲人('af')、阿尔巴尼亚语('sq')、阿图里安('ast')、巴斯克('eu')、比斯拉马('bi')、布雷顿('br')、加泰罗尼亚语('ca')、塞布亚诺('ceb')、查莫罗('ch')、科西肯('co')、克里米安·塔塔尔 -拉丁剧本('crh') 捷克语('cs')、丹麦语('da')、荷兰语('nl')、英语('en')、爱沙尼亚语('et')、斐济语('fj')、菲律宾语('fil')、芬兰语('fi')、法语('fr')、弗里利亚语('fur')、加利西亚语('gl')、德语('de')、吉尔伯特语('吉尔')、格陵兰蒂语('kl')、 海地克里奥勒('ht')、哈尼('hni')、Hmong Daw('兆瓦')、匈牙利语('胡')、印度尼西亚语('id')、国际语('ia')、伊努特语('iu')、爱尔兰语('ga')、意大利语('it')、日本语('ja')、爪哇语('jv')、卡布韦迪亚努语('kea')、卡钦('kac')、 Kara-Kalpak('kaa')、卡苏比安('csb')、哈西('kha')、朝鲜语('ko')、库尔德语 - 拉丁语脚本('ku')、K'iche'('quc')、卢森堡语('lb')、马来语('ms')、曼克斯('gv')、那不勒斯('nap')、挪威语('no')、奥西坦('oc')、波兰语('pl')、 葡萄牙语('pt')、罗曼什('rm')、苏格兰语('sco')、苏格兰盖利语('gd')、简体中文('zh-Hans')、斯洛文尼亚语('sl')、西班牙语('es')、斯瓦希利语('sw')、瑞典语('sv')、塔塔尔语 -拉丁语脚本('tt')、泰图姆('tet')、传统中文('zh-汉特')、 支持土耳其语('tr')、上索比安语('hsb')、乌兹别克('乌兹')、沃尔佩克('vo')、沃尔瑟('wae')、西弗里西亚语('fy')、尤卡特克·玛雅('yua')、壮族('za')和祖鲁('祖')(印刷-七十三种语言和手写-英语)。 布局支持自动语言识别和多语言文档,因此,如果想要强制将记录的文档作为该特定语言进行处理,则仅提供语言代码。 |
Reading |
用于对返回的文本行进行排序的阅读顺序算法。 支持的阅读顺序包括:basic(default),自然。 |
Source |
源数据的 URI 或本地路径。 |
ErrorInformation
名称 | 类型 | 说明 |
---|---|---|
code |
string |
|
message |
string |
ErrorResponse
名称 | 类型 | 说明 |
---|---|---|
error |
Language
目前, 只有非洲人('af')、阿尔巴尼亚语('sq')、阿图里安('ast')、巴斯克('eu')、比斯拉马('bi')、布雷顿('br')、加泰罗尼亚语('ca')、塞布亚诺('ceb')、查莫罗('ch')、科西肯('co')、克里米安·塔塔尔 -拉丁剧本('crh') 捷克语('cs')、丹麦语('da')、荷兰语('nl')、英语('en')、爱沙尼亚语('et')、斐济语('fj')、菲律宾语('fil')、芬兰语('fi')、法语('fr')、弗里利亚语('fur')、加利西亚语('gl')、德语('de')、吉尔伯特语('吉尔')、格陵兰蒂语('kl')、 海地克里奥勒('ht')、哈尼('hni')、Hmong Daw('兆瓦')、匈牙利语('胡')、印度尼西亚语('id')、国际语('ia')、伊努特语('iu')、爱尔兰语('ga')、意大利语('it')、日本语('ja')、爪哇语('jv')、卡布韦迪亚努语('kea')、卡钦('kac')、 Kara-Kalpak('kaa')、卡苏比安('csb')、哈西('kha')、朝鲜语('ko')、库尔德语 - 拉丁语脚本('ku')、K'iche'('quc')、卢森堡语('lb')、马来语('ms')、曼克斯('gv')、那不勒斯('nap')、挪威语('no')、奥西坦('oc')、波兰语('pl')、 葡萄牙语('pt')、罗曼什('rm')、苏格兰语('sco')、苏格兰盖利语('gd')、简体中文('zh-Hans')、斯洛文尼亚语('sl')、西班牙语('es')、斯瓦希利语('sw')、瑞典语('sv')、塔塔尔语 -拉丁语脚本('tt')、泰图姆('tet')、传统中文('zh-汉特')、 支持土耳其语('tr')、上索比安语('hsb')、乌兹别克('乌兹')、沃尔佩克('vo')、沃尔瑟('wae')、西弗里西亚语('fy')、尤卡特克·玛雅('yua')、壮族('za')和祖鲁('祖')(印刷-七十三种语言和手写-英语)。 布局支持自动语言识别和多语言文档,因此,如果想要强制将记录的文档作为该特定语言进行处理,则仅提供语言代码。
值 | 说明 |
---|---|
af | |
ast | |
bi | |
br | |
ca | |
ceb | |
ch | |
co | |
crh | |
cs | |
csb | |
da | |
de | |
en | |
es | |
et | |
eu | |
fi | |
fil | |
fj | |
fr | |
fur | |
fy | |
ga | |
gd | |
gil | |
gl | |
gv | |
hni | |
hsb | |
ht | |
hu | |
ia | |
id | |
it | |
iu | |
ja | |
jv | |
kaa | |
kac | |
kea | |
kha | |
kl | |
ko | |
ku | |
kw | |
lb | |
ms | |
mww | |
nap | |
nl | |
no | |
oc | |
pl | |
pt | |
quc | |
rm | |
sco | |
sl | |
sq | |
sv | |
sw | |
tet | |
tr | |
tt | |
uz | |
vo | |
wae | |
yua | |
za | |
zh-Hans | |
zh-Hant | |
zu |
ReadingOrder
用于对返回的文本行进行排序的阅读顺序算法。 支持的阅读顺序包括:basic(default),自然。
值 | 说明 |
---|---|
basic | |
natural |
SourcePath
源数据的 URI 或本地路径。
名称 | 类型 | 说明 |
---|---|---|
source |
string minLength: 0maxLength: 2048 |
文件源路径。 |