文档处理模型的要求和限制
支持的语言
固定模板文档模型
训练文档处理模型并选择固定模板文档作为文档类型时,支持以下语言:
阿巴扎语、阿布哈兹语、亚齐语、阿柯利语、阿当梅语、阿迪格语、阿法尔语、南非荷兰语、阿肯语、阿尔巴尼亚语、阿尔贡金语、昂加语(天城文)、阿拉伯语、阿斯图里亚斯语、阿苏语(坦桑尼亚)、阿瓦尔语、阿瓦德语-印地语(天城文)、艾马拉语、阿塞拜疆语(拉丁语)、巴菲亚语、巴格里语、班巴拉语、巴什基尔语、巴斯克语、白俄罗斯语(西里尔语)、白俄罗斯语(拉丁语)、别姆巴语(赞比亚)、贝纳语(坦桑尼亚)、博杰普尔语-印地语(天城文)、比考尔语、比尼语、比斯拉马语、博多语(天城文)、波斯尼亚语(拉丁语系)、布拉伊巴语、布列塔尼语、保加利亚语、本德利语、布里亚特语(西里尔语)、加泰罗尼亚语、宿雾语、查姆林语、查莫罗语、车臣语、恰蒂斯加尔希语(天城文)、奇加语、简体中文、中文(繁体)、乔克托语、楚科奇语、楚瓦什语、康沃尔语、柯西嘉语、克里语、克里克语、克里米亚鞑靼语(拉丁语)、克罗地亚语、克罗语、捷克语、丹麦语、尔格瓦语、达里语、迪马尔语(天城文)、多格拉语(天城文)、都阿拉语、东干语、荷兰语、埃菲克语、英语、厄尔兹亚语(西里尔语)、爱沙尼亚语、法罗语、斐济语、菲律宾语、芬兰语丰族语、法语、弗留利语、加蓬语、嘎嘎乌孜语(拉丁语)、加利西亚语、干达语、迦约语、德语、吉尔伯特斯语、贡迪语(天城文)、希腊语、格陵兰语、瓜拉尼语、古隆语(天城文)、古斯族语、海地克里奥尔语、哈尔比语(天城文)、哈尼语、哈里亚维、夏威夷语、希伯来语、赫雷罗语、希利盖农语、印地语、白苗语(拉丁语)、霍语(天城文)、匈牙利语、伊班语、冰岛语、伊博语、伊洛干诺语、伊纳里萨米语、印度尼西亚语、印古什语、国际语、因纽特语(拉丁语)、爱尔兰语、意大利语、日语、贾恩萨里语(天城文)、爪哇文、朱拉语、卡巴尔德语、卡布佛得鲁语、克钦语(拉丁语)、卡伦津人语、卡尔梅克语、康格里语(天城文)、卡努里语、卡巴尔达语、卡拉卡巴克语(西里尔语)、卡拉卡巴克语(拉丁语)、卡舒比语、哈萨克语(西里尔语)、哈萨克语(拉丁语)、哈卡斯语、哈林语、卡西语、基切语、吉库尤语、基尔丁萨米语、卢旺达语、科米语、刚果语、朝鲜语、科尔库语、科里亚克语、科斯拉伊语、格贝列文语、宽亚玛语、库梅克语(西里尔语)、库尔德语(阿拉伯语)、库尔德语(拉丁语)、库鲁克语(天城文)、吉尔吉斯语(西里尔语)、腊克语、拉科塔语拉丁语、拉脱维亚语、列兹金语、林加拉语、立陶宛语、下索布语、洛奇语、律勒萨米语、卢奥语(肯尼亚和坦桑尼亚)、卢森堡语、卢雅语、马其顿语、马切姆语、马都拉语、玛哈苏帕哈里(天城文)、马库阿语、马孔德语、马达加斯加语、马来语(拉丁语系)、马耳他语、马尔托语(天城文)、曼丁哥语、马恩岛语、毛利语、马普切语、马拉地语、马里语(俄罗斯)、马赛语、曼德语(塞拉利昂)、梅鲁语、梅塔语、米南卡保语、摩霍克语、蒙古语(西里尔文)、蒙贡多语、蒙特内哥罗语(西里尔语)、蒙特内哥罗语(拉丁语)、模里西斯语、蒙当语、纳瓦特尔语、Navajo、恩东加语、那不勒斯语、尼泊尔语、恩贡巴语、纽埃语、诺盖语、北恩德贝勒语、北萨米语(拉丁语)、挪威语、尼昂加语、尼昂科勒语、恩济马语、奥克西唐语、奥吉布瓦语、奥罗莫语、奥塞丁语、邦板牙语、邦阿西南语、帕皮阿门托语、普什图语、佩迪语、波斯语、波兰语、葡萄牙语、旁遮普语(阿拉伯语)、盖丘亚语、利普里安语、罗马尼亚语、罗曼什语、隆迪语、俄语、罗瓦语、萨德里语(天城文)、萨哈语、桑布鲁语、萨摩亚语(拉丁语)、桑戈语桑古语(加蓬)、梵语(天城文)、桑塔利语(天城文)、苏格兰语、苏格兰盖尔语、塞纳语、塞尔维亚语(西里尔)、塞尔维亚语(拉丁)、香巴拉语、绍纳语、西克西卡语、西尔毛里语(天城文)、斯科特萨米语、斯洛伐克语、斯洛文尼亚语、索加语、索马里语(阿拉伯语)、索马里语(拉丁语)、桑海语、南恩德贝勒语、南阿尔泰语、南萨米语、南索托语、西班牙语、巽他语、斯瓦希里语(拉丁语)、斯瓦蒂语、瑞典语、塔巴萨兰语、希尔哈语、塔希提语、台塔语、塔吉克语(西里尔文)、泰米尔语、鞑靼语(西里尔文)、鞑靼语(拉丁语)、特索语、德顿语、泰语、汤米语、巴布亚皮钦语、汤加语、聪加语、茨瓦纳语、茨瓦纳语、土耳其语、土库曼语(拉丁语)、图瓦语、乌德穆尔特语、维吾尔语(西里尔文)、乌克兰语、上索布语、乌尔都语、维吾尔语(阿拉伯语)、乌兹别克语(阿拉伯语)、乌兹别克语(西里尔文)、乌兹别克语(拉丁语)、越南语、沃拉普克语、Vunjo、瓦尔瑟语、威尔士语、西弗里斯兰语、沃洛夫语、科萨语、尤卡特克玛雅语、萨波特克语、扎尔马语、壮语、祖鲁语
常规文档模型
训练文档处理模型并选择常规文档作为文档类型时,支持以下语言。
南非荷兰语、阿尔巴尼亚语、阿拉伯语、保加利亚语、中文(汉字(简体变体))、中文(汉字(繁体变体))、克罗地亚语、捷克语、丹麦语、荷兰语、爱沙尼亚语、芬兰语、法语、德语、希伯来语、印地语、匈牙利语、印度尼西亚语、意大利语、日语、韩语、拉脱维亚语、立陶宛语、马其顿语、马拉地语、现代希腊语 (1453-)、尼泊尔语(大语言)、挪威语、旁遮普语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、斯洛文尼亚语、索马里语(阿拉伯语)、索马里语(拉丁语)、西班牙语、斯瓦希里语(大语言)、瑞典语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语
要求
文档处理可以处理符合以下要求的输入文档:
- JPG、PNG 或 PDF 格式(文本或扫描件)。 最好是使用文本嵌入式 PDF,因为这样在提取和定位字符时就不会出现任何错误。
- TIFF 文件无法用于训练。 您将需要使用 PDF、JPG 或 PNG 格式的文档来训练模型。 对模型进行训练后,在 Power Automate 云端流中使用模型时,可以从 TIFF 文件中提取数据。
- 如果您的 PDF 被密码锁定,您必须在提交之前移除锁定。
- 要处理的最大文档大小不能超过 20 MB。
- 对于图像,尺寸必须介于 50 × 50 像素与 10,000 × 10,000 像素之间。
- 如果从纸质文档扫描,扫描结果应是高质量图像。
- 每个模型最多可以创建 200 个集合。
- 在云端流中,可以标记用于文档处理的字段限制为 300。
备注
- 目前不支持从文档中提取签名。
- 目前不支持跨页面边界的字段。
- 当前不支持从一页到另一页断开的行。
优化提示
了解如何改进文档处理模型的性能。