文本识别预生成模型

文本识别预生成模型将字词从文档和图像提取到计算机可读的字符流中。 它使用最先进的光学字符识别 (OCR) 来检测图像中的打印文本和手写文本。

此模型处理图像和文档文件,以提取打印文本或手写文本的各行。

在 Power Apps 中使用

可通过文本识别器组件在 Power Apps 中使用预生成的文本识别模型。 详细信息:在 Power Apps 中使用文本识别器组件

在 Power Automate 中使用

有关如何在 Power Automate 中使用此模型的信息,请参阅在 Power Automate 中使用文本识别预生成模型

支持的语言、格式和大小

可以用文本识别模型扫描的文件必须具有以下特征:

  • 打印文本语言:南非荷兰语、阿尔巴尼亚语、昂加语(天城文)、阿拉伯语、阿斯图里亚斯语、阿瓦德语(天城文)、阿塞拜疆语(拉丁语)、巴赫利语、巴斯克语、白俄罗斯语(西里尔文)、白俄罗斯语(拉丁语)、博杰普里语-印地语(天城文)、比斯拉马语、博多语(天城文)、波斯尼亚语(拉丁语)、布鲁夏斯基语、布列塔尼语、保加利亚语、Bundeli、布里亚特语 (西里尔语)、加泰罗尼亚语、宿务语、查姆林语、查莫罗语、恰蒂斯加尔语(天城文)、中文(简体)、中文(繁体)、康沃尔语、科西嘉语、克里米亚鞑靼语(拉丁语)、克罗地亚语、捷克语、丹麦语、达里语、Dhimal(天城文)、多格里语(天城文)、荷兰语、英语、厄尔茨亚语(西里尔文)、爱沙尼亚语、法罗语、斐济语、菲律宾语、芬兰语、法语、弗留利语、伽伽乌兹语(拉丁语)、加利西亚语、德语、吉尔伯特语、冈德语(天城文)、格陵兰语、古温语(天城文)、海地克里奥尔语、亥比语(天城文)、哈尼语、哈里亚纳语、夏威夷语、印地语、苗文(拉丁语)、Ho(天城文)、匈牙利语、冰岛语、伊纳里萨米语、印度尼西亚语、国际语、因纽特语(拉丁语)、爱尔兰语、意大利语、日语、Jaunsari(天城文)、爪哇语、卡布佛得鲁文、克钦语(拉丁语)、Kangri(天城文)、卡拉恰伊-巴尔卡尔语、卡拉卡尔帕克语(西里尔文)、卡拉卡尔帕克语(拉丁语)、卡舒比语、哈萨克语(西里尔文)、哈萨克语(拉丁语)、卡林语、卡西语、基切语、韩语、科尔库语、科里亚克语、科斯拉伊语、库米克语(西里尔文)、库尔德语(阿拉伯语)、库尔德语(拉丁语)、库路克语(天城文)、吉尔吉斯语(西里尔文)、拉科塔语、拉丁语、立陶宛语、下索布语、Lule Sami、卢森堡语、Mahasu Pahari(天城文)、马来文(拉丁语)、马耳他文、马尔托文(梵文)、马恩岛文、毛利文、马拉地文、蒙古文(西里尔文)、黑山文(西里尔文)、黑山文(拉丁语)、那不勒斯文、尼泊尔文、纽埃文、诺盖文、北萨米文(拉丁语)、挪威语、奥克西唐语、奥塞梯语、普什图语、波斯语、波兰语、葡萄牙语、旁遮普语(阿拉伯语)、利普里安语、罗马尼亚语、罗曼什语、俄语、萨德里语(天城文)、萨摩亚语(拉丁语)、梵语(天城文)、桑塔利语(天城文)、苏格兰语、苏格兰盖尔语、塞尔维亚语(拉丁语)、夏尔巴语(天城文)、Sirmauri(天城文)、斯科尔特萨米语、斯洛伐克语、斯洛文尼亚语、索马里语(阿拉伯语)、南萨米语、西班牙语、斯瓦希里语(拉丁语)、瑞典语、塔吉克语(西里尔文)、塔塔尔语(拉丁语)、德顿语、唐米语、汤加语、土耳其语、土库曼语(拉丁语)、图瓦语、上索布语、乌尔都语、维吾尔语(阿拉伯语)、乌兹别克语(阿拉伯语)、乌兹别克语(西里尔文)、乌兹别克语(拉丁语)、沃拉普克语、瓦尔泽语、威尔士语、西弗里斯兰语、玛雅语、壮语、祖鲁语
  • 手写文本语言:英语、中文(简体)、法语、德语、意大利语、日语、韩语、葡萄牙语、西班牙语
  • 格式
    • JPG
    • PNG
    • BMP
    • PDF
  • 大小:最大 20 MB
  • 对于 PDF 文档,将仅处理前 2,000 个页面。

模型输出

如果检测到文档,文本识别模型将输出以下信息:

  • 结果:从输入文本中提取的行列表。
  • 文本:包含检测到的文本行的字符串。
  • BoundingBox:四个表示边界框的值,使用顶部和左侧位置及其宽度和高度进行描述。

限额

操作 限制 续订期
文本识别调用(每个环境) 480 60 秒

培训:使用 AI Builder 识别文本(模块)