你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

OCR - 光学字符识别

光学字符识别 (OCR) 也称为文本识别或文本提取。 借助基于机器学习的 OCR 技术,可以从海报、路标和产品标签等图像,以及文章、报表、表单和发票等文档中提取印刷或手写文本。 文本通常提取为单词、文本行和段落或文本块,从而获取扫描文本的电子版。 该功能可消除或显著减少手动输入数据的需求。

智能文档处理 (IDP) 使用 OCR 作为其基础技术,通过基于机器学习的高级 AI 服务(如表单识别器)额外提取结构、关系、键值、实体和其他以文档为中心的见解。 表单识别器包含文档优化版本的“读取”作为其 OCR 引擎,同时委托给其他模型以获取更详细的见解。 如果你想要从扫描的文档和数字文档中提取文本,请使用表单识别器读取 OCR

OCR 引擎

Microsoft 的 Read OCR 引擎由多种支持全球语言的基于机器学习的高级模型组成。 因此,这些模型能够提取印刷和手写文本,包括混合语言和书写风格的文本。 “读取”作为云服务和本地容器提供,以实现部署灵活性。 在最新预览版中,它还作为同步 API 提供,适用于单一非文档仅图像方案,并提供增强的性能来更轻松地实现 OCR 辅助用户体验。

警告

计算机视觉旧式 ocrRecognizeText 操作不再受支持,请不要使用。

OCR(读取)版

重要

选择最适合你的要求的读取版本。

输入 示例 读取版本 好处
图像:常规的现实图像 标签、路标和海报 计算机视觉 v4.0 预览版 通过性能增强的同步 API 对常规非文档图像进行优化,可更轻松地在用户体验方案中嵌入 OCR。
文档:数字文档和扫描文档,包括图像 书籍、文章和报表 表单识别器 使用异步 API 对文本密集型扫描文档和数字文档进行优化,有助于大规模地自动执行智能文档处理。

关于计算机视觉 v3.2 GA 读取

正在查找最新的计算机视觉 v3.2 GA 读取? 请注意,未来的所有读取 OCR 增强功能都将属于上面列出的两项新服务。 计算机视觉 v3.2 将不再更新。 若要继续,请参阅计算机视觉 v3.2 GA 读取概述快速入门

如何使用 OCR

在 Vision Studio 中试用 OCR。 请根据自己的要求在之后的部分中参考关于 Read 版本的链接。

屏幕截图:Vision Studio 中的读取 OCR 演示。

OCR 支持的语言

目前在计算机视觉中提供的两个“读取”版本都支持多种语言的印刷和手写文本。 印刷文本的 OCR 包括对英语、法语、德语、意大利语、葡萄牙语、西班牙语、中文、日语、韩语、俄语、阿拉伯语、印地语和其他使用拉丁语、西里尔语、阿拉伯语和梵文脚本的国际语言的支持。 手写文本 OCR 包括对英语、简体中文、法语、德语、意大利语、日语、韩语、葡萄牙语和西班牙语的支持。

请参阅 OCR 支持的语言完整列表。

OCR 常用功能

读取 OCR 模型可在具有通用基线功能的计算机视觉和表单识别器中使用,同时针对相关的方案进行优化。 以下列表汇总了常用功能:

  • 提取受支持语言的印刷和手写文本
  • 具有位置和置信度分数的页面、文本行和字词
  • 支持混合语言、混合模式(打印和手写)
  • 本地部署可用的 Distroless Docker 容器

使用 OCR 云 API 或在本地部署

大多数客户都青睐云 API,因为它们易于集成,而且其现成可用的性质能够提高工作效率。 Azure 和计算机视觉服务将处理缩放、性能、数据安全与合规需求,你只需将工作重心放在满足客户需求上。

对于本地部署,可以使用读取 Docker 容器(预览版)在你自己的本地环境中部署计算机视觉 v3.2 正式版 OCR 功能。 容器非常适合用于满足特定的安全性和数据管理要求。

OCR 数据隐私和安全

与所有认知服务一样,使用计算机视觉服务的开发人员应该了解 Microsoft 针对客户数据的政策。 请参阅 Microsoft 信任中心上的“认知服务”页面来了解详细信息。

后续步骤