Azure AI 视觉入门

已完成

计算机系统处理书面和印刷文本的能力是 AI 中涉及计算机视觉与自然语言处理的一个交叉领域。 视觉功能需要“读取”文本,然后自然语言处理功能可以理解文本。

OCR 是处理图像中的文本的基础,并使用经过训练的机器学习模型将各个形状识别为字母、数字、标点符号或其他文本元素。 实现这种功能的早期工作大部分是由邮政服务完成,用于支持基于邮政编码的邮件自动分类。 从那时起,阅读文本的先进技术实现了向前发展,我们拥有了检测图像中的打印或手写文本并逐行和逐字进行阅读的模型。

A screenshot of an envelope showing a handwritten address with typed text next to it.

Azure AI 视觉的 OCR 引擎

Azure AI 视觉服务能够从图像中提取计算机可读文本。 Azure AI 视觉的读取 API 是支持从图像、PDF 和 TIFF 文件提取文本的 OCR 引擎。 针对图像的 OCR 针对常规的非文档图像进行了优化,因此可更轻松地在用户体验方案中嵌入 OCR。

读取 API(也称为“读取 OCR 引擎”)使用了最新的识别模型,并且针对具有大量文本或具有相当视觉干扰的图像进行了优化。 它可以自动确定正确的识别模型,以考虑文本行数、包含文本的图像以及手写字体。

OCR 引擎将接收图像文件并识别图像中各项所在的边界框或坐标。 在 OCR 中,模型将识别图像中可能为文本的任何内容周围的边界框。

调用读取 API 时将返回排列为以下层次结构的结果:

  • 页数 - 每页文本一个,包括页面大小和方向信息。
  • 行数 - 一个页面上的文本行数。
  • 文字数 - 一行文本的文字数,包括边界框和文本自身。

每行和每个文字都包含指示其页面位置的边界框坐标。

A screenshot showing bounding boxes around the page, line, and word of a letter.