你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用图像和文本处理进行 AI 扩充

Azure 应用服务
Azure Blob 存储
Azure AI 搜索
Azure Functions

解决方案构想

本文是一种解决方案构想。 如果你希望我们在内容中扩充更多信息,例如潜在用例、备用服务、实现注意事项或定价指南,请通过提供 GitHub 反馈来告知我们。

本文介绍一种解决方案,该解决方案通过使用图像处理、自然语言处理和自定义技能来捕获特定领域的数据,从而扩充文本和图像文档。 具有 AI 扩充功能的 Azure 认知搜索有助于大规模识别和探索相关内容。 该解决方案使用 AI 扩充功能从原始、复杂的非结构化美国总统肯尼迪遇刺案记录(JFK 文件)数据集中提取意义。

体系结构

Diagram that shows Azure Cognitive Search architecture to convert unstructured into structured data.

下载此体系结构的 Visio 文件

数据流

上图演示了通过 Azure 认知搜索技能管道传递非结构化 JFK 文件数据集来生成结构化可索引数据的过程:

  1. Azure Blob 存储中的非结构化数据(例如文档和图像)引入到 Azure 认知搜索中。
  2. 文档破解步骤通过从数据中提取图像和文本,然后进行内容扩充,来启动索引过程。 此过程中发生的扩充步骤取决于所选技能的数据和类型。
  3. 基于计算机视觉和语言服务 API 的内置技能支持 AI 扩充功能,包括图像光学字符识别 (OCR)、图像分析、文本翻译、实体识别和全文搜索
  4. 自定义技能支持需要更复杂的 AI 模型或服务的场景。 示例包括表单识别器、Azure 机器学习模型和 Azure Functions。
  5. 在扩充过程之后,索引器将输出保存到包含扩充和索引文档的搜索索引中。 全文搜索和其他查询形式可以使用此索引。
  6. 扩充的文档还可以投影到知识存储中,知识挖掘或数据科学等下游应用可以使用该知识存储。
  7. 查询访问搜索索引中的扩充内容。 索引支持自定义分析器、模糊搜索查询、筛选器,以及对配置文件进行评分,以调整搜索相关性。
  8. 任何连接到 Blob 存储或 Azure 表存储的应用程序都可以访问知识存储。

组件

Azure 认知搜索与其他 Azure 组件一起使用来提供此解决方案。

Azure 认知搜索为该解决方案中的内容编制索引并增强用户体验。 Azure 认知搜索可以将预先构建的认知技能应用于内容,并且可扩展性机制可以为特定的扩充转换添加自定义技能

Azure 计算机视觉

Azure 计算机视觉使用文本识别从图像中提取和识别文本信息。 读取 API 使用最新的 OCR 识别模型,并针对有大量文本的大型文档和杂乱图像进行了优化。

旧版 OCR API 未针对大型文档进行优化,但支持更多语言。 OCR 的结果可能因扫描和图像质量而异。 当前解决方案构想使用 OCR 生成 hOCR 格式的数据。

适用于语言的 Azure 认知服务

适用于语言的 Azure 认知服务通过使用命名实体识别 (NER)关键短语提取全文搜索文本分析功能从非结构化文档中提取文本信息。

Azure 存储

Azure Blob 存储是基于 REST 的对象存储,用于可通过 HTTPS 随处访问的数据。 可以使用 Blob 存储向外公开数据,或者私下存储应用程序数据。 Blob 存储非常适合大量非结构化数据,例如文本或图形。

Azure 表存储在云中存储高度可用、可缩放、结构化或半结构化的 NoSQL 数据。

Azure Functions

Azure Functions 是一种无服务器计算服务,使用它可运行一小段事件触发的代码,而无需显式预配或管理基础结构。 此解决方案使用 Azure Functions 方法将 CIA 假名列表作为自定义技能应用于美国总统肯尼迪遇刺案记录。

Azure 应用服务

此解决方案构想还会在 Azure 应用服务中构建一个独立的 Web 应用,用于测试、演示、搜索索引并探索扩充和索引文档中的连接。

方案详细信息

大型非结构化数据集可以包括打印和手写笔记、照片和图表,以及标准搜索解决方案无法分析的其他非结构化数据。 美国总统肯尼迪遇刺案记录包含超过 34,000 页的文档,内容涉及 CIA 对 1963 年美国总统肯尼迪遇刺案的调查。

JFK 文件示例项目联机演示展示了特定的 Azure 认知搜索用例。 此解决方案构想并不适用于所有方案的框架或可缩放体系结构,而是提供一般准则和示例。 代码项目和演示为提取的图像创建一个公共网站和公开可读存储容器,因此不应将此解决方案用于非公共数据。

Azure 认知搜索中的 AI 扩充功能可以从图像、Blob 和其他非结构化数据源(如 JFK 文件)中提取和增强可搜索且可索引的文本。 AI 扩充使用来自认知服务计算机视觉适用于语言的认知服务 API 的预先训练的机器学习技能集。 还可创建和附加自定义技能,为领域特定的数据(如 CIA 假名)添加特殊处理。 然后,Azure 认知搜索可索引并搜索该上下文。

此解决方案中的 Azure 认知搜索技能分为下面几种类别:

  • 图像处理。 内置的文本提取图像分析技能包括对象和人脸检测、标记和标题生成,以及名人和地标识别。 这些技能创建图像内容的文本表示形式,可通过使用 Azure 认知搜索的查询功能来搜索这些内容。 文档破解是从非文本源提取或创建文本内容的过程。

  • 自然语言处理。 实体识别语言检测关键短语提取等内置技能将非结构化文本映射到索引中的可搜索和可筛选字段。

  • 自定义技能会扩展 Azure 认知搜索,对内容应用特定的扩充转换。 可以通过自定义 Web API 技能为自定义技能指定接口

可能的用例

  • 增加搜索和数据科学应用中非结构化文本和图像内容的价值和效用。
  • 使用自定义技能将开源、第三方或第一方代码集成到索引管道中。
  • 使扫描得到的 JPG、PNG 或位图文档全文可搜索。
  • 对于同时包含图像和文本的 PDF,生成比标准 PDF 文本提取更好的结果。 在 Azure 认知搜索中,某些扫描的和原生 PDF 格式可能无法正确分析。
  • 根据较大非结构化或半结构化文档中隐藏的本质上有意义的原始内容创建新信息。

作者

本文由 Microsoft 维护, 最初由以下参与者撰写。

主要作者:

若要查看非公开领英个人资料,请登录领英。

后续步骤

详细了解此解决方案:

阅读产品文档:

尝试学习路径:

请参阅相关体系结构和指南: