你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

将 AI 扩充与图像和文本处理结合使用

Azure 应用服务
Azure Blob 存储
Azure AI 搜索
Azure Functions

解决方案构想

本文介绍了一种解决方案构想。 云架构师可以通过本指南来帮助可视化此体系结构的典型实现的主要组件。 以本文为起点,设计一个符合工作负荷特定要求的架构合理的解决方案。

本文介绍如何使用图像处理、自然语言处理和自定义技能捕获特定于域的数据。 可以使用这些数据来扩充文本和图像文档。 将 Azure AI 搜索与 AI 扩充功能相结合有助于大规模识别和探索相关内容。 该解决方案使用 AI 扩充功能从原始、复杂的非结构化美国总统肯尼迪遇刺案记录(JFK 文件)数据集中提取意义。

体系结构

该图显示将非结构化数据转换为结构化数据的 AI 搜索体系结构。

下载此体系结构的 Visio 文件

数据流

以下数据流与上图相对应。 数据流介绍了非结构化 JFK 文件数据集如何通过 AI 搜索技能管道生成结构化和可索引的数据。

  1. Azure Blob 存储中的非结构化数据(例如文档和图像)引入到 AI 搜索中。

  2. 为了启动索引过程,文档破解步骤通过从数据中提取图像和文本,然后进行内容扩充。 此过程中发生的扩充步骤取决于所选技能的数据和类型。

  3. 基于 Azure AI 视觉和 Azure AI 语言 API 的内置技能提供 AI 扩充功能,例如图像光学字符识别 (OCR)、图像分析、文本翻译、实体识别和全文搜索。

  4. 自定义技能支持需要更复杂的 AI 模型或服务的场景。 示例包括 Azure AI 文档智能、Azure 机器学习模型和 Azure Functions。

  5. 完成扩充过程后,索引器会将扩充的文档和索引文档保存在搜索索引中。 全文搜索和其他查询形式可以使用此索引。

  6. 扩充的文档还可以导入到知识存储中,知识挖掘应用或数据科学应用等下游应用可以使用该知识存储。

  7. 查询访问搜索索引中的扩充内容。 索引支持自定义分析器、模糊搜索查询、筛选器,以及对配置文件进行评分,以调整搜索相关性。

  8. 连接到 Blob 存储或 Azure 表存储的应用程序都可以访问知识存储。

组件

此解决方案使用以下 Azure 组件。

AI 搜索为该解决方案中的内容编制索引并增强用户体验。 可以使用 AI 搜索将预生成的 AI 技能应用于内容。 可以使用扩展性机制添加提供特定扩充转换的自定义技能

Azure AI 视觉

视觉使用文本识别从图像中提取和识别文本信息。 读取 API 使用最新的 OCR 识别模型,并针对有大量文本的大型文档和杂乱图像进行了优化。

旧版 OCR API 未针对大型文档进行优化,但支持更多语言。 OCR 结果的准确性可以根据扫描和图像的质量而变化。 该解决方案使用 OCR 生成 hOCR 格式的数据。

语言

语言使用 文本分析功能(如命名实体识别关键短语提取)从非结构化文档中提取文本信息。

Azure 存储

Blob 存储是基于 REST 的对象存储,用于可通过 HTTPS 随处访问的数据。 可以使用 Blob 存储向外公开数据,或者私下存储应用程序数据。 Blob 存储非常适合大量非结构化数据,例如文本或图形。

表存储在云中存储高度可用、可缩放、结构化和半结构化的 NoSQL 数据。

Azure Functions

Functions 是一种无服务器计算服务,使用它可运行一小段事件触发的代码,而无需显式预配或管理基础结构。 此解决方案使用 Functions 方法将美国中央情报局 (CIA) 假名列表作为自定义技能应用于 JFK 文件。

Azure 应用程序服务

此解决方案还会在 Azure 应用程序服务中构建一个独立的 Web 应用,用于测试、演示和搜索索引并探索扩充和索引文档中的连接。

方案详细信息

大型非结构化数据集可以包括打印和手写笔记、照片、图表,以及标准搜索解决方案无法分析的其他非结构化数据。 JFK 文件包含超过 34,000 页的文档,内容涉及 CIA 对 1963 年美国总统肯尼迪遇刺案的调查。

你可以使用 AI 搜索中的 AI 扩充功能从图像、Blob 和其他非结构化数据源(如 JFK 文件)中提取和增强可搜索且可索引的文本。 AI 扩充使用 Azure AI 服务视觉语言 API 中的预训练机器学习技能集。 还可创建和附加自定义技能,为特定于域的数据(如 CIA 密码)添加特殊处理。 然后,AI 搜索可索引并搜索该上下文。

此解决方案中的 AI 搜索技能可分为以下几组:

  • 图像处理:此解决方案使用内置的文本提取图像分析技能,包括对象和人脸检测、标记和标题生成,以及名人和地标识别。 这些技能创建图像内容的文本表示形式,可通过使用 AI 搜索的查询功能来搜索这些内容。 文档破解是从非文本源提取或创建文本内容的过程。

  • 自然语言处理:此解决方案使用实体识别语言检测关键短语提取等内置技能将非结构化文本映射到索引中的可搜索和可筛选字段。

  • 自定义技能:此解决方案使用扩展 AI 搜索的自定义技能,将特定的扩充转换应用于内容。 可以通过自定义 Web API 技能为自定义技能指定接口

可能的用例

JFK 文件示例项目联机演示展示了特定的 AI 搜索用例。 此解决方案构想并非旨在成为适用于所有方案的框架或可缩放体系结构。 相反,此解决方案构想提供了一般准则和示例。 代码项目和演示为提取的图像创建一个公共网站和公开可读存储容器,因此不应将此解决方案用于非公共数据。

还可以使用此体系结构来:

  • 增加搜索应用和数据科学应用中非结构化文本和图像内容的价值和效用。

  • 使用自定义技能将开源代码、非 Microsoft 代码或 Microsoft 代码集成到索引管道中。

  • 使扫描得到的 JPG、PNG 或位图文档全文可搜索。

  • 对于同时包含图像和文本的 PDF,生成比标准 PDF 文本提取更好的结果。 在 AI 搜索中,某些扫描的和原生 PDF 格式可能无法正确分析。

  • 根据大型非结构化文档或半结构化文档中隐藏的本质上有意义的原始内容创建新信息。

作者

本文由 Microsoft 维护, 最初由以下参与者撰写。

主要作者:

若要查看非公开领英个人资料,请登录领英。

后续步骤

详细了解此解决方案:

阅读产品文档:

尝试学习路径: