本文演示一种从图像中提取文本,以便可以在 SharePoint 中为这些文本编制索引和检索它们的解决方案。 使用 AI Builder 和 Azure AI 文档智能,可以配置 Power Automate 工作流以使用经过训练的模型从图像中提取文本。 配置工作流后,可以在文档中快速搜索嵌入在形状和对象中的有意义文本。
体系结构
下载此体系结构的 Visio 文件。
工作流
- 在 AI Builder 中训练一个对象检测模型,以识别用户指定的对象。
- 新文档进入 SharePoint 文档库、OneDrive 或 Teams。
- 该文档的到达会触发一个 Power Automate 事件。 该事件:
- 运行 AI Builder 模型。 AI Builder 返回一个 JSON 文件,其中包含任何指定对象的像素坐标。
- 将文档发送到文档智能,以进行完整的光学字符识别 (OCR) 扫描。 文档智能返回一个 JSON 文件,其中包含扫描的文本以及文本的像素坐标。
- 在 Azure Functions 中运行一个函数。 该函数分析 AI Builder 和文档智能输出文件中的像素坐标。 如果检测到的对象与扫描的文本相交,该函数将在 JSON 文件中返回匹配的数据。
- 将检测到的对象中的元数据或文本输入到文档库中。
- 元数据在 SharePoint 搜索索引中捕获。
- 用户使用 PnP Modern Search Web 部件搜索元数据。
组件
- AI Builder 是 Microsoft Power Platform 的一项功能。 使用 AI Builder 可以训练模型以识别图像中的对象。 AI Builder 还提供用于进行对象检测的预生成模型。
- 表单识别器使用机器学习模型从文档中提取和分析表单域、文本和表。
- Power Automate 是 Microsoft Power Platform 无代码或低代码直观解决方案的一部分。 Power Automate 是一个联机工作流服务,可以自动完成各种应用和服务的操作。
- Azure Functions 是事件驱动的无服务器计算平台。 Azure Functions 在云中按需大规模运行。
- PnP Modern Search 解决方案是 Microsoft 365 新式 Web 部件中的一组 SharePoint。 使用这些工具,可以创建高度灵活且个性化的基于搜索的体验。
备选方法
- Azure AI 服务可对文档执行完整的 OCR 扫描,并将生成的元数据存储在 SharePoint 中。
- SharePoint 可对文档运行 OCR 扫描,并将内容输出添加到索引以供检索。 使用搜索技术可以定位文档中的关键信息。
- 若要处理较大比率的文档,请考虑使用 Azure 逻辑应用来配置组件。 Azure 逻辑应用可以避免达到租户中的消耗量限制,并且经济高效。 有关详细信息,请参阅 Azure 逻辑应用。
方案详细信息
原理图和工业示意图往往显示包含文本的对象。 手动扫描文档中的相关文本可能既费力又耗时。
可能的用例
用例包括:
- 包含各种对象类型的复杂工程原理图。 使用此解决方案,可以快速搜索示意图中的特定组件。 能够访问对象中嵌入的文本将有助于调查、揭露缺陷或查看召回和故障通知。
- 显示制造装配组件的工业示意图。 此解决方案可以迅速识别泵、阀门、自动开关和其他组件。 识别组件有助于执行预防性维护、隔离危险组件,并提高组织中风险管理的可见性。
注意事项
这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改善工作负荷质量的指导原则。 有关详细信息,请参阅 Microsoft Azure 架构良好的框架。
分析和处理文档时请考虑以下几点:
- AI Builder 只能在使用已训练的模型时捕获四方形坐标。 文本在其边界范围之外的对象(例如三角形和圆形)可能会添加无用和不必要的信息。
- 如果文本在对象的边界范围之外,则从 Azure Functions 输出的元数据可能包含额外的字符。
- AI Builder 创建过程可以标记多个对象。 Azure Functions 生成的 JSON 文件包含所有对象类型和文本。 应用程序使用元数据并需要分析和处理结果。
可用性
Azure 复制数据以确保持久性和高可用性。 数据冗余能使你免受计划内和计划外事件的影响,这些事件包括暂时硬件故障、网络或电力中断,以及自然灾害。 选择在同一数据中心中、跨同一区域中的局域数据中心或跨地理上隔离的区域复制数据。
伸缩性
Azure Functions 高度可缩放。 此平台提供多个计划,在触发事件时,这些计划可按需自动缩放。 有关详细信息,请参阅事件驱动的缩放。
Azure Functions 限制为 200 个实例。 如果所需规模超出此限制,请添加多个区域或应用计划。
安全性
安全性针对蓄意攻击及滥用宝贵数据和系统提供保障措施。 有关详细信息,请参阅安全性支柱概述。
对所用的组件和用于存储元数据的 SharePoint 文档库使用标准安全做法。
文档智能在设计时考虑了合规性、隐私和安全性。 它使用 API 密钥对访问进行身份验证,在传输和存储过程中加密数据,并使用 API 密钥返回结果。 有关详细信息,请参阅表单识别器的数据、隐私和安全。
AI Builder 依赖于环境安全性,并依赖于使用 Dataverse 安全角色和特权来授予对 Power Apps 中的 AI 功能的访问权限。 Dataverse 中默认设置了特权。 系统管理员无需执行进一步的操作即可使用默认的内置安全角色。 有关详细信息,请参阅安全概述。
成本优化
成本优化是关于寻找减少不必要的费用和提高运营效率的方法。 有关详细信息,请参阅成本优化支柱概述。
- 对于 Power Automate,请确保购买和分配的许可证足以处理你的文档数量。 包含一个用于调用文档智能和 Azure Functions 的 HTTP 高级连接器。
- 根据预期的模型使用量购买 AI Builder 额度。
- 若要估算 Azure 产品和配置的成本,请使用 Azure 定价计算器。
部署此方案
有关部署此方案的详细信息,请参阅 Power Automate 社区博客和从对象中提取文本 GitHub 存储库。
作者
本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。
首席作者:
- Steve Pucelik | 高级专家
后续步骤
- 了解非常适合此解决方案的文档类型。 典型的文档包括原理图、制造控制过程,以及包含许多需要隔离的形状的示意图。 有关详细信息,请参阅表单识别器模型。
- 熟悉 AI Builder 提供的功能。 有关详细信息,请参阅 Power Automate 中的 AI Builder 概述。
- 定义可以接收和处理元数据的信息体系结构。 有关详细信息,请参阅认知搜索技能组。
- 有关该解决方案的工作原理及其是否适合你的用例的信息,请参阅从对象中提取文本。