你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 上的图像分类

Azure Blob 存储
Azure 计算机视觉
Azure Cosmos DB
Azure 事件网格
Azure Functions

解决方案构想

本文介绍了一种解决方案构想。 云架构师可以通过本指南来帮助可视化此体系结构的典型实现的主要组件。 以本文为起点,设计一个符合工作负荷特定要求的架构合理的解决方案。

使用 Azure 服务(例如计算机视觉 API 和 Azure Functions),公司不需管理各个服务器,既减少了成本,又可充分利用 Microsoft 为 Azure AI 服务图像处理开发的专业技术。 本解决方案构想专门解决图像处理用例问题。 如果有各种不同的的 AI 需求,可以考虑全套 Azure AI 服务

体系结构

用于图像分类任务的体系结构示意图。

下载此解决方案构想的 Visio 文件

数据流

本方案涉及 Web 或移动应用程序的后端组件。 数据流经方案的情形如下所示:

  1. 在 Blob 存储中添加新文件(映像上传)会在 Azure 事件网格中触发一个事件。 上传过程可以通过 Web 或移动应用程序进行协调。 也可以单独将映像上传到 Azure Blob 存储。
  2. 事件网格发送触发 Azure Functions 的通知。
  3. Azure Functions 调用 Azure AI 视觉 API 来分析新上传的图像。 Azure AI 视觉通过 Azure Functions 分析的 Blob URL 访问图像。
  4. Azure Functions 在 Azure Cosmos DB 中保留 AI 视觉 API 响应。 此响应包括分析的结果以及图像元数据。
  5. 结果可以在 Web 或移动前端上使用并反映。 请注意,此方法检索分类的结果,但不检索上传的图像。

组件

  • Azure AI 视觉是 Azure AI 服务套件的一部分,用于检索每个图像的信息。
  • Azure Functions 为 Web 应用程序提供后端 API。 此平台还为已上传的图像提供事件处理。
  • Azure 事件网格在新图像上传到 Blob 存储时触发一个事件。 该图像然后就会通过 Azure Functions 进行处理。
  • Azure Blob 存储存储上传到 Web 应用程序中的所有图像文件,以及 Web 应用程序使用的任何静态文件。
  • Azure Cosmos DB 存储每个已上传图像的元数据,包括计算机视觉 API 的处理结果。

备选方法

  • Azure OpenAI GPT-4 Turbo with Vision(预览版)。 GPT-4 Turbo with Vision 是一种多模式模型,可以分析图像并回答有关图像的问题。
  • 自定义视觉服务。 计算机视觉 API 返回一组基于分类的类别。 若需处理不是由计算机视觉 API 返回的信息,则可考虑使用自定义视觉服务,以便生成自定义图像分类器。
  • Azure AI 搜索(以前称为 Azure 搜索)。 如果用例需要查询元数据来查找符合特定条件的图像,则可考虑使用 Azure AI 搜索。 Azure AI 搜索可无缝集成此工作流。
  • 逻辑应用。 如果不需要对添加到 Blob 的文件进行实时响应,可以考虑使用逻辑应用。 逻辑应用可以检查是否添加文件,此应用可能由重复触发器或滑动窗口触发器启动。
  • 如果文档中嵌入了图像,请使用 Azure AI 文档智能查找这些图像。 利用这些信息,就可以提取嵌入图像并对其执行进一步的计算机视觉任务。 使用文档智能收集有关这些嵌入图像的数据,例如页码或标题文本,这些文本可以与通过计算机视觉 API 接收的图像的其他元数据一起存储。

方案详细信息

本方案适用于需处理图像的企业。

可能的应用包括:对时尚网站的图像分类、分析保险索赔的文本和图像,或者理解游戏屏幕截图中的遥测数据。 传统上,公司需开发机器学习模型方面的专业技术,训练模型,最后再通过自定义过程运行图像,以便从这些图像中获取数据。

可能的用例

此解决方案非常适合零售、游戏、金融和保险业。 其他相关用例包括:

  • 对时尚网站上的图像进行分类。 在平台上上传要销售的产品的图片时,卖家可以使用图像分类。 然后,他们可以自动执行涉及的后续手动标记。 客户还可以通过对产品的视觉印象进行搜索。

  • 对游戏屏幕截图中的遥测数据进行分类。 对屏幕截图中的视频游戏的分类正在演变成与计算机视觉耦合的社交媒体中的一个相关问题。 例如,当 Twitch 主播连续玩不同的游戏时,他们可能会跳过手动更新其流信息的操作。 未能更新流信息可能会导致用户搜索中的流分类错误,并可能导致内容创建者和流式处理平台丢失潜在观众。 引入新游戏时,自定义模型路由有助于引入从这些游戏中检测新图像的功能。

  • 对保险索赔的图像进行分类。 图像分类有助于缩短索赔处理和担保的时间和成本。 它有助于分析自然灾害损坏、车辆损坏以及识别住宅和商业物业。

后续步骤

产品文档

有关引导式学习路径,请参阅:

将 AI 扩充与图像和文本处理结合使用