你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是图像分析?

计算机视觉图像分析服务可以从图像中提取各种视觉特征。 例如,该服务可以确定图像是否包含成人内容、查找特定的品牌或对象,或查找人脸。

最新版本的图像分析(4.0 现为公共预览版)具有同步 OCR 和人员检测等新功能。 我们建议你继续使用此版本。

你可以通过客户端库 SDK,或者直接调用 REST API 使用图像分析。 按快速入门的说明开始使用。

或者,可以使用 Vision Studio 快速轻松地在浏览器中试用图像分析的功能。

本文档包含以下类型的文章:

  • 快速入门是分步说明,可按照其调用服务,并在短时间内获得结果。
  • 操作指南包含以更具体的方式或自定义方式使用服务的说明。
  • 概念性文章对服务的功能和特性进行了深入说明。
  • 教程是较长的指南,向你演示了如何在更广泛的业务解决方案中使用此服务作为组件。

如果需要更加结构化的方法,请遵循适用于图像分析的 Learn 模块。

图像分析功能

可以分析图像,以便提供有关视觉特性和特征的见解。 下表的所有特性均由分析图像 API 提供。 按快速入门的说明开始操作。

从图像中提取文本(预览版)

图像分析 4.0 预览版可从图像中提取文本。 与异步计算机视觉 3.2 GA 读取相比,新版本在性能增强的统一同步 API 中提供了熟悉的读取 OCR 引擎,借助该 API,可通过单个 API 操作轻松获取包括 OCR 在内的所有图像见解。 从图像中提取文本

检测图像中的人物(预览版)

图像分析 4.0 预览版可检测图像中的人物。 将返回检测到的每个人物的边界框坐标以及置信度分数。 人物检测

标记视觉特性

根据数千个可识别对象、生物、风景和操作识别并标记图像中的视觉特征。 如果标记含混不清或者不常见,API 响应会做出提示,阐明上下文或标记。 标记并不局限于主体(如前景中的人员),还包括设置(室内或室外)、家具、工具、植物、动物、附件、小配件等。 标记视觉特性

一个玩滑板的人的图像,在右侧列出了多个标记

检测物体

对象检测类似于添加标记,但 API 返回应用于每个标记的边框坐标。 例如,如果图像包含狗、猫和人,检测操作将列出这些对象及其在图像中的坐标。 可以使用此功能进一步处理图像中各对象之间的关系。 当图像中有多个相同标记的实例时,还会通知你。 检测物体

一个办公室的图像,在笔记本电脑周围绘有一个矩形

检测品牌

根据一个包含数千全球徽标的数据库,确定图像或视频中的商业品牌。 可以使用此功能来执行特定的操作,例如,发现哪些品牌在社交媒体上最受欢迎,或者哪些品牌在社交产品排名上最靠前。 检测品牌

对图像分类

使用具有父/子遗传层次结构的类别分类对整个图像进行标识和分类。 类别可单独使用或与我们的新标记模型结合使用。
目前,英语是唯一可以对图像进行标记和分类的语言。 对图像分类

描述图像

使用完整的句子,以人类可读语言生成整个图像的说明。 计算机视觉算法可根据图像中标识的对象生成各种说明。 分别对这些说明进行评估并生成置信度分数。 然后将返回置信度分数从高到低的列表。 描述图像

奶牛的图像,右侧有简单说明

检测人脸

检测图像中的人脸,提供每个检测到的人脸的相关信息。 计算机视觉返回每个检测到的人脸的坐标、矩形、性别和年龄。 检测人脸

还可以将专用人脸 API 用于这些目的。 它提供更详细的分析,如面部识别和姿势检测。

检测图像类型

检测图像特征,例如图像是否为素描,或者图像是剪贴画的可能性。 检测图像类型

检测特定于域的内容

使用域模型来检测和标识图像中特定领域的内容,例如名人和地标。 例如,如果图像中包含人物,则计算机视觉可以使用针对名人的域模型来确定图像中检测到的人物是否为已知名人。 检测特定领域的内容

检测颜色方案

分析图像中的颜色使用情况。 计算机视觉可以确定图像是黑白的还是彩色的,而对于彩色图像,又可以确定主色和主题色。 检测颜色方案

获取感兴趣区域/智能裁剪

分析图像的内容以返回与指定纵横比匹配的感兴趣区域的坐标。 计算机视觉返回该区域的边框坐标,因此,进行调用的应用程序可以根据需要修改原始图像。 生成缩略图

一个人站在山上的图像,右侧是裁剪过的版本

管理图像中的内容

可以使用计算机视觉检测图像中的成人内容,并返回不同分类的置信度分数。 可以在滑尺上设置标记内容的阈值,以适应首选项。

图像要求

图像分析可以处理符合以下要求的图像:

  • 图像必须以 JPEG、PNG、GIF 或 BMP 格式显示
  • 图像的文件大小必须不到 4 兆字节 (MB)
  • 图像的尺寸必须大于 50 x 50 像素,小于 16,000 x 16,000 像素

数据隐私和安全性

与所有认知服务一样,使用计算机视觉服务的开发人员应该了解 Microsoft 针对客户数据的政策。 请参阅 Microsoft 信任中心上的“认知服务”页面来了解详细信息。

后续步骤

参阅使用首选开发语言的快速入门指南,开始使用图像分析: