你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

图像描述文字(版本 4.0)

Image Analysis 4.0 的图像描述文字可通过“描述文字”和“密集描述文字”功能实现

“描述文字”功能可为所有图像内容生成一句话的说明。 “密集描述文字”除了描述整个图像之外,还可以为图像中最多 10 个不同区域各生成一句话说明,从而提供更多详细信息。 密集描述文字还将返回所描述图像区域的边界框坐标。 这两项功能都使用了最新的基于 Florence 的 AI 模型。

图像描述文字仅提供英语版。

重要

图像分析 4.0 中的图像说明仅在某些 Azure 数据中心区域中可用:请参阅区域可用性。 必须使用位于其中一个区域的 Azure AI 视觉资源,才能从“描述文字”和“密集描述文字”功能中获取结果。

如果需要使用在这些区域之外的视觉资源来生成图像描述文字,请使用在所有 Azure AI 视觉区域中都可用的图像分析 3.2

使用 Vision Studio 快速轻松地在浏览器中试用图像字幕功能。

性别中立的描述文字

默认情况下,描述文字包含性别词(“男人”、“女人”、“男孩”、“女孩”)。 可以选择在结果中将这些字词替换为“人”,并接收性别中立的描述文字。 为此,可以在请求 URL 中将可选 API 请求参数 gender-neutral-caption 设置为 true

“文字描述”和“密集文字描述”示例

以下 JSON 响应展示了图像分析 4.0 API 在基于视觉特征对示例图像进行描述时返回的内容。

一位男士手指着屏幕的照片

"captions": [
    {
        "text": "a man pointing at a screen",
        "confidence": 0.4891590476036072
    }
]

使用 API

图像文字描述功能属于分析图像 API。 将 Caption 包括在 features 查询参数中。 然后,在获取完整 JSON 响应时,请分析 "captionResult" 部分内容的字符串。

后续步骤