你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

GPT-4 Turbo with Vision 概念

GPT-4 Turbo with Vision 是 OpenAI 开发的一个大型多模态模型 (LMM),可以分析图像,并为有关图像的问题提供文本回应。 它结合了自然语言处理和视觉理解。 本指南详细介绍 GPT-4 Turbo with Vision 的功能和限制。

若要试用 GPT-4 Turbo with Vision,请参阅快速入门

具有视觉的聊天

GPT-4 Turbo with Vision 可以回答上传的图像和视频内容的相关问题。

增强功能

通过增强功能,可以整合其他 Azure AI 服务(如 Azure AI 视觉),向聊天视觉体验添加新功能。

对象基础:Azure AI 视觉通过识别和定位输入图像中的突出对象来补充 GPT-4 Turbo with Vision 的文本响应。 这使聊天模型可以更准确、更详细地响应图像的内容。

重要

若要使用视觉增强功能,需要计算机视觉资源。 它必须位于付费 (S1) 层,并且位于具有视觉的 GPT-4 Turbo 资源所在的 Azure 区域。

Screenshot of an image with object grounding applied. Objects have bounding boxes with labels.

Screenshot of a chat response to an image prompt about an outfit. The response is an itemized list of clothing items seen in the image.

光学字符识别(OCR):Azure AI 视觉通过提供高质量的 OCR 结果作为聊天模型的补充信息,补充 GPT-4 Turbo with Vision。 它使模型能够为具有密集文本的图像、转换的图像和有大量数字的财务文档生成更高质量的响应,并增加了模型可以在文本中识别的语言数量。

重要

若要使用视觉增强功能,需要计算机视觉资源。 它必须位于付费 (S1) 层,并且位于具有视觉的 GPT-4 Turbo 资源所在的 Azure 区域。

Photo of several receipts.

Screenshot of the JSON response of an OCR call.

视频提示:“视频提示”增强功能允许你将视频剪辑用作 AI 聊天的输入,使模型能够生成有关视频内容的摘要和回答。 它使用 Azure AI 视觉视频检索对视频中的一组帧进行采样,并创建视频中语音的转录。

注意

要使用视频提示增强功能,除了 Azure OpenAI 资源之外,还需要付费 (S1) 层中的 Azure AI 视觉资源。

特殊定价信息

重要

定价详细信息将来可能会发生变化。

GPT-4 Turbo with Vision 与其他 Azure OpenAI 聊天模型一样会产生费用。 提示和完成需按令牌付费,详见定价页。 基本费用和附加功能如下所述:

GPT-4 Turbo with Vision 的基本定价为:

  • 输入:每 1000 个令牌 0.01 USDX
  • 输出:每 1000 个令牌 0.03 USDX

有关文本和图像如何转换为令牌的信息,请参阅概述的“令牌”部分

如果启用增强功能,则其他用法适用于将 GPT-4 Turbo 与视觉与 Azure AI 视觉功能配合使用。

模型 价格
+ 用于 OCR 的增强加载项功能 每 1000 个事务 1.5 美元
+ 用于对象检测的增强加载项功能 每 1000 个事务 1.5 美元
+ 用于“添加图像”图像嵌入的增强加载项功能 每 1000 个事务 1.5 美元
+ 用于“视频检索”集成的增强加载项功能1 引入:每分钟视频 0.05 USDX
事务:每 1000 个视频检索索引的 1000 个查询 0.25 USDX

1 处理视频需要使用额外的令牌确定关键帧以供分析。 这些附加令牌的数量大致等于文本输入中令牌的总和加上 700 个令牌。

图像价格计算示例

重要

以下内容只是一个示例,价格将来可能会发生变化。

对于典型用例,使用可见对象和文本以及 100 令牌提示输入拍摄图像。 当服务处理提示时,它会生成 100 个输出令牌。 在图像中,可以检测文本和对象。 此事务的价格为:

详细信息 总成本
GPT-4 Turbo with Vision 输入令牌 100 个文本令牌 $0.001
用于 OCR 的增强加载项功能 每 1000 个事务 1.5 美元 $0.0015
对象地面的增强加载项功能 每 1000 个事务 1.5 美元 $0.0015
输出令牌 100 个令牌(假定) 0.003 USDX
总成本 0\.007 美元

视频价格计算示例

重要

以下内容只是一个示例,价格将来可能会发生变化。

典型用例使用 100 个令牌提示输入和 3 分钟的视频。 视频的脚本长度为 100 个令牌,当服务处理提示时,它将生成 100 个输出令牌。 此事务的定价如下:

详细信息 总成本
GPT-4 Turbo with Vision 输入令牌 100 个文本令牌 $0.001
用于确定帧的附加成本 100 个输入令牌 + 700 个令牌 + 1 个视频检索事务 0.00825 USDX
图像输入和脚本输入 20 个图像(每个图像 85 个令牌) + 100 个脚本令牌 0.018 USDX
输出令牌 100 个令牌(假定) 0.003 USDX
总成本 0.03025 USDX

此外,还有 0.15 美元的一次性索引成本,用于为此 3 分钟的视频生成视频检索索引。 可以跨任意数量的视频检索和 GPT-4 Turbo with Vision API 调用重复使用此索引。

限制

本部分介绍 GPT-4 Turbo with Vision 的限制。

图像支持

  • “每个聊天会话的图像增强限制”:无法对单个聊天调用中的多个图像应用增强功能。
  • “最大输入图像大小”:输入图像的最大大小限制为 20 MB。
  • “增强 API 中的对象定位”:当增强 API 用于对象定位时,模型会检测对象重复项,它将为所有重复项生成一个边界框和标签,而不是为每个重复项生成单独的边界框和标签。
  • “低分辨率准确度”:使用“低分辨率”设置分析图像可以加快响应速度,且某些用例使用的输入令牌更少。 但是,这可能会影响对图像对象和文本识别的准确性。
  • 图像聊天限制:在 Azure OpenAI Studio 或 API 中上传图像时,每个聊天调用的限制为 10 个图像。

视频支持

  • “低分辨率”:使用 GPT-4 Turbo with Vision 的“低分辨率”设置来分析视频帧可能会影响对视频中小对象和文本识别的准确性。
  • “视频文件限制”:支持 MP4 和 MOV 文件类型。 在 Azure OpenAI Studio 中,视频长度必须小于 3 分钟。 使用 API 时没有此类限制。
  • 提示限制:视频提示仅包含一个视频,不包含图像。 可以在 Azure OpenAI Studio 中清除会话,输入其他视频或图像。
  • “有限的帧选择”:目前服务从整个视频中选择 20 帧,这可能无法捕获所有关键时刻或细节。 帧选择可以大致均匀地分布在整个视频中,也可以通过特定的视频检索查询集中选择,具体取决于提示。
  • “语言支持”:目前,系统主要支持英语以进行脚本定位。 脚本不提供有关歌词的准确信息。

后续步骤