你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
GPT-4 Turbo with Vision 概念
GPT-4 Turbo with Vision 是 OpenAI 开发的一个大型多模态模型 (LMM),可以分析图像,并为有关图像的问题提供文本回应。 它结合了自然语言处理和视觉理解。 本指南详细介绍 GPT-4 Turbo with Vision 的功能和限制。
若要试用 GPT-4 Turbo with Vision,请参阅快速入门。
具有视觉的聊天
GPT-4 Turbo with Vision 可以回答上传的图像和视频内容的相关问题。
增强功能
通过增强功能,可以整合其他 Azure AI 服务(如 Azure AI 视觉),向聊天视觉体验添加新功能。
对象基础:Azure AI 视觉通过识别和定位输入图像中的突出对象来补充 GPT-4 Turbo with Vision 的文本响应。 这使聊天模型可以更准确、更详细地响应图像的内容。
重要
若要使用视觉增强功能,需要计算机视觉资源。 它必须位于付费 (S1) 层,并且位于具有视觉的 GPT-4 Turbo 资源所在的 Azure 区域。
光学字符识别(OCR):Azure AI 视觉通过提供高质量的 OCR 结果作为聊天模型的补充信息,补充 GPT-4 Turbo with Vision。 它使模型能够为具有密集文本的图像、转换的图像和有大量数字的财务文档生成更高质量的响应,并增加了模型可以在文本中识别的语言数量。
重要
若要使用视觉增强功能,需要计算机视觉资源。 它必须位于付费 (S1) 层,并且位于具有视觉的 GPT-4 Turbo 资源所在的 Azure 区域。
视频提示:“视频提示”增强功能允许你将视频剪辑用作 AI 聊天的输入,使模型能够生成有关视频内容的摘要和回答。 它使用 Azure AI 视觉视频检索对视频中的一组帧进行采样,并创建视频中语音的转录。
注意
要使用视频提示增强功能,除了 Azure OpenAI 资源之外,还需要付费 (S1) 层中的 Azure AI 视觉资源。
特殊定价信息
重要
定价详细信息将来可能会发生变化。
GPT-4 Turbo with Vision 与其他 Azure OpenAI 聊天模型一样会产生费用。 提示和完成需按令牌付费,详见定价页。 基本费用和附加功能如下所述:
GPT-4 Turbo with Vision 的基本定价为:
- 输入:每 1000 个令牌 0.01 USDX
- 输出:每 1000 个令牌 0.03 USDX
有关文本和图像如何转换为令牌的信息,请参阅概述的“令牌”部分。
如果启用增强功能,则其他用法适用于将 GPT-4 Turbo 与视觉与 Azure AI 视觉功能配合使用。
模型 | 价格 |
---|---|
+ 用于 OCR 的增强加载项功能 | 每 1000 个事务 1.5 美元 |
+ 用于对象检测的增强加载项功能 | 每 1000 个事务 1.5 美元 |
+ 用于“添加图像”图像嵌入的增强加载项功能 | 每 1000 个事务 1.5 美元 |
+ 用于“视频检索”集成的增强加载项功能1 | 引入:每分钟视频 0.05 USDX 事务:每 1000 个视频检索索引的 1000 个查询 0.25 USDX |
1 处理视频需要使用额外的令牌确定关键帧以供分析。 这些附加令牌的数量大致等于文本输入中令牌的总和加上 700 个令牌。
图像价格计算示例
重要
以下内容只是一个示例,价格将来可能会发生变化。
对于典型用例,使用可见对象和文本以及 100 令牌提示输入拍摄图像。 当服务处理提示时,它会生成 100 个输出令牌。 在图像中,可以检测文本和对象。 此事务的价格为:
项 | 详细信息 | 总成本 |
---|---|---|
GPT-4 Turbo with Vision 输入令牌 | 100 个文本令牌 | $0.001 |
用于 OCR 的增强加载项功能 | 每 1000 个事务 1.5 美元 | $0.0015 |
对象地面的增强加载项功能 | 每 1000 个事务 1.5 美元 | $0.0015 |
输出令牌 | 100 个令牌(假定) | 0.003 USDX |
总成本 | 0\.007 美元 |
视频价格计算示例
重要
以下内容只是一个示例,价格将来可能会发生变化。
典型用例使用 100 个令牌提示输入和 3 分钟的视频。 视频的脚本长度为 100 个令牌,当服务处理提示时,它将生成 100 个输出令牌。 此事务的定价如下:
项 | 详细信息 | 总成本 |
---|---|---|
GPT-4 Turbo with Vision 输入令牌 | 100 个文本令牌 | $0.001 |
用于确定帧的附加成本 | 100 个输入令牌 + 700 个令牌 + 1 个视频检索事务 | 0.00825 USDX |
图像输入和脚本输入 | 20 个图像(每个图像 85 个令牌) + 100 个脚本令牌 | 0.018 USDX |
输出令牌 | 100 个令牌(假定) | 0.003 USDX |
总成本 | 0.03025 USDX |
此外,还有 0.15 美元的一次性索引成本,用于为此 3 分钟的视频生成视频检索索引。 可以跨任意数量的视频检索和 GPT-4 Turbo with Vision API 调用重复使用此索引。
限制
本部分介绍 GPT-4 Turbo with Vision 的限制。
图像支持
- “每个聊天会话的图像增强限制”:无法对单个聊天调用中的多个图像应用增强功能。
- “最大输入图像大小”:输入图像的最大大小限制为 20 MB。
- “增强 API 中的对象定位”:当增强 API 用于对象定位时,模型会检测对象重复项,它将为所有重复项生成一个边界框和标签,而不是为每个重复项生成单独的边界框和标签。
- “低分辨率准确度”:使用“低分辨率”设置分析图像可以加快响应速度,且某些用例使用的输入令牌更少。 但是,这可能会影响对图像对象和文本识别的准确性。
- 图像聊天限制:在 Azure OpenAI Studio 或 API 中上传图像时,每个聊天调用的限制为 10 个图像。
视频支持
- “低分辨率”:使用 GPT-4 Turbo with Vision 的“低分辨率”设置来分析视频帧可能会影响对视频中小对象和文本识别的准确性。
- “视频文件限制”:支持 MP4 和 MOV 文件类型。 在 Azure OpenAI Studio 中,视频长度必须小于 3 分钟。 使用 API 时没有此类限制。
- 提示限制:视频提示仅包含一个视频,不包含图像。 可以在 Azure OpenAI Studio 中清除会话,输入其他视频或图像。
- “有限的帧选择”:目前服务从整个视频中选择 20 帧,这可能无法捕获所有关键时刻或细节。 帧选择可以大致均匀地分布在整个视频中,也可以通过特定的视频检索查询集中选择,具体取决于提示。
- “语言支持”:目前,系统主要支持英语以进行脚本定位。 脚本不提供有关歌词的准确信息。
后续步骤
- 按照快速入门操作,开始使用 GPT-4 Turbo with Vision。
- 若要更深入地了解 API,并在聊天中使用视频提示,请遵循操作指南。
- 请参阅完成和嵌入 API 参考