你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
GPT-4 Turbo with Vision 概念
GPT-4 Turbo with Vision 是 OpenAI 开发的一个大型多模态模型 (LMM),可以分析图像,并为有关图像的问题提供文本回应。 它结合了自然语言处理和视觉理解。 本指南详细介绍 GPT-4 Turbo with Vision 的功能和限制。
若要试用 GPT-4 Turbo with Vision,请参阅快速入门。
具有视觉的聊天
GPT-4 Turbo with Vision 可以回答上传的图像和视频内容的相关问题。
特殊定价信息
重要
定价详细信息将来可能会发生变化。
GPT-4 Turbo with Vision 与其他 Azure OpenAI 聊天模型一样会产生费用。 提示和完成需按令牌付费,详见定价页。 基本费用和附加功能如下所述:
GPT-4 Turbo with Vision 的基本定价为:
- 输入:每 1000 个令牌 0.01 USDX
- 输出:每 1000 个令牌 0.03 USDX
有关文本和图像如何转换为令牌的信息,请参阅概述的“令牌”部分。
图像价格计算示例
重要
以下内容只是一个示例,价格将来可能会发生变化。
对于典型用例,使用可见对象和文本以及 100 令牌提示输入拍摄图像。 当服务处理提示时,它会生成 100 个输出令牌。 在图像中,可以检测文本和对象。 此事务的价格为:
项 | 详细信息 | 成本 |
---|---|---|
文本提示输入 | 100 个文本令牌 | $0.001 |
图像输入示例(请参阅图像标记) | 170 + 85 个图像标记 | $0.00255 |
用于 OCR 的增强加载项功能 | 每 1000 个事务 1.5 美元 | $0.0015 |
对象地面的增强加载项功能 | 每 1000 个事务 1.5 美元 | $0.0015 |
输出令牌 | 100 个令牌(假定) | 0.003 USDX |
总计 | $0.00955 |
视频价格计算示例
重要
以下内容只是一个示例,价格将来可能会发生变化。
典型用例使用 100 个令牌提示输入和 3 分钟的视频。 视频的脚本长度为 100 个令牌,当服务处理提示时,它将生成 100 个输出令牌。 此事务的定价如下:
项 | 详细信息 | 成本 |
---|---|---|
GPT-4 Turbo with Vision 输入令牌 | 100 个文本令牌 | $0.001 |
用于确定帧的附加成本 | 100 个输入令牌 + 700 个令牌 + 1 个视频检索事务 | 0.00825 USDX |
图像输入和脚本输入 | 20 个图像(每个图像 85 个令牌) + 100 个脚本令牌 | 0.018 USDX |
输出令牌 | 100 个令牌(假定) | 0.003 USDX |
总计 | 0.03025 USDX |
此外,还有 0.15 美元的一次性索引成本,用于为此 3 分钟的视频生成视频检索索引。 可以跨任意数量的视频检索和 GPT-4 Turbo with Vision API 调用重复使用此索引。
输入限制
本部分介绍 GPT-4 Turbo with Vision 的限制。
图像支持
- “最大输入图像大小”:输入图像的最大大小限制为 20 MB。
- “低分辨率准确度”:使用“低分辨率”设置分析图像可以加快响应速度,且某些用例使用的输入令牌更少。 但是,这可能会影响对图像对象和文本识别的准确性。
- 图像聊天限制:在 Azure AI Studio 或 API 中上传图像时,每个聊天通话的限制为 10 个图像。
视频支持
- “低分辨率”:使用 GPT-4 Turbo with Vision 的“低分辨率”设置来分析视频帧可能会影响对视频中小对象和文本识别的准确性。
- “视频文件限制”:支持 MP4 和 MOV 文件类型。 在 Azure AI Studio 中,视频长度必须小于 3 分钟。 使用 API 时没有此类限制。
- 提示限制:视频提示仅包含一个视频,不包含图像。 可以在 Azure AI Studio 中清除会话,输入其他视频或图像。
- “有限的帧选择”:目前服务从整个视频中选择 20 帧,这可能无法捕获所有关键时刻或细节。 帧选择可以大致均匀地分布在整个视频中,也可以通过特定的视频检索查询集中选择,具体取决于提示。
- “语言支持”:目前,系统主要支持英语以进行脚本定位。 脚本不提供有关歌词的准确信息。
后续步骤
- 按照快速入门操作,开始使用 GPT-4 Turbo with Vision。
- 若要更深入地了解 API,并在聊天中使用视频提示,请遵循操作指南。
- 请参阅完成和嵌入 API 参考