你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
OpenAI GPT-4V 工具使你能够将 OpenAI 的 GPT-4 与视觉(也称为 GPT-4V 或 gpt-4-vision-preview)配合使用,以将图像作为输入并回答有关它们的问题。
重要
OpenAI GPT-4V 工具目前以公共预览版提供。 此预览版没有附带服务级别协议,建议不要用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款。
先决条件
创建 OpenAI 资源
- 在 OpenAI 网站上创建帐户
- 登录并 查找个人 API 密钥。
获取对 GPT-4 API 的访问权限
若要将 GPT-4 用于视觉,需要访问 GPT-4 API。 若要了解详细信息,请参阅 如何获取对 GPT-4 API 的访问权限
Connection
在提示流中设置与预配资源的连接。
类型 | 名称 | API 密钥 |
---|---|---|
OpenAI | 必需 | 必需 |
输入
名称 | Type | 描述 | 必需 |
---|---|---|---|
连接 | OpenAI | 要用于该工具的 OpenAI 连接。 | 是 |
模型 | string | 要使用的语言模型目前仅支持 gpt-4-vision-preview。 | 是 |
prompt | string | 语言模型用于生成其响应的文本提示。 用于在此工具中撰写提示的 Jinja 模板遵循与 LLM 工具中的聊天 API 类似的结构。 若要在提示中表示图像输入,可以使用语法  。 图像输入可以在 user 、system 和 assistant 消息中传递。 |
是 |
max_tokens | 整型 | 在响应中生成的最大令牌数。 默认值是 OpenAI API 决定的低值。 | 否 |
温度 | FLOAT | 生成的文本的随机性。 默认值为 1。 | 否 |
stop | list | 生成的文本的停止序列。 默认值为 null。 | 否 |
top_p | FLOAT | 使用所生成令牌中的最高选项的概率。 默认值为 1。 | 否 |
presence_penalty | float | 控制模型在重复短语方面的行为的值。 默认为 0。 | 否 |
frequency_penalty | float | 控制模型在生成罕见短语方面的行为的值。 默认为 0。 | 否 |
输出
返回类型 | 说明 |
---|---|
string | 对话的一个响应的文本 |
下一步
详细了解如何在提示流中处理图像。