OpenAI GPT-4V ツールを使用すると、OpenAI の GPT-4 とビジョン (API では GPT-4V または gpt-4-vision-preview とも呼ばれます) を使用して、画像を入力として取得し、それらに関する質問に回答することができます。
重要
OpenAI GPT-4V ツールは現在パブリック プレビュー段階です。 このプレビュー版はサービス レベル アグリーメントなしで提供されています。運用環境のワークロードに使用することはお勧めできません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。
前提条件
OpenAI リソースを作成する
- OpenAI Web サイトでアカウントを作成する
- サインインして、パーソナル API キーを します。
GPT-4 API へのアクセスを取得する
ビジョンで GPT-4 を使用するには、GPT-4 API にアクセスする必要があります。 詳細については、
GPT-4 API へのアクセス方法に関するページを参照してください。
つながり
プロビジョニングされたリソースへの接続をプロンプト フローで設定します。
型 | 名前 | API KEY |
---|---|---|
OpenAI | 必須 | 必須 |
入力
Name | 種類 | 内容 | 必須 |
---|---|---|---|
connection | OpenAI | ツールで使用する OpenAI 接続。 | はい |
モデル | string | 使用する言語モデル。現在サポートされているのは gpt-4-vision-preview のみです。 | はい |
プロンプト | string | 言語モデルで応答を生成するために使うテキスト プロンプト。 このツールのプロンプトを構成するための Jinja テンプレートは、LLM ツールのチャット API と同様の構造になっています。 プロンプト内で画像入力を表すために、構文  を使用できます。 画像入力は、user 、system 、assistant メッセージで渡すことができます。 |
はい |
max_tokens | 整数 (integer) | 応答で生成するトークンの最大数。 既定値は、 OpenAI API によって決定される低い値です。 | いいえ |
温度 | float | 生成されるテキストのランダム性。 既定値は 1 です。 | いいえ |
stop | list | 生成されるテキストの停止シーケンス。 既定値は Null です。 | いいえ |
top_p | float | 生成されたトークンから一番上の選択肢を使う確率。 既定値は 1 です。 | いいえ |
presence_penalty | float | フレーズの繰り返しに関するモデルの動作を制御する値。 既定値は 0 です。 | いいえ |
frequency_penalty | float | まれなフレーズの生成に関するモデルの動作を制御する値。 既定値は 0 です。 | いいえ |
出力
返り値の種類 | 説明 |
---|---|
string | 会話の 1 つの応答のテキスト |
次のステップ
プロンプト フローで画像を処理する方法の詳細について学習します。