次の方法で共有


GPT-4 Turbo with Vision の概念

GPT-4 Turbo with Vision は、OpenAI によって開発された大規模マルチモーダル モデル (LMM) であり、画像を分析し、それらに関する質問に対するテキスト応答を提供できます。 自然言語処理とビジュアル解釈の両方が組み込まれています。 このガイドでは、GPT-4 Turbo with Vision の機能と制限事項に関して詳しく説明します。

GPT-4 Turbo with Vision を試すには、クイックスタートをご参照ください。

Vision とのチャット

GPT-4 Turbo with Vision モデルは、アップロードした画像またはビデオの中に何が含まれているかについて、一般的な質問に回答します。

拡張機能

機能強化により、他の Azure AI サービス (Azure AI Vision など) を組み込んで、Vision とのチャット エクスペリエンスに新しい機能を追加することができます。

オブジェクト グラウンディング: Azure AI Vision は、入力画像内の顕著なオブジェクトを識別して検出することで、GPT-4 Turbo with Vision のテキスト応答を補完します。 これにより、このチャット モデルは画像のコンテンツについて、より正確で詳しい応答を提供することができます。

重要

Vision 拡張機能を使用するには、Computer Vision リソースが必要です。 これは有料 (S1) レベルで、GPT-4 Turbo with Vision リソースと同じ Azure リージョンにある必要があります。

オブジェクト グラウンディングが適用された画像のスクリーンショット。オブジェクトには、ラベル付きの境界ボックスがあります。

服装に関する画像プロンプトへのチャットの応答のスクリーンショット。この応答は、この画像の中に表示される衣服の項目別一覧です。

光学式文字認識 (OCR): Azure AI Vision は、高品質の OCR 結果をこのチャット モデルに補足情報として提供することで、GPT-4 Turbo with Vision を補完します。 これにより、このモデルは難解なテキストを含む画像、変換された画像、数値が多い財務ドキュメントに対して、より高品質な応答を生成することができるようになり、またこのモデルがテキスト内で認識することができる言語の多様性が向上します。

重要

Vision 拡張機能を使用するには、Computer Vision リソースが必要です。 これは有料 (S1) レベルで、GPT-4 Turbo with Vision リソースと同じ Azure リージョンにある必要があります。

複数の領収書の写真。

OCR 呼び出しの JSON 応答のスクリーンショット。

ビデオ プロンプト: ビデオ プロンプトの拡張機能により、AI チャットの入力としてビデオ クリップを使用し、このモデルでビデオ コンテンツについての概要と回答を生成することができます。 ビデオ プロンプトは Azure AI Vision ビデオ検索を使用して、ビデオから一連のフレームをサンプリングし、ビデオ内のスピーチの音声テキストを作成します。

Note

ビデオ プロンプト拡張機能を使用するには、Azure OpenAI リソースに加え、有料 (S1) レベルでは Azure AI Vision リソースの両方が必要です。

特別価格情報

重要

価格の詳細は、今後変更される可能性があります。

GPT-4 Turbo with Vision では、他の Azure OpenAI チャット モデルと同様に料金が発生します。 価格ページ上で詳しく説明されているように、プロンプトと入力候補に対してトークンごとに料金を支払います。 基本料金と追加機能の概要を次に示します。

GPT-4 Turbo with Vision の基本価格は次のとおりです。

  • 入力: 1000 トークンあたり $0.01
  • 出力: 1000 トークンあたり $0.03

テキストと画像をトークンに変換する方法については、概要の「トークン」セクションをご参照ください。

拡張機能を有効にすると、Azure AI Vision 機能で Vision で GPT-4 Turbo を使用する場合に追加の使用が適用されます。

モデル 価格
+ OCR 用の拡張アドオン機能 1.5 ドル/1,000 トランザクション
+ 物体検出用の拡張アドオン機能 1.5 ドル/1,000 トランザクション
+ “Video Retrieval” 統合 1 のための拡張アドオン機能 インジェスト: ビデオの 1 分あたり $0.05
トランザクション: ビデオ検索インデックスの 1,000 クエリあたり $0.25

1 ビデオの処理は、解析用のキー フレームを特定するために、追加トークンの使用を伴います。 これらの追加トークンの数は、テキスト入力内のトークンの合計に 700 トークンを加えた値とほぼ同等になります。

イメージ価格計算例

重要

次のコンテンツはただの一例であり、価格は将来変更される可能性があります。

一般的なユース ケースとして、表示されるオブジェクトとテキストの両方と 100 トークンのプロンプト入力を含むイメージを取り上げます。 サービスでプロンプトが処理されると、100 個の出力トークンが生成されます。 イメージでは、テキストとオブジェクトの両方を検出できます。 このトランザクションの価格は次のようになります。

項目 詳細 コスト
テキスト プロンプトの入力 100 個のテキスト トークン $0.001
画像入力の例 (「画像トークン」を参照) 170 + 85 個の画像トークン $0.00255
OCR 用の拡張アドオン機能 1.50 ドル/1,000 トランザクション 0.0015 ドル
オブジェクト グラウンディング用の拡張アドオン機能 1.50 ドル/1,000 トランザクション 0.0015 ドル
出力トークン 100 個のトークン (想定) $0.003
合計 $0.00955

ビデオ価格計算例

重要

次のコンテンツはただの一例であり、価格は将来変更される可能性があります。

一般的なユース ケースの場合は、3 分間のビデオに 100 トークンのプロンプト入力を使用します。 このビデオには 100 トークンの長さの音声テキストがあり、このサービスがこのプロンプトを処理すると、100 出力トークンが生成されます。 このトランザクションの価格は次のようになります。

項目 詳細 コスト
GPT-4 Turbo with Vision 入力トークン 100 個のテキスト トークン $0.001
フレームを識別するための追加コスト 100 入力トークン + 700 トークン + 1 ビデオ検索トランザクション $0.00825
画像入力とトランスクリプト入力 20 個の画像 (それぞれ 85 個のトークン) + 100 個のトランスクリプト トークン $0.018
出力トークン 100 個のトークン (想定) $0.003
合計 $0.03025

また、この 3 分間のビデオのビデオ検索インデックスを生成するために、$0.15 の 1 回限りのインデックス作成コストがかかります。 このインデックスは、任意の回数のビデオ検索と GPT-4 Turbo with Vision API 呼び出しで再利用することができます。

制限事項

このセクションでは、GPT-4 Turbo with Vision の制限事項について説明します。

画像のサポート

  • チャット セッションごとの画像の機能強化に関する制限事項: 1 回のチャット呼び出し内で複数の画像に拡張機能を適用することはできません。
  • 最大入力画像サイズ: 入力画像の最大サイズは 20 MB に制限されます。
  • 拡張 API でのオブジェクト グラウンディング: オブジェクト グラウンディングに拡張 API を使用する場合に、モデルによってオブジェクトの重複が検出されると、それぞれに別個の境界ボックスとラベルではなく、すべての重複に対して 1 つのものが生成されます。
  • 低解像度の正確性: "低解像度" 設定を使用して画像を分析すると、応答を高速にして、特定のユース ケースに使用する入力トークンを減らすことができます。 ただし、これは、画像内のオブジェクトとテキスト認識の正確性に影響する可能性があります。
  • 画像チャットの制限: Azure OpenAI Studio または API 内で画像をアップロードする場合、チャットの呼び出しごとに 10 画像の制限があります。

ビデオのサポート

  • 低解像度: ビデオ フレームは、GPT-4 Turbo with Vision の "低解像度" 設定を使用して分析されます。これは、ビデオ内の小さなオブジェクトとテキスト認識の正確性に影響を与える可能性があります。
  • ビデオ ファイルの制限: MP4 と MOV の両方のファイルの種類がサポートされています。 Azure OpenAI Studio 内では、ビデオの長さは 3 分間未満にする必要があります。 API を使用する場合、このような制限はありません。
  • プロンプトの制限: ビデオ プロンプトに含まれるビデオは 1 つだけで、画像はありません。 Azure OpenAI Studio 内では、セッションをクリアして別のビデオまたは画像を試すことができます。
  • 限られたフレームの選択: サービスではビデオ全体から 20 フレームを選択します。これでは、重要なすべての瞬間や詳細がキャプチャされない場合があります。 フレームの選択は、プロンプトに応じて、ビデオ全体にほぼ均等に分散するか、特定のビデオ検索クエリでフォーカスすることができます。
  • 言語のサポート: サービスでは主に、トランスクリプトを使用したグラウディングに英語がサポートされています。 トランスクリプトでは、曲の歌詞に関する正確な情報を提供しません。

次のステップ