次の方法で共有


画像プロンプト エンジニアリングの手法

GPT-4 Turbo with Vision の可能性を最大限に引き出すには、特定のニーズに合わせたプロンプトの調整が不可欠です。 次に、プロンプトの正確性と効率を高めるためのガイドラインをいくつか示します。

画像プロンプト作成の基礎

  • コンテキストの特異性: 手元のシナリオにコンテキストを追加すると、適切な出力についてのより良い解釈をモデルに提供できます。 このレベルの特異性は、関連する側面に焦点を当て、また、無関係な詳細を回避する上で役立ちます。

  • タスク指向のプロンプト: 特定のタスクに焦点を当てると、そのパースペクティブを考慮しながらモデルが出力を開発するために役立ちます。

  • 拒否の処理: モデルでタスクを実行することが不能な場合、プロンプトの改良が、効果的な解決策になる可能性があります。 より具体的なプロンプトは、タスクに関するより明確な解釈と、その実行の改善に向けてモデルをガイドできます。 留意すべきいくつかのヒント:

    • モデルの出力の透明性を高めるために、生成された応答の説明を要求します
    • 単一画像のプロンプトを使用する場合は、テキストの前に画像を配置します
    • まず、画像の詳細な説明をモデルに要求し、その説明から特定のタスクを完了します
  • 例の追加: 求めている応答の種類を表す例を追加します

  • 要求の分割: 複雑な要求をステップバイステップに分割して、管理可能な二次的目標を作成してみましょう

  • 出力形式の定義: 出力に必要な形式を、マークダウン、JSON、HTML など明確に記述します。応答に関する特定の構造、長さ、または特定の属性を提案することもできます。

プロンプトの入力および出力例

具体的なニーズに合わせて出力を調整するための、システム プロンプトの作成方法は多数あります。 次の入力と出力の例では、プロンプトを調整することで、どのように異なる結果が得られるかをショーケースしています。 これらの画像を使用してモデルを試し、Azure AI Studio プレイグラウンドでシステム プロンプトを調整します。

コンテキスト的な特異性

コンテキストは、モデルからのフィードバックを改善するのに役立ちます。 たとえば、製品カタログの画像の説明を作成している場合は、その製品がプロンプトに明確かつ簡潔な方法で反映されているようにします。 「熱意とプロ意識に焦点を当てて、アウトドア ハイキング製品カタログの画像を説明する」のようなプロンプトは、正確でコンテキスト的に豊富な応答を生成するために、モデルをガイドします。

基本プロンプト モデルの出力
森のキャンプ用テントと椅子の写真。 この画像に映っているものは? この画像は、森林地域でのキャンプの設置状況を映しています。 そこには、1 つの黄色いテント、2つ (それぞれが赤と青) の折りたたみ式キャンプ用チェア、およびポータブルのキャンプ用テーブルがあります。 周囲には木々が密集し、キャンプ場が森林地帯にあることを示しています。
更新されたプロンプト モデルの出力
森のキャンプ用テントと椅子の写真。 熱意とプロ意識に焦点を当てて、アウトドア ハイキング製品カタログの画像について説明してください。 「当社プレミアムの、ハイキングとキャンプの必須用具とともに、次回のアウトドア アドベンチャーに乗り出しましょう! ここでは、自然の静けさの中であなたの第二の我が家となるために設計された、当社の活気に満ち広々としたテントを紹介します。 最高の素材により作り上げられたこのテントは、あらゆる天候での耐久性と快適性を約束します。 このテントを補完するのは、超快適、軽量の折りたたみチェアで、目を引く赤色と穏やかな青色をご用意しています。探索の一日の後でリラックスする瞬間のためにはパーフェクトです。 また、忘れてはいけないのが頑丈でポータブルなテーブル。これは楽しい屋外の食事や星の下のカード ゲームに最適です。 素晴らしいアウトドアにクオリティを加える、信頼性の高い当社の製品で、あなたのキャンプ体験をレベル アップしましょう!

タスク指向のプロンプト

モデルに特定のタスクを与えることは、応答をシャープにする 1 つの方法です。 この例では、プロンプトが、保険評価に不可欠な要素にモデルを集中させ、そのため精度と関連性が向上します。

基本プロンプト モデルの出力
ポールに衝突した車の写真。 この画像に映っているものは? この画像は、事故に遭ったシルバーのセダンを映しています。 車のフロントエンドが損傷し、フードがつぶれており、バンパーは部分的に外れています。 車は歩道の電柱に向いて停止しており、エンジン付近から煙が出ていて、衝突したばかりであることが分かります。 背景に家が存在し、きちんとトリミングされた生け垣、そして歩道が示しているように、この現場は住宅地の通りのように見えます。
更新されたプロンプト モデルの出力
ポールに衝突した車の写真。 損害の特定と詳細に焦点を当て、自動車保険報告書用に、この車の損害ビデオを分析する 提供された画像では、フロントエンドに大きなダメージを被ったシルバーのセダンが見て取れます。 車両のフードは顕著につぶれており、フロントバンパーは大幅に変形し、部分的にシャーシから外れてしまっています。 右のヘッドランプ アセンブリは破損、または脱落しているように見えます。 フロント グリル周辺にも目に見える損傷があります。 この車は電柱と接触した状態にあり、これは、比較的低い速度または中程度の速度による、電柱との正面衝突を示唆しています。 エンジン コンパートメントからは煙が発生し、機械的または電気的な損傷の可能性を示唆しています。包括的な評価のためには、さらなる検査が必要になることもあり得ます。 このイメージでは、エアバッグが展開した様子は見て取れません。 完全な保険報告書のためには、この車両の構造的および機械的損傷の全範囲を評価するための、詳細な検査が必要となります。

拒否の処理

モデルから拒否の出力を受け取った場合、より適切な応答を生成するために入力を調整する方法がいくつかあります。 次に、拒否を処理して進捗させるための 1 つの例を示します。

基本プロンプト モデルの出力
数枚の皿が載ったディナー テーブルの写真。 この食事を計画する 申し訳ございません。この情報は提供できません。
フォローアップするプロンプト モデルの出力
どのような情報が必要ですか? 先ほどの混乱についてお詫びいたします。 提供された画像に基づいて食事を計画するには、次の情報が必要です。
食事をする人の数。すべての人に十分な料理があることを保証するためです。
対応すべき食事の制限または好み (ベジタリアン、グルテンフリー、アレルギーなど)。
計画している食事の理由または種類 (カジュアル ランチ、ディナー パーティーなど)。
食品グループおよび栄養の観点から、希望する料理のバランス。
この情報により、料理の取り分け方、バランスの取れた食事の調理法、そして食事がすべての参加者のニーズを満たしていること確実にする提案ができるようになります。

例の追加

基本プロンプト モデルの出力
草地に横たわっているボーダー コリー犬の写真。 この犬種は何であり、その平均の体重と体高はいくらですか? 画像内の犬はボーダー コリーだと思われます。 ボーダー コリーは頭が良く、機敏で、牧畜能力があることで知られています。ボーダーコリーの平均体重は、通常約 30 から 45 ポンド (14 から 20 キログラム) です。 ボーダー コリーの体高については、一般的に肩の位置で約 18 から 22 インチ (46 から 56 センチメートル) 程度です。 これらの数字は、個々の犬の遺伝、食事、および活動のレベルによって異ってきます。 ボーダー コリーは、整った体系を持ち、エネルギッシュな中型犬です。
更新されたプロンプト モデルの出力
Q: この犬種は何であり、その平均の体重と体高はいくらですか? 水の上のプール用ダイビング ボードに座っているポメラニアン犬の写真。
A: 品種: ポメラニアン; 平均体重: 3 から 7 ポンド; 平均体高: 8 から 14 インチ
草地に横たわっているブルドッグの写真。 A: 品種: イングリッシュ ブルドッグ; 平均体重: 50 から 55 ポンド; 平均体高: 14 から 16 インチ 草地に横たわっているボーダー コリー犬の写真。
A: 品種: ボーダー コリー; 平均体重: 30 から 45 ポンド; 平均体高: 18 から 22 インチ

要求を分割する

基本プロンプト モデルの出力
おばあちゃんのアップル クラム パイのレシピを詳しく説明したレシピ カードの写真。 この画像に映っているものは? この画像には、おばあちゃんのアップルクラムパイ、というタイトルのレシピ カードが映っています。 これは、感謝祭の伝統として知られているものです。 そこにリストされている原材料は次のとおりです。
  • リンゴ 5 個から 7個、皮をむく
  • 9 インチのパイ皮 1 枚
  • 砂糖 3/4 カップ
  • シナモン小さじ 1/2
  • 塩少々
  • バター 大さじ 3

砂糖、小麦粉、バターの分量が、画像の中で完全に読み取れない点にはご注意ください。 必要な場合のため、クランブル トッピングの標準的な作り方としては、砂糖、小麦粉、バターを、ぽろぽろになるまで混ぜ合わせるのが通常のやりかたです。
更新されたプロンプト モデルの出力
おばあちゃんのアップル クラム パイのレシピを詳しく説明したレシピ カードの写真。 あなたは、レシピを基に食べ物を準備するための、買い物リストと指示の作成を助ける AI アシスタントです。 購入する食材のリストと、レシピ カードを基に食材を調理するための指示のリストを提供してください。 わかりました、レシピ カードを基にした買い物 リストは次のとおりです。
ショッピング リスト:
  1. リンゴ 5 から 7 個 (グラニー スミスや ハニークリスプなど、焼きに適したもの)
  2. 既製のパイ皮 1 枚 (9 インチ)
  3. 砂糖 (1/2 カップに十分な量があることを確認してください)
  4. 中力粉 (3/4 カップに十分な量があることを確認してください)
  5. 挽いたシナモン
  6. バター (大さじ 3 杯分に十分な量があることを確認してください)

調理の手順:
  • リンゴの皮をむく: 野菜ピーラーまたは果物ナイフを使用して、5 個から 7 個のリンゴから皮を取り除きます。
  • リンゴの芯を取りスライスする: リンゴを四分の一に切り、芯を取り除いた上で、パイの食感の好みに応じて四分の一のリンゴを薄いスライスまたはぶつ切りにします。
  • 材料を量る: 砂糖 3/4 カップ、シナモン小さじ 1/2、少々の塩 (小さじ約 1/8)、バター大さじ 3 を量り分けます。
  • バターを準備する: レシピで使用する準備のため、バターを小さな塊にカットします。 多くの場合、バターは冷えている方が使いやすいので、必要になるまでは冷蔵庫に入れておきます
  • オーブンは、パイのレシピの手順に従って予熱します。これで、パイを組み立てたら焼き始めることができます。
  • ご自分のアップル クラム パイの完全なレシピにある、追加の準備や焼き方の指示にも従うことを忘れないでください。

出力形式を定義する

基本プロンプト モデルの出力
プールのある熱帯地方の白いヴィラの写真。 この画像について説明してください この画像には、一部に伝統的なかやぶき屋根が乗った豪華な白いヴィラと、前景に透明な青いスイミングプールが映っています。 プールサイドにサン ラウンジャーが並び、リラックスするのに良さそうです。 建物にはエレガントなアーチウェイ、木製の手すり付きのバルコニーがあり、大きな窓とドアはインテリアの明るさと風通しの良さを感じさせます。 ヴィラは、背の高いヤシの木などの緑豊かな熱帯植物に囲まれており、この状況に静かでエキゾチックな雰囲気を加えています。
更新されたプロンプト モデルの出力
プールのある熱帯地方の白いヴィラの写真。 あなたは、バケーション レンタル物件の詳細なリストを記述する AI アシスタントです。 画像に表示されているものだけを基にして、3 つの文でリストの最適な特徴をまとめてください。 顧客が今日予約すべき理由について、1 つの文で締めくくってください。 この素晴らしいヴィラは、利用しやすいようにステップが備わった魅力的なプライベート プールを併設し、美しいタイル張りのサンデッキと快適なラウンジャーで囲まれ、日光浴をしたり、また熱帯性のヤシの樹の下で良い読書を楽しんだりするのに最適です。 優雅なアーチ ウェイ、かやぶき屋根のガゼボ、静かな景色を楽しめ朝と夕方にドリンクを味わうのに最適なバルコニーが備わった、このヴィラのデザインには、建築的な魅力がはっきり見て取れます。 この物件を取り巻く緑豊かな環境は、プライバシーを提供するだけでなく、特別な楽園の隠れ家としての印象を強めています。 この豪華さと静けさの完璧な融合を手に入れる機会をお見逃しなく - 他にはない熱帯のエスケープのために今すぐご予約を!

これらのガイドラインと例は、調整されたシステム プロンプトが、いかに大幅に GPT-4 Turbo with Vision のパフォーマンスを向上させ、応答を正確にするだけでなく、手元のタスクの特定のコンテキストにも完全に適合させるのかを示しています。