マルチモーダル埋め込み (バージョン 4.0)

マルチモーダル埋め込みは、画像の数値表現を生成するプロセスであり、その特徴と特性をベクター形式で取り込みます。 これらのベクターは、画像のコンテンツとコンテキストを、同じベクター空間でのテキスト検索と互換性がある方法でエンコードします。

イメージ取得システムでは、従来、画像から抽出されたフィーチャー (コンテンツ ラベル、タグ、画像記述子など) を使用して、画像を比較し、類似性によってランク付けしてきました。 しかし、ベクトル類似性検索は、従来のキーワードベースの検索よりも多くのベネフィットにより人気が高まり、人気のあるコンテンツ検索サービスの重要なコンポーネントになっています。

キーワード検索は、情報取得の最も基本的かつ従来のメソッドです。 この方法では、検索エンジンによって、ユーザーが検索クエリで入力したキーワードまたは語句の完全一致が検索され、画像に指定されたラベルおよびタグと比較されます。 検索エンジンは、これらの正確なキーワードを含む画像をコンテンツ タグおよびイメージラベルとして返します。 キーワード検索は、ユーザーが関連する特定の検索用語を入力できるかどうかに大きく依存します。

ベクトル検索では、高次元空間内のベクトルの大規模なコレクションを検索して、特定のクエリに類似するベクトルを検索します。 ベクター検索では、検索クエリのコンテキストと意味をキャプチャすることで、セマンティックの類似性が検索されます。 このアプローチは、検索領域を減らし、結果の正確性を向上させることができるため、多くの場合、従来のイメージ取得手法よりも効率的です。

ビジネス アプリケーション

マルチモーダル埋め込みは、次のようなさまざまな分野でさまざまに応用されています。

  • デジタル資産管理: マルチモーダル埋め込みを使用すると、博物館、アーカイブ、オンライン ギャラリーなどのデジタル画像の大規模なコレクションを管理できます。 ユーザーは、ビジュアルフィーチャーに基づいて画像を検索し、条件に一致する画像を取得できます。
  • セキュリティと監視: セキュリティおよび監視システムでベクター化を使用すると、人物および物体の追跡や脅威検出などで、特定の特徴またはパターンに基づいて画像を検索できます。
  • フォレンジック イメージの取得: フォレンジック調査でベクター化を使用すると、サイバー犯罪の場合などで、視覚的なコンテンツやメタデータに基づいて画像を検索できます。
  • eコマース: オンライン ショッピング アプリケーションでベクター化を使用すると、製品の特徴や説明に基づいて同様の製品を検索したり、以前の購入に基づいておすすめ候補を提示したりすることができます。
  • ファッションとデザイン: ファッションやデザインでベクター化を使用すると、色、パターン、テクスチャなどの視覚的特徴に基づいて画像を検索できます。 これは、デザイナーや小売業者が類似の製品や傾向を特定するのに役立ちます。

注意

マルチモーダル埋め込みは、医療画像で診断上の特徴や病型を分析するようには設計されていません。 医療目的でマルチモーダル埋め込みを使用しないでください。

ベクター埋め込み?

ベクター埋め込みは、コンテンツ (テキストまたは画像) を高次元空間の実数ベクトルとして表す方法です。 ベクター埋め込みは、多くの場合、ニューラル ネットワークなどの機械学習アルゴリズムを使用して、大量のテキストデータとビジュアル データから学習されます。

ベクターの各ディメンションは、コンテンツの異なる特徴または属性 (セマンティックの意味、構文の役割、一般的に出現するコンテキストなど) に対応します。 Azure AI Vision では、画像およびテキスト ベクターの埋め込みには 1,024 ディメンションがあります。

重要

ベクター埋め込みを比較および照合できるのは、同じモデル型の場合のみです。 あるモデルによってベクター化された画像は、別のモデルでは検索できません。 最新の Image Analysis API には、多くの言語でのテキスト検索をサポートするバージョン 2023-04-15 と、英語のみをサポートする従来の 2022-04-11 モデルの 2 つのモデルが用意されています。

それはどのように機能しますか?

マルチモーダル埋め込みを使用した画像取得プロセスの主な手順を次に示します。

Diagram of image retrieval process.

  1. 画像とテキストのベクター化: マルチモーダル埋め込み API である VectorizeImageVectorizeText を使用して、それぞれ画像またはテキストから特徴ベクターを抽出できます。 API は、入力全体を表す 1 つの特徴ベクトルを返します。

    Note

    マルチモーダル埋め込みは、人間の顔の生体認証処理を行いません。 顔の検出と識別については、Azure AI Face サービスに関するページを参照してください。

  2. 類似性の測定: ベクトル検索システムでは、通常、コサイン距離やユークリッド距離などの距離メトリックを使用して、ベクトルを比較し、類似性によってランク付けします。 Vision Studio のデモでは、 コサイン距離を 使用して類似性を測定します。

  3. イメージの取得: 検索クエリに似た上位 N 個のベクトルを使用し、写真ライブラリからそれらのベクトルに対応するイメージを取得して、最終的な結果として提供します。

関連性スコア

画像とビデオ検索サービスは、"関連性" というフィールドを返します。"関連性" という用語は、クエリと画像またはビデオ フレーム埋め込みとの間の類似性スコアのメジャーを表します。 関連性スコアは、次の 2 つの部分で構成されます。

  1. クエリと画像またはビデオ フレーム埋め込みの間のコサイン類似度 ([0,1] の範囲に収まる)。
  2. メタデータ スコア。クエリと、画像またはビデオ フレームに関連付けられているメタデータとの類似性が反映されます。

重要

関連性スコアは、1 つのクエリに関して画像やビデオ フレームなどの結果をランク付けするのに適したメジャーです。 ただし、クエリ間で関連性スコアを正確に比較することはできません。 したがって、関連性スコアを信頼度レベルに簡単にマップすることはできません。 関連性スコアのみに基づいて無関係な結果を排除するしきい値アルゴリズムを簡単に作成することもできません。

入力の要件

画像入力

  • 画像のファイル サイズは、20 メガバイト (MB) 未満である必要があります
  • 画像のディメンションは、10 x 10 ピクセルより大きく、16,000 x 16,000 ピクセル未満である必要があります

テキスト入力

  • テキスト文字列は、1 単語以上 70 語以下の範囲で指定する必要があります。

次のステップ

検索サービスに対してマルチモーダル埋め込みを有効にし、手順に従ってテキストと画像のベクター埋め込みを生成します。