マルチモーダル埋め込み (バージョン 4.0)

[アーティクル]
09/25/2024

マルチモーダル埋め込みは、画像のベクトル表現を生成するプロセスであり、その特徴と特性を取り込みます。これらのベクターは、画像のコンテンツとコンテキストを、同じベクター空間でのテキスト検索と互換性がある方法でエンコードします。

イメージ取得システムでは、従来、画像から抽出されたフィーチャー (コンテンツラベル、タグ、画像記述子など) を使用して、画像を比較し、類似性によってランク付けしてきました。しかし、ベクトル類似性検索は、従来のキーワードベースの検索よりも多くのベネフィットを提供し、人気のあるコンテンツ検索サービスの重要なコンポーネントになっています。

ベクトル検索とキーワード検索の違い

キーワード検索は、情報取得の最も基本的かつ従来のメソッドです。この方法では、検索エンジンによって、ユーザーが検索クエリで入力したキーワードまたは語句の完全一致が検索され、画像に指定されたラベルおよびタグと比較されます。検索エンジンは、これらの正確なキーワードを含む画像をコンテンツタグおよびイメージラベルとして返します。キーワード検索は、ユーザーが関連する特定の検索用語を入力できるかどうかに大きく依存します。

ベクトル検索では、高次元空間内のベクトルの大規模なコレクションを検索して、特定のクエリに類似するベクトルを検索します。ベクター検索では、検索クエリのコンテキストと意味をキャプチャすることで、セマンティックの類似性が検索されます。このアプローチは、検索領域を減らし、結果の正確性を向上させることができるため、多くの場合、従来のイメージ取得手法よりも効率的です。

ビジネスアプリケーション

マルチモーダル埋め込みは、次のようなさまざまな分野でさまざまに応用されています。

デジタル資産管理: マルチモーダル埋め込みを使用すると、博物館、アーカイブ、オンラインギャラリーなどのデジタル画像の大規模なコレクションを管理できます。ユーザーは、ビジュアルフィーチャーに基づいて画像を検索し、条件に一致する画像を取得できます。
セキュリティと監視: セキュリティおよび監視システムでベクター化を使用すると、人物および物体の追跡や脅威検出などで、特定の特徴またはパターンに基づいて画像を検索できます。
フォレンジックイメージの取得: フォレンジック調査でベクター化を使用すると、サイバー犯罪の場合などで、視覚的なコンテンツやメタデータに基づいて画像を検索できます。
eコマース: オンラインショッピングアプリケーションでベクター化を使用すると、製品の特徴や説明に基づいて同様の製品を検索したり、以前の購入に基づいておすすめ候補を提示したりすることができます。
ファッションとデザイン: ファッションやデザインでベクター化を使用すると、色、パターン、テクスチャなどの視覚的特徴に基づいて画像を検索できます。これは、デザイナーや小売業者が類似の製品や傾向を特定するのに役立ちます。

注意

マルチモーダル埋め込みは、医療画像で診断上の特徴や病型を分析するようには設計されていません。医療目的でマルチモーダル埋め込みを使用しないでください。

ベクター埋め込み？

ベクター埋め込みは、コンテンツ (テキストまたは画像) を高次元空間の実数ベクトルとして表す方法です。ベクター埋め込みは、多くの場合、ニューラルネットワークなどの機械学習アルゴリズムを使用して、大量のテキストデータとビジュアルデータから学習されます。

ベクターの各ディメンションは、コンテンツの異なる特徴または属性 (セマンティックの意味、構文の役割、一般的に出現するコンテキストなど) に対応します。 Azure AI Vision では、画像およびテキストベクターの埋め込みには 1,024 ディメンションがあります。

重要

ベクター埋め込みを比較および照合できるのは、同じモデル型の場合のみです。あるモデルによってベクター化された画像は、別のモデルでは検索できません。最新の Image Analysis API には、多くの言語でのテキスト検索をサポートするバージョン 2023-04-15 と、英語のみをサポートする従来の 2022-04-11 モデルの 2 つのモデルが用意されています。

それはどのように機能しますか?

マルチモーダル埋め込みを使用した画像取得プロセスの主な手順を次に示します。

マルチモーダル埋め込み/画像取得プロセスの図。

画像とテキストのベクター化: マルチモーダル埋め込み API である VectorizeImage と VectorizeText を使用して、それぞれ画像またはテキストから特徴ベクターを抽出できます。 API は、入力全体を表す 1 つの特徴ベクトルを返します。

Note

マルチモーダル埋め込みは、人間の顔の生体認証処理を行いません。顔の検出と識別については、Azure AI Face サービスに関するページを参照してください。
類似性の測定: ベクトル検索システムでは、通常、コサイン距離やユークリッド距離などの距離メトリックを使用して、ベクトルを比較し、類似性によってランク付けします。 Vision Studio のデモでは、コサイン距離を使用して類似性を測定します。
イメージの取得: 検索クエリに似た上位 N 個のベクトルを使用し、写真ライブラリからそれらのベクトルに対応するイメージを取得して、最終的な結果として提供します。

入力の要件

画像入力

画像のファイルサイズは、20 メガバイト (MB) 未満である必要があります
画像のディメンションは、10 x 10 ピクセルより大きく、16,000 x 16,000 ピクセル未満である必要があります

テキスト入力

テキスト文字列は、1 単語以上 70 語以下の範囲で指定する必要があります。

次のステップ

検索サービスに対してマルチモーダル埋め込みを有効にし、手順に従ってテキストと画像のベクター埋め込みを生成します。

マルチモーダル埋め込み API を呼び出す

次の方法で共有

マルチモーダル埋め込み (バージョン 4.0)

ベクトル検索とキーワード検索の違い

ビジネスアプリケーション

ベクター埋め込み？

それはどのように機能しますか?

関連性スコア

入力の要件

次のステップ

フィードバック

その他のリソース

次の方法で共有

マルチモーダル埋め込み (バージョン 4.0)

ベクトル検索とキーワード検索の違い

ビジネス アプリケーション

ベクター埋め込み？

それはどのように機能しますか?

関連性スコア

入力の要件

次のステップ

フィードバック

その他のリソース

ビジネスアプリケーション