Azure AI Search のベクトル

[アーティクル]
2024/09/03

ベクトル検索とは、コンテンツの数値表現に対するインデックス付けとクエリの実行をサポートする情報取得のアプローチです。コンテンツはプレーンテキストではなく数値であるため、照合はクエリベクトルに最も類似したベクトルに基づいて行われます。これにより、次のシナリオでの照合が可能になります。

意味的または概念的な類似性（"dog" と "canine" は概念的には似ているが言語的には異なる）
多言語コンテンツ (英語では "dog"、ドイツ語では "hund")
複数のコンテンツタイプ (プレーンテキストの "dog" と画像ファイル内の犬の写真)

この記事では、Azure AI 検索でのベクトルの概要について説明します。また、他の Azure サービスとの統合についても説明し、ベクトル検索の開発に関連する用語と概念についても説明します。

最初にこの記事を読んで基礎知識を得ることをお勧めしますが、それはかまわないのですぐに使いたいという方は、これらの手順を実行してください。

インデックス用の埋め込みを提供するか、インデクサーパイプラインで埋め込みを生成する
ベクトルインデックスを作成する
ベクトルクエリの実行

ベクトルクイックスタートまたは GitHub のコードサンプルを使用して開始することもできます。

ベクトル検索をサポートできるシナリオ

ベクトル検索には次のようなシナリオがあります。

類似性検索。 OpenAI 埋め込みなどの埋め込みモデルや SBERT などのオープンソースモデルを使用してテキストをエンコードし、やはりベクトルとしてエンコードされたクエリを使用してドキュメントを取得します。
さまざまなコンテンツタイプ (マルチモーダル) で検索します。画像とテキストをマルチモーダル埋め込み (たとえば、Azure OpenAI の OpenAI CLIP や GPT-4 Turbo with Vision を使用) を使用してエンコードし、両方のコンテンツタイプのベクトルで構成される埋め込みスペースをクエリします。
ハイブリッド検索。 Azure AI 検索のハイブリッド検索では、同じ要求でベクトルおよびキーワードクエリの実行を参照します。ベクトルサポートはフィールドレベルで実装されており、ベクトルフィールドと検索可能なテキストフィールドの両方を含むインデックスがあります。クエリは並列で実行され、結果は 1 つの応答にマージされます。必要に応じて、セマンティックランク付けを追加して、Bing を動作させているのと同じ言語モデルを使用して、L2 の再ランク付けによって精度をさらに高めます。
多言語検索。複数の言語でトレーニングされたモデルとチャットモデルを埋め込んで、ユーザーの母国語での検索エクスペリエンスを提供できます。翻訳をより詳細に制御する必要がある場合は、ハイブリッド検索シナリオで Azure AI Search が非ベクトルコンテンツに対して提供する多言語機能を追加できます。
フィルター選択されたベクトル検索。クエリ要求にはベクトルクエリとフィルター式を含めることができます。フィルターはテキストフィールドと数値フィールドに適用され、メタデータフィルターに役立ち、フィルター条件に基づいて検索結果を含めたり除外したりするのに役立ちます。ベクトルフィールド自体はフィルター処理できませんが、フィルター可能なテキストフィールドまたは数値フィールドを設定できます。検索エンジンは、ベクトルクエリの実行前または実行後にフィルターを処理できます。
ベクトルデータベース。 Azure AI Search には、クエリを実行するデータが格納されます。長期メモリやナレッジベース、あるいは取得拡張生成 (RAG) アーキテクチャやベクトルを使用するあらゆるアプリケーションの基礎データが必要な場合は、純粋なベクトルストアとして使用します。

Azure AI Searchでのベクトル検索のしくみ

ベクトルのサポートには、検索インデックスからのベクトル埋め込みのインデックス作成、格納、クエリが含まれます。

次の図は、ベクトル検索のインデックス作成とクエリのワークフローを示しています。

インデックス作成側では、Azure AI Search はベクトル埋め込みを受け取り、最近傍アルゴリズムを使用して、同様のベクトルをインデックス内の近い場所に配置します。内部では、各ベクトルフィールドのベクトルインデックスが作成されます。

ソースコンテンツから Azure AI 検索に埋め込む方法は、Azure AI 検索のインデックス作成パイプライン内で作業を実行するか、外部で実行するかによって異なります。 Azure AI 検索はインデクサーパイプラインで統合されたデータチャンクとベクトル化を提供します。リソース (エンドポイントと Azure OpenAI への接続情報) は引き続き提供されますが、Azure AI Search はすべての呼び出しを行い、移行を処理します。このアプローチには、インデクサー、サポートされているデータソース、チャンクと埋め込みを促進するスキルセットが必要です。それ以外の場合は、すべてのベクトル化を個別に処理し、事前にベクトル化したコンテンツをベクトルストア内のベクトルフィールドにプッシュすることができます。

クエリ側では、クライアントアプリケーションで、通常はプロンプトワークフローを使用して、ユーザーからクエリ入力を収集します。その後、入力をベクトルに変換するエンコード手順を追加し、Azure AI Search 上のインデックスにベクトルクエリを送信して類似性検索を行うことができます。インデックス作成と同様に、垂直統合をデプロイして、質問をベクトルに変換できます。どちらの方法でも、Azure AI Search では、要求された k 最近傍 (kNN) を含むドキュメントが結果に返されます。

Azure AI Search は、ベクトル検索とキーワード検索を並行して実行するハイブリッドシナリオをサポートしており、統合された結果セットを返しますが、これはしばしば、ベクトル検索やキーワード検索のみよりも優れた結果を提供します。ハイブリッドの場合、ベクトルコンテンツと非ベクトルコンテンツは、並列して実行されるクエリに対して、同じインデックスに取り込まれます。

可用性と料金

ベクトル検索は、すべてのリージョンのすべての Azure AI Search レベルの一部として追加料金なしで利用できます。

2024 年 4 月 3 日以降に作成された新しいサービスでは、ベクトルインデックスのためにより高いクォータをサポートしています。

ベクトル検索は次で利用できます。

Azure portal: データのインポートとベクトル化ウィザード
Azure REST API
.NET、Python、JavaScript 用の Azure SDK
Azure AI Studio などのその他の Azure オファリング。

注意

2019 年 1 月 1 日より前に作成された一部の古い検索サービスは、ベクトルワークロードをサポートしないインフラストラクチャにデプロイされています。ベクトルフィールドをスキーマに追加しようとしてエラーが表示された場合、それはサービスが古いためです。このような場合は、ベクトル機能を試すために新しい検索サービスを作成する必要があります。

Azure AI Search は、Azure AI プラットフォーム全体で深く統合されています。次の表に、ベクトルワークロードで役立ついくつかの要素を示します。

Product	統合
Azure AI Studio	データプレイグラウンドとのチャットで、[独自のデータを追加する] は、データの基盤と会話型検索のために Azure AI Search を使用します。これは、データとチャットするための最も簡単かつ高速なアプローチです。
Azure OpenAI	Azure OpenAI には埋め込みモデルとチャットモデルが用意されています。デモとサンプルでは、text-embedding-ada-002 を対象とします。テキスト用の埋め込みを生成するには、Azure OpenAI をお勧めします。
Azure AI Services	Image Retrieval Vectorize Image API (プレビュー) では、画像コンテンツのベクトル化がサポートされます。画像用の埋め込みを生成するには、この API をお勧めします。
Azure データプラットフォーム: Azure Blob Storage、Azure Cosmos DB	インデクサーを使用してデータインジェストを自動化し、垂直統合を使用して埋め込みを生成できます。 Azure AI Search では、Azure Blob インデクサーと Azure Cosmos DB for NoSQL インデクサーの 2 つのデータソースからベクトルデータのインデックスを自動的に作成できます。詳細については、「検索インデックスにベクトルフィールドを追加する」を参照してください。

これは、LangChain などのオープンソースフレームワークでも一般的に使用されています。

ベクトル検索の概念

ベクトルを初めて使用する場合、このセクションではいくつかの主要な概念について説明します。

ベクトル検索について

ベクトル検索は、ドキュメントとクエリがプレーンテキストではなくベクトルとして表現される場合の情報取得の方法です。ベクトル検索では、機械学習モデルがソース入力 (テキスト、画像、その他のコンテンツ) のベクトル表現を生成します。コンテンツの数学表現を使用することによって、検索シナリオの共通基盤が提供されます。すべてがベクトルであれば、関連する元のコンテンツがクエリとは異なるメディアや言語であっても、クエリはベクトル空間で一致するものを見つけることができます。

ベクトル検索を使用する理由

検索可能なコンテンツがベクトルとして表されると、クエリは類似するコンテンツ内の近い一致を見つけることができます。ベクトル生成に使用される埋め込みモデルは、どの単語と概念が類似しているかを認識し、結果のベクトルを埋め込み空間内で近くに配置します。たとえば、"クラウド" と "霧" に関するベクトル化されたソースドキュメントは、意味的に類似しているため、構文上の一致ではない場合も "霧" に関するクエリで表示される可能性が高くなります。

埋め込みベクトル化

"埋め込み" は、テキストのセマンティックな意味や画像などの他のコンテンツの表現を読み取る機械学習モデルによって作成された、コンテンツまたはクエリの特定の種類のベクトル表現です。自然言語機械学習モデルは、単語間のパターンや関係を識別するために、大量のデータでトレーニングされます。トレーニング中に、"エンコーダー" と呼ばれる中間ステップで、入力を実数のベクトルとして表現する方法を学習します。トレーニングが完了すると、中間ベクトル表現がモデルの出力になるように、これらの言語モデルを変更できます。結果として得られる埋め込みは高次元ベクトルであり、埋め込みの概要 (Azure OpenAI) に関する記事で説明されているように、同じような意味を持つ単語がベクトル空間で互いに近くなります。

関連する情報の取得におけるベクトル検索の有効性は、ドキュメントとクエリの意味を結果のベクトルに抽出する埋め込みモデルの有効性に依存します。最適なモデルは、それらが代表するデータの種類によって適切にトレーニングされています。 Azure OpenAI text-embedding-ada-002 などの既存のモデルを評価したり、問題領域で直接トレーニングされた独自のモデルを使用したり、汎用モデルを微調整したりできます。 Azure AI Search では、選ぶモデルに制約が課されないため、データに最適なものを選んでください。

ベクトル検索に対して効果的な埋め込みを作成するには、入力サイズの制限を考慮することが重要です。埋め込みを生成する前に、データをチャンクするためのガイドラインに従うことをお勧めします。このベストプラクティスのおかげで、埋め込みによって関連情報が正確に読み取られ、より効率的なベクトル検索が可能になります。

埋め込み空間とは

"埋め込み空間" は、ベクトルクエリのコーパスです。検索インデックス内では、埋め込み空間は、同じ埋め込みモデルからの埋め込み値が設定されているすべてのベクトルフィールドです。機械学習モデルでは、個々の単語、語句、またはドキュメント (自然言語処理の場合)、画像、またはその他の形式のデータを、高次元空間の座標を表す実数のベクトルで構成される表現にマッピングすることで、埋め込み空間を作成します。この埋め込みスペースでは、類似項目は近くに配置され、異なる項目は離れた場所に配置されます。

たとえば、さまざまな種類の犬について説明するドキュメントは、埋め込み空間で互いに近くに集められます。猫に関するドキュメントは互いに近くに集まりますが、犬のクラスターから遠く離れており、それでも動物としては近くになります。クラウドコンピューティングなどの異なる概念は、はるかに遠く離れています。実際には、これらの埋め込み空間は抽象的で、人間が解釈できる明確に定義された意味はありませんが、中核となる概念は同じです。

近似最近傍

近似最近傍 (ANN) 検索は、ベクトル空間で一致を検索するためのアルゴリズムの種類です。この種類のアルゴリズムでは、検索空間を大幅に削減してクエリ処理を高速化するため、さまざまなデータ構造またはデータパーティション分割方法が採用されます。

ANN アルゴリズムでは、精度がいくらか犠牲になりますが、近似最近傍をスケーラブルかつ迅速に取得できるため、最新の情報取得の用途で効率と精度のバランスを取るのに最適です。アルゴリズムのパラメーターを調整して、検索用途のリコール、待機時間、メモリ、ディスクフットプリントの要件を微調整できます。

Azure AI Search では、ANN アルゴリズムに HNSW が使用されます。

次の方法で共有

Azure AI Search のベクトル

ベクトル検索をサポートできるシナリオ

Azure AI Searchでのベクトル検索のしくみ

可用性と料金

ベクトル検索の概念

ベクトル検索について

ベクトル検索を使用する理由

埋め込みベクトル化

埋め込み空間とは

最近傍検索

近似最近傍

次のステップ

フィードバック

その他のリソース

次の方法で共有

Azure AI Search のベクトル

ベクトル検索をサポートできるシナリオ

Azure AI Searchでのベクトル検索のしくみ

可用性と料金

Azure の統合と関連サービス

ベクトル検索の概念

ベクトル検索について

ベクトル検索を使用する理由

埋め込みベクトル化

埋め込み空間とは

最近傍検索

近似最近傍

次のステップ

フィードバック

その他のリソース