AI におけるベクトル データベース、検索拡張生成、埋め込みを理解する

完了

ベクトル データベース、埋め込み、検索拡張生成 (RAG) は、特に仮想コアベースの Azure Cosmos DB for MongoDB のコンテキストで、AI 駆動型アプリケーションを強化するための重要なテクノロジです。 これらの概念を理解することは、独自のデータにクエリを実行するベクトル検索などの高度な機能を実装するために不可欠です。

AI での埋め込みについて理解する

ベクトル データベースまたは RAG システムについて説明する前に、埋め込みと AI アプリケーションでのそれらの役割を理解する必要があります。 埋め込みは、単語、文、ドキュメント全体などの項目を、その意味を反映する数値ベクトルに変換します。 たとえば、"cat" という単語を表すベクトルは、次のように表されます。

[0.1, 0.2, 0.3, 0.4, 0.5]

機械学習手法を使用して作成されたこれらのベクトルは、AI モデルがデータをより効果的に理解して操作するのに役立ちます。 AI モデルでは、これらのベクトルを使用して、分類、クラスタリング、類似性照合などのタスクを実行できます。 テキスト解析からコンピューター ビジョンまで、テキストの分類や画像やコードの生成などのタスクをサポートするアプリケーションで重要な役割を果たします。

Azure OpenAI などのプラットフォームでは、埋め込みは、大規模言語モデルが人間のコミュニケーションを反映するテキストを処理および生成するのに役立つ鍵となります。 複雑なデータをモデルが操作できる構造化された形式に変換し、モデルが関連する一貫性のある応答を生成する機能を強化します。 埋め込みは、これらの数値表現に基づいてデータを保存および取得するベクトル データベースにも不可欠です。

ベクトル データベースを探索する

ベクトル内の各値は、それが表すデータの次元と見なされます。 その後、そのベクトルは、他のすべてのベクトルに対する高い多次元空間での位置を表します。 多くの場合、これらのベクトルには多くのディメンションがあり、Azure OpenAI の "より小さい" 埋め込みモデルの一部には 1536 ディメンションがあります。

ベクトル データベースは、テキスト、画像、ビデオなどのさまざまなデータ型からの変換または埋め込みを使用して作成された、これらの高度な多次元ベクトルとしてデータを保存します。 これらのデータベースは、正確なクエリだけでなく、意味的に一致するデータをすばやく見つけることに優れています。 この機能は、類似した画像、ドキュメント、または製品を検索するアプリケーションに役立ちます。

たとえば、ベクトル データベースでは、画像またはテキストの一部をクエリとして使用して検索し、スタイルやコンテンツが緊密に一致している他のデータを検索できます。 このプロセスでは、検索入力のクエリ ベクトル (埋め込み) を検索し、"コサインの類似性" や "ユークリッド距離" などの類似性メジャーを使用してベクトル間の距離を検索します。

そのため、"cat" という単語を検索すると、使用される類似性メジャーに基づいて、"cat" という単語に最も似たベクトルが返されます。 これらの類似性メジャーにより、変換または埋め込みを使用して、クエリとどの程度一致するかに基づいて結果がランク付けされます。

ベクトル データベースは、AI モデルのデータを保存および取得して応答を生成する、検索拡張生成(RAG) システムの不可欠なコンポーネントです。 ベクトル データベースを使用すると、AI モデルが関連するデータとコンテキストに対応するデータに基づいて応答を取得および生成し、応答の正確性と関連性を高めることができます。

検索拡張生成 (RAG) を調べる

RAG システムは、情報取得システムを追加して、大規模言語モデルを改善します。 このシステムは、企業内のデータから作成されたベクトル化されたドキュメントや画像など、関連する特定のデータに AI の応答を根拠づけます。

ベクトル データベースを使用する RAG システムは、通常、次の手順に従います。

  1. 入力の質問またはクエリを埋め込み、ベクトル データベースから関連するデータを取得します。
  2. 最初の入力と、コンテキストを提供するために取得されたデータを含むプロンプトを生成します。
  3. 生成 AI モデルにクエリを実行し、プロンプトを組み合わせて応答を生成します。

検索拡張生成システムの図。

RAG システムを統合することで、言語モデルが使用するデータを正確に制御できるため、応答がより正確で調整されたものになります。 データを含むベクトル データベースとリンクすると、AI モデルでデータを使用し、その応答を改善し、それらの応答を企業に対してより適用可能でコンテキストに対応した内容にすることができます。

RAG システムでは、AI アプリケーションは、データによって調整および管理されます。その逆ではありません。

ベクトル データベース、埋め込み、検索拡張生成 (RAG) は、特に仮想コアベースの Azure Cosmos DB for MongoDB と Azure OpenAI を使用して、AI 駆動型アプリケーションを強化するために不可欠です。 埋め込みによって、複雑なデータが数値ベクトルに変換され、AI モデルの理解が向上します。これは、テキスト分類やデータ取得などのタスクに不可欠です。 ベクトル データベースでは、これらの埋め込みを使用して高速で意味論に基づく検索を実行し、データ取得機能を大幅に強化します。 これらのテクノロジを RAG システムに組み合わせると、AI は正確なだけでなく、特定のデータに合わせて調整された応答を提供し、アプリケーションの関連性と有効性の両方を向上させることができます。