Azure Cosmos DB for PostgreSQL で `pgvector` を有効にして使用する方法

[アーティクル]
08/15/2024

適用対象: Azure Cosmos DB for PostgreSQL (PostgreSQL の Citus データベース拡張機能を利用)

pgvector 拡張機能により、オープンソースベクトルの類似性検索が PostgreSQL に追加されます。

この記事では、pgvector で有効になっている追加の機能について説明します。ベクトルの類似性と埋め込みの概念について説明し、pgvector 拡張機能を有効にする方法に関するガイダンスを提供します。ベクトルを作成、保存、クエリする方法について学習します。プロジェクトの公式 README を参照することもできます。

拡張機能を有効にする

PostgreSQL 拡張機能を使用するには、その拡張機能がデータベースで有効にされている必要があります。拡張機能を有効にするには、psql ツールからコマンドを実行して、パッケージ化されたオブジェクトをデータベースに読み込みます。

SELECT CREATE_EXTENSION('vector');

注意

拡張機能を無効にするには、drop_extension() を使用します。

概念

ベクトルの類似性

ベクトルの類似性は、2 つの項目をベクトル (一連の数値) として表すことによってどのように類似しているかを測定するために使用されるメソッドです。ベクトルは、多くの場合、データポイントを表すために使用され、ベクトルの各要素は、データポイントの特徴または属性を表します。

ベクトルの類似性は通常、Euclidean distance または cosine の類似性などの距離メトリックを使用して計算されます。ユークリッド距離は、n 次元空間内の 2 つのベクトル間の直線距離を測定し、コサイン類似性は 2 つのベクトル間の角度のコサインを測定します。類似性メトリックの値は通常、0 から 1 までの範囲にあり、higher 値はベクトル間の類似性がより高いことを示します。

ベクトルの類似性は、レコメンデーションシステム、テキスト分類、画像認識、クラスタリングなどのさまざまなアプリケーションで広く使用されています。たとえば、レコメンデーションシステムでは、ベクトルの類似性を使用して、ユーザーの好みに基づいて同様の項目を識別できます。テキスト分類では、ベクトルの類似性を使用して、ベクトル表現に基づいて 2 つのドキュメントまたは文間の類似性を判断できます。

埋め込み

埋め込みは、テキスト、画像、ビデオ、またはその他の種類の情報の「関連性」を評価する手法です。この評価により、機械学習モデルはデータ間の関係と類似性を効率的に識別でき、アルゴリズムはパターンを識別し、正確な予測を行うことができます。たとえば、感情分析タスクでは、埋め込みの類似した単語のセンチメントスコアが似ていると予想される場合があります。

作業の開始

3 次元ベクトルを表すembedding型の列vector(3)を持つテーブル tblvector を作成します。

CREATE TABLE tblvector(
    id bigserial PRIMARY KEY,
    embedding vector(3)
    );

OpenAI API などのサービスを使用して埋め込みを生成したら、結果のベクトルをデータベースに保存できます。ベクトルを vector(3) として定義すると、3 次元平面で [x,y,z] coordinates が指定されます。このコマンドは、この提供された埋め込みを使用して tblvector テーブルに 5 つの新しい行を挿入します。

INSERT INTO tblvector (id, embedding) VALUES (1, '[1,2,3]'), (2, '[4,5,6]'), (3, '[5,4,6]'), (4, '[3,5,7]'), (5, '[7,8,9]');

INSERT INTO ... ON CONFLICT ステートメントを使用すると、条件に一致するレコードの更新などの代替アクションを指定できます。これにより、潜在的な競合をより効率的かつ効果的に処理できるようになります。

INSERT INTO tblvector (id, embedding) VALUES (1, '[1,2,3]'), (2, '[4,5,6]')
ON CONFLICT (id) DO UPDATE SET embedding = EXCLUDED.embedding;

DELETE コマンドは、WHERE 句で指定された条件に基づいて、指定されたテーブルから行を削除します。 WHERE 句が存在しない場合、テーブル内のすべての行が削除されます。

DELETE FROM tblvector WHERE id = 1;

ベクトルを取得して類似性を計算するには、SELECT ステートメントと組み込みのベクトル演算子を使用します。たとえば、クエリは、指定されたベクトルと tblvector テーブルに格納されているベクトルの間のユークリッド距離 (L2 距離) を計算し、計算された距離によって結果を並べ替え、5 つの最も近い、最も類似した項目を返します。

SELECT * FROM tblvector 
ORDER BY embedding <-> '[3,1,2]' 
LIMIT 5;

クエリでは、多次元空間内の 2 つのベクトル間の距離を計算するために使用される「距離演算子」である「<->」演算子が使用されます。クエリは、ベクトル [3,1,2] からの距離が 6 未満のすべての行を返します。

SELECT * FROM tblvector WHERE embedding <-> '[3,1,2]' < 6;

このコマンドは、"tblvector" テーブルから "embedding" 列の平均値を取得します。たとえば、"埋め込み" 列に言語モデルの単語埋め込みが含まれている場合、これらの埋め込みの平均値を使用して、文全体またはドキュメント全体を表すことができます。

SELECT AVG(embedding) FROM tblvector;

ベクトル演算子

pgvector には、ベクトルに対し使用できる 6 つの新しい演算子が導入されています。

Operator	説明
+	要素ごとの加算
-	要素ごとの減算
*	要素ごとの乗算
<->	ユークリッド距離
<#>	負の内積
<=>	コサイン距離

ベクトル関数

`cosine_distance`

2 つのベクトル間のコサイン距離を計算します。

cosine_distance(vector, vector)

引数

`vector`

1 番目の vector。

`vector`

2 番目の vector。

返り値の種類

2 つの指定されたベクトル間の距離を表す double precision。

`inner_product`

2 つのベクトルの内積を計算します。

inner_product(vector, vector)

引数

`vector`

1 番目の vector。

`vector`

2 番目の vector

返り値の種類

2 つのベクトルの内積を表す double precision。

`l2_distance`

2 つのベクトル間のユークリッド距離 (L2 とも呼ばれます) を計算します。

l2_distance(vector, vector)

引数

`vector`

1 番目の vector。

`vector`

2 番目の vector

返り値の種類

2 つのベクトル間のユークリッド距離を表す double precision。

`l1_distance`

2 つのベクトル間のタクシー距離 (L1 とも呼ばれます) を計算します。

l1_distance(vector, vector)

引数

`vector`

1 番目の vector。

`vector`

2 番目の vector

返り値の種類

2 つのベクトル間のタクシー距離を表す double precision。

`vector_dims(vector)`

指定されたベクトルの次元を返します。

引数

`vector`

vector。

返り値の種類

指定されたベクトルの次元数を表す integer。

`vector_norms(vector)`

特定のベクトルのユークリッドノルムを計算します。

引数

`vector`

vector。

返り値の種類

指定されたベクトルのユークリッドノルムを表す double precision。

ベクトル集計

`AVG`

処理されたベクトルの平均を計算します。

引数

`vector`

vector。

返り値の種類

処理されたベクトルの平均を表す vector。

`SUM`

引数

`vector`

vector。

返り値の種類

処理されたベクトルの合計を表す vector。

次のステップ

詳細については、pgvector を使用して、パフォーマンス、インデックス作成、制限事項を参照してください。

pgvector を使用したパフォーマンスの最適化

次の方法で共有

Azure Cosmos DB for PostgreSQL で pgvector を有効にして使用する方法

拡張機能を有効にする

概念

ベクトルの類似性

埋め込み

作業の開始

ベクトル演算子

ベクトル関数

cosine_distance

引数

vector

vector

返り値の種類

inner_product

引数

vector

vector

返り値の種類

l2_distance

引数

vector

vector

返り値の種類

l1_distance

引数

vector

vector

返り値の種類

vector_dims(vector)

引数

vector

返り値の種類

vector_norms(vector)

引数

vector

返り値の種類

ベクトル集計

AVG

引数

vector

返り値の種類

SUM

引数

vector

返り値の種類

次のステップ

フィードバック

その他のリソース

Azure Cosmos DB for PostgreSQL で `pgvector` を有効にして使用する方法

`cosine_distance`

`vector`

`vector`

`inner_product`

`vector`

`vector`

`l2_distance`

`vector`

`vector`

`l1_distance`

`vector`

`vector`

`vector_dims(vector)`

`vector`

`vector_norms(vector)`

`vector`

`AVG`

`vector`

`SUM`

`vector`