PostgreSQL için Azure Cosmos DB'de etkinleştirme ve kullanma pgvector
ŞUNLAR IÇIN GEÇERLIDIR: PostgreSQL için Azure Cosmos DB (PostgreSQL'e citus veritabanı uzantısıyla desteklenir)
Uzantı PostgreSQL'e pgvector
açık kaynak vektör benzerlik araması ekler.
Bu makalede tarafından pgvector
etkinleştirilen ek özellikler hakkında bilgi verilmektedir. Vektör benzerliği ve ekleme kavramlarını kapsar ve uzantının pgvector
nasıl etkinleştirileceğine ilişkin rehberlik sağlar. Vektörleri oluşturma, depolama ve sorgulama hakkında bilgi ediniyoruz.
Projenin resmi BENİOKU bölümüne de başvurmak isteyebilirsiniz.
Uzantıyı etkinleştirme
PostgreSQL uzantılarının kullanılabilmesi için önce veritabanınızda etkinleştirilmesi gerekir. Uzantıyı etkinleştirmek için psql aracından komutunu çalıştırarak paketlenmiş nesneleri veritabanınıza yükleyin.
SELECT CREATE_EXTENSION('vector');
Not
Uzantıyı devre dışı bırakmak için kullanın drop_extension()
Kavramlar
Vektör benzerliği
Vektör benzerliği, iki öğenin ne kadar benzer olduğunu ölçmek için kullanılan bir yöntemdir ve bunları sayı dizisi olan vektörler olarak temsil eder. Vektörler genellikle veri noktalarını temsil etmek için kullanılır; burada vektördeki her öğe veri noktasının bir özelliğini veya özniteliğini temsil eder.
Vektör benzerliği genellikle veya cosine
benzerliği gibi Euclidean distance
uzaklık ölçümleri kullanılarak hesaplanır. Öklid uzaklığı n boyutlu uzayda iki vektör arasındaki düz çizgi mesafesini ölçerken kosinüs benzerliği iki vektör arasındaki açının kosinüsünü ölçer. Benzerlik ölçümlerinin değerleri genellikle ile arasında 0
değişir ve 1
higher
değerler vektörler arasında daha fazla benzerlik gösterir.
Vektör benzerliği öneri sistemleri, metin sınıflandırması, görüntü tanıma ve kümeleme gibi çeşitli uygulamalarda yaygın olarak kullanılır. Örneğin, öneri sistemlerinde vektör benzerliği, kullanıcının tercihlerine göre benzer öğeleri tanımlamak için kullanılabilir. Metin sınıflandırmasında vektör benzerliği, vektör gösterimlerine göre iki belge veya cümle arasındaki benzerliği belirlemek için kullanılabilir.
Eklemeler
Ekleme, metin, resim, video veya diğer bilgi türlerinin "ilgililiğini" değerlendirme tekniğidir. Değerlendirme, makine öğrenmesi modellerinin veriler arasındaki ilişkileri ve benzerlikleri verimli bir şekilde tanımlamasına ve algoritmaların desenleri tanımlamasına ve doğru tahminlerde bulunmasına olanak tanır. Örneğin, bir yaklaşım analizi görevinde benzer eklemelere sahip sözcüklerin benzer yaklaşım puanlarına sahip olması beklenebilir.
Başlarken
Üç boyutlu vektör temsil eden türde vector(3)
bir embedding
sütuna sahip bir tablo tblvector
oluşturun.
CREATE TABLE tblvector(
id bigserial PRIMARY KEY,
embedding vector(3)
);
OpenAI API gibi bir hizmeti kullanarak bir ekleme oluşturduktan sonra, sonuçta elde edilen vektöri veritabanınızda depolayabilirsiniz. vector(3)
Vektör tanımlama, üç boyutlu düzlemde tanımlanır[x,y,z] coordinates
. komutu, sağlanan eklemelerle birlikte tabloya tblvector
beş yeni satır ekler.
INSERT INTO tblvector (id, embedding) VALUES (1, '[1,2,3]'), (2, '[4,5,6]'), (3, '[5,4,6]'), (4, '[3,5,7]'), (5, '[7,8,9]');
deyimini kullanarak, ölçütlere INSERT INTO ... ON CONFLICT
uyan kayıtları güncelleştirme gibi alternatif bir eylem belirtebilirsiniz. Olası çakışmaları daha verimli ve etkili bir şekilde işlemenizi sağlar.
INSERT INTO tblvector (id, embedding) VALUES (1, '[1,2,3]'), (2, '[4,5,6]')
ON CONFLICT (id) DO UPDATE SET embedding = EXCLUDED.embedding;
komutu, DELETE
WHERE yan tümcesinde belirtilen koşullara göre belirtilen tablodan satırları kaldırır. WHERE yan tümcesi olmadığında, tablodaki tüm satırlar silinir.
DELETE FROM tblvector WHERE id = 1;
Vektörleri almak ve benzerliği hesaplamak için deyimleri ve yerleşik vektör işleçlerini kullanın SELECT
. Örneğin sorgu, verilen vektör ile tabloda depolanan tblvector
vektörler arasındaki Öklid uzaklığı (L2 uzaklığı) hesaplar, sonuçları hesaplanan uzaklıklara göre sıralar ve en yakın beş benzer öğeyi döndürür.
SELECT * FROM tblvector
ORDER BY embedding <-> '[3,1,2]'
LIMIT 5;
Sorgu, çok boyutlu bir alanda iki vektör arasındaki uzaklığı hesaplamak için kullanılan "->" işlecini kullanır<. Sorgu, [3,1,2] vektörünün uzaklığı 6'dan az olan tüm satırları döndürür.
SELECT * FROM tblvector WHERE embedding <-> '[3,1,2]' < 6;
komut, "tblvector" tablosundan "embedding" sütununun ortalama değerini alır. Örneğin, "ekleme" sütunu bir dil modeli için sözcük eklemeleri içeriyorsa, tümceyi veya belgeyi temsil etmek için bu eklemelerin ortalama değeri kullanılabilir.
SELECT AVG(embedding) FROM tblvector;
Vektör işleçleri
pgvector
vektörlerde kullanılabilecek altı yeni işleç sağlar:
Operator | Açıklama |
---|---|
+ | öğeye göre ekleme |
- | öğeye göre çıkarma |
* | öğeye göre çarpma |
<-> | Öklid uzaklığı |
<#> | negatif iç ürün |
<=> | kosinüs uzaklığı |
Vektör işlevleri
cosine_distance
İki vektör arasındaki kosinüs mesafesini hesaplar.
cosine_distance(vector, vector)
Bağımsız değişkenler
vector
İlk olarak vector
.
vector
İkinci vector
.
Dönüş türü
double precision
sağlanan iki vektör arasındaki uzaklık olarak.
inner_product
İki vektörünün iç çarpımını hesaplar.
inner_product(vector, vector)
Bağımsız değişkenler
vector
İlk olarak vector
.
vector
Saniye vector
Dönüş türü
double precision
iki vektörünün iç ürünü olarak.
l2_distance
İki vektör arasındaki Öklid mesafesini (L2 olarak da bilinir) hesaplar.
l2_distance(vector, vector)
Bağımsız değişkenler
vector
İlk olarak vector
.
vector
Saniye vector
Dönüş türü
double precision
iki vektör arasındaki Öklid uzaklığı olarak.
l1_distance
İki vektör arasındaki taksi mesafesini (L1 olarak da bilinir) hesaplar.
l1_distance(vector, vector)
Bağımsız değişkenler
vector
İlk olarak vector
.
vector
Saniye vector
Dönüş türü
double precision
iki vektör arasındaki taksi mesafesi olarak.
vector_dims(vector)
Belirli bir vektörünün boyutlarını döndürür.
Bağımsız değişkenler
vector
Bir vector
.
Dönüş türü
integer
verilen vektörünün boyut sayısını temsil eder.
vector_norms(vector)
Belirli bir vektörünün Öklid normunu hesaplar.
Bağımsız değişkenler
vector
Bir vector
.
Dönüş türü
double precision
verilen vektörünün Öklid normunu temsil eden.
Vektör toplamaları
AVG
İşlenen vektörlerin ortalamasını hesaplar.
Bağımsız değişkenler
vector
Bir vector
.
Dönüş türü
vector
işlenen vektörlerin ortalamasını temsil eder.
SUM
Bağımsız değişkenler
vector
Bir vector
.
Dönüş türü
vector
işlenen vektörlerin toplamını temsil eder.
Sonraki Adımlar
kullanarak pgvector
performans, dizin oluşturma ve sınırlamalar hakkında daha fazla bilgi edinin.