PostgreSQL için Azure Cosmos DB'de etkinleştirme ve kullanma pgvector
Makale
ŞUNLAR IÇIN GEÇERLIDIR: PostgreSQL için Azure Cosmos DB (PostgreSQL'e citus veritabanı uzantısıyla desteklenir)
Uzantı PostgreSQL'e pgvector açık kaynak vektör benzerlik araması ekler.
Bu makalede tarafından pgvectoretkinleştirilen ek özellikler hakkında bilgi verilmektedir. Vektör benzerliği ve ekleme kavramlarını kapsar ve uzantının pgvector nasıl etkinleştirileceğine ilişkin rehberlik sağlar. Vektörleri oluşturma, depolama ve sorgulama hakkında bilgi ediniyoruz.
Projenin resmi BENİOKU bölümüne de başvurmak isteyebilirsiniz.
Uzantıyı etkinleştirme
PostgreSQL uzantılarının kullanılabilmesi için önce veritabanınızda etkinleştirilmesi gerekir. Uzantıyı etkinleştirmek için psql aracından komutunu çalıştırarak paketlenmiş nesneleri veritabanınıza yükleyin.
postgresql
SELECT CREATE_EXTENSION('vector');
Not
Uzantıyı devre dışı bırakmak için kullanın drop_extension()
Kavramlar
Vektör benzerliği
Vektör benzerliği, iki öğenin ne kadar benzer olduğunu ölçmek için kullanılan bir yöntemdir ve bunları sayı dizisi olan vektörler olarak temsil eder. Vektörler genellikle veri noktalarını temsil etmek için kullanılır; burada vektördeki her öğe veri noktasının bir özelliğini veya özniteliğini temsil eder.
Vektör benzerliği genellikle veya cosine benzerliği gibi Euclidean distance uzaklık ölçümleri kullanılarak hesaplanır. Öklid uzaklığı n boyutlu uzayda iki vektör arasındaki düz çizgi mesafesini ölçerken kosinüs benzerliği iki vektör arasındaki açının kosinüsünü ölçer. Benzerlik ölçümlerinin değerleri genellikle ile arasında 0 değişir ve 1higher değerler vektörler arasında daha fazla benzerlik gösterir.
Vektör benzerliği öneri sistemleri, metin sınıflandırması, görüntü tanıma ve kümeleme gibi çeşitli uygulamalarda yaygın olarak kullanılır. Örneğin, öneri sistemlerinde vektör benzerliği, kullanıcının tercihlerine göre benzer öğeleri tanımlamak için kullanılabilir. Metin sınıflandırmasında vektör benzerliği, vektör gösterimlerine göre iki belge veya cümle arasındaki benzerliği belirlemek için kullanılabilir.
Eklemeler
Ekleme, metin, resim, video veya diğer bilgi türlerinin "ilgililiğini" değerlendirme tekniğidir. Değerlendirme, makine öğrenmesi modellerinin veriler arasındaki ilişkileri ve benzerlikleri verimli bir şekilde tanımlamasına ve algoritmaların desenleri tanımlamasına ve doğru tahminlerde bulunmasına olanak tanır. Örneğin, bir yaklaşım analizi görevinde benzer eklemelere sahip sözcüklerin benzer yaklaşım puanlarına sahip olması beklenebilir.
Başlarken
Üç boyutlu vektör temsil eden türde vector(3) bir embedding sütuna sahip bir tablo tblvector oluşturun.
postgresql
CREATETABLE tblvector(
id bigserialPRIMARY KEY,
embedding vector(3)
);
OpenAI API gibi bir hizmeti kullanarak bir ekleme oluşturduktan sonra, sonuçta elde edilen vektöri veritabanınızda depolayabilirsiniz. vector(3) Vektör tanımlama, üç boyutlu düzlemde tanımlanır[x,y,z] coordinates. komutu, sağlanan eklemelerle birlikte tabloya tblvector beş yeni satır ekler.
deyimini kullanarak, ölçütlere INSERT INTO ... ON CONFLICT uyan kayıtları güncelleştirme gibi alternatif bir eylem belirtebilirsiniz. Olası çakışmaları daha verimli ve etkili bir şekilde işlemenizi sağlar.
komutu, DELETE WHERE yan tümcesinde belirtilen koşullara göre belirtilen tablodan satırları kaldırır. WHERE yan tümcesi olmadığında, tablodaki tüm satırlar silinir.
postgresql
DELETEFROM tblvector WHERE id = 1;
Vektörleri almak ve benzerliği hesaplamak için deyimleri ve yerleşik vektör işleçlerini kullanın SELECT . Örneğin sorgu, verilen vektör ile tabloda depolanan tblvector vektörler arasındaki Öklid uzaklığı (L2 uzaklığı) hesaplar, sonuçları hesaplanan uzaklıklara göre sıralar ve en yakın beş benzer öğeyi döndürür.
postgresql
SELECT * FROM tblvector
ORDERBY embedding <-> '[3,1,2]'LIMIT5;
Sorgu, çok boyutlu bir alanda iki vektör arasındaki uzaklığı hesaplamak için kullanılan "->" işlecini kullanır<. Sorgu, [3,1,2] vektörünün uzaklığı 6'dan az olan tüm satırları döndürür.
postgresql
SELECT * FROM tblvector WHERE embedding <-> '[3,1,2]' < 6;
komut, "tblvector" tablosundan "embedding" sütununun ortalama değerini alır. Örneğin, "ekleme" sütunu bir dil modeli için sözcük eklemeleri içeriyorsa, tümceyi veya belgeyi temsil etmek için bu eklemelerin ortalama değeri kullanılabilir.
postgresql
SELECT AVG(embedding) FROM tblvector;
Vektör işleçleri
pgvector vektörlerde kullanılabilecek altı yeni işleç sağlar:
Operator
Açıklama
+
öğeye göre ekleme
-
öğeye göre çıkarma
*
öğeye göre çarpma
<->
Öklid uzaklığı
<#>
negatif iç ürün
<=>
kosinüs uzaklığı
Vektör işlevleri
cosine_distance
İki vektör arasındaki kosinüs mesafesini hesaplar.
postgresql
cosine_distance(vector, vector)
Bağımsız değişkenler
vector
İlk olarak vector.
vector
İkinci vector.
Dönüş türü
double precision sağlanan iki vektör arasındaki uzaklık olarak.
inner_product
İki vektörünün iç çarpımını hesaplar.
postgresql
inner_product(vector, vector)
Bağımsız değişkenler
vector
İlk olarak vector.
vector
Saniye vector
Dönüş türü
double precision iki vektörünün iç ürünü olarak.
l2_distance
İki vektör arasındaki Öklid mesafesini (L2 olarak da bilinir) hesaplar.
postgresql
l2_distance(vector, vector)
Bağımsız değişkenler
vector
İlk olarak vector.
vector
Saniye vector
Dönüş türü
double precision iki vektör arasındaki Öklid uzaklığı olarak.
l1_distance
İki vektör arasındaki taksi mesafesini (L1 olarak da bilinir) hesaplar.
postgresql
l1_distance(vector, vector)
Bağımsız değişkenler
vector
İlk olarak vector.
vector
Saniye vector
Dönüş türü
double precision iki vektör arasındaki taksi mesafesi olarak.
vector_dims(vector)
Belirli bir vektörünün boyutlarını döndürür.
Bağımsız değişkenler
vector
Bir vector.
Dönüş türü
integer verilen vektörünün boyut sayısını temsil eder.
vector_norms(vector)
Belirli bir vektörünün Öklid normunu hesaplar.
Bağımsız değişkenler
vector
Bir vector.
Dönüş türü
double precision verilen vektörünün Öklid normunu temsil eden.
Vektör toplamaları
AVG
İşlenen vektörlerin ortalamasını hesaplar.
Bağımsız değişkenler
vector
Bir vector.
Dönüş türü
vector işlenen vektörlerin ortalamasını temsil eder.
SUM
Bağımsız değişkenler
vector
Bir vector.
Dönüş türü
vector işlenen vektörlerin toplamını temsil eder.
Sonraki Adımlar
kullanarak pgvectorperformans, dizin oluşturma ve sınırlamalar hakkında daha fazla bilgi edinin.
Diğer geliştiriciler ve uzmanlarla gerçek dünyadaki kullanım örneklerini temel alan ölçeklenebilir yapay zeka çözümleri oluşturmak için toplantı serisine katılın.