Düzenle

Aracılığıyla paylaş


Eklemeler oluşturma

Azure AI services
Azure AI Arama
Azure OpenAI Service
Azure Machine Learning

Artık belgelerinizi parçalara ayırdığınıza ve öbekleri zenginleştirdiğinize göre, sonraki adım bu öbekler ve üzerinde vektör araması yapmayı planladığınız tüm meta veri alanları için eklemeler oluşturmaktır. Ekleme, bir nesnenin metin gibi matematiksel bir gösterimidir. Sinir ağı eğitilirken, bir nesnenin birçok gösterimi oluşturulur ve her gösterimin ağdaki diğer nesnelerle bağlantıları vardır. Ekleme, nesnenin anlamsal anlamını yakaladığından seçilen nesnenin temsillerinden biridir.

Ekleme, bu nesnenin matematiksel bir gösterimi olduğundan ve bu gösterimin diğer nesnelerin gösterimleriyle bağlantıları olduğundan, nesneleri matematiksel olarak karşılaştırabilirsiniz. Eklemelerin anlamsal anlamı ve birbirleriyle ilişkileri nasıl yakaladığını gösteren ünlü bir örnek:

embedding("king") - embedding("man") + embedding("woman") ≈ embedding("queen")

Eklemeler, benzerlik ve uzaklık ifadeleri kullanılarak birbiriyle karşılaştırılır. Aşağıdaki diyagramda eklemelerin nasıl karşılaştırılacağı gösterilmektedir.

Vektörlerin nasıl karşılaştırıldığından gösteren diyagram.

Şekil 1. Eklemeleri karşılaştırma

Alma Artırılmış Nesil (RAG) çözümünde genellikle öbeklerinizle aynı ekleme modelini kullanarak kullanıcı sorgusunu ekler ve en anlamlı şekilde ilgili öbekleri döndürmek için veritabanınızdan ilgili vektörleri ararsınız. İlgili öbeklerin özgün metni daha sonra büyük dil modeline topraklama verileri olarak geçirilir.

Not

Vektörlerin bu özelliği öbekleri temizlemenin önemini vurgular, böylece matematiksel yakınlık semantik İlgi ile daha yakından izlenebilir.

Bu makale, bir serinin bir parçasıdır. Tanıtımı okuyun.

Ekleme modelinin önemi

Seçtiğiniz ekleme modelinin vektör arama sonuçlarınızın ilgisi üzerinde önemli bir etkisi olabilir. Ekleme modeli seçerken dikkate almanız gereken temel faktörlerden biri, modelin sözlüğüdür. Her ekleme modeli belirli bir sözlükle eğitilir. Örneğin, BERT kelime boyutu yaklaşık 30.000 kelimedir.

Ekleme modelinin kelime dağarcığı, ekleme modellerinin kelime dağarcığında olmayan sözcüklere nasıl davrandığı nedeniyle önemlidir. Sözcük kelime dağarcığında olmasa da modelin yine de onun için bir vektör hesaplaması gerekir. Bunu yapmak için, birçok model sözcükleri ayrı belirteçler olarak değerlendirdikleri veya tek bir ekleme oluşturmak için alt sözcüklerin vektörlerini toplayan alt sözcüklere ayırır.

Histogram sözcüğünün aşağıdaki alt sözcüklere ayrıldığını gösteren diyagram: his, ta ve benim.

Şekil 2. Bilinmeyen bir sözcüğü alt sözcüklere ayırma

Şimdi "histamin" sözcüğünün ekleme modeli kelime dağarcığında yer almadığı kurgusal bir örnek alalım. "Histamin", vücudunuzun saldığı bir kimyasal olarak anlamsal bir anlama sahiptir ve bu da alerjilerin birçok belirtisine neden olur. Ekleme modeli "histamin" içermediğinden, "his", "ta" ve "mine" gibi kelime dağarcığında yer alan alt sözcüklere bölebilir. Bu alt kelimelerin anlamsal anlamları hiçbir yerde "histamin" anlamına yakın değil. Alt sözcüklerin tek tek veya toplanmış vektör değerleri, modelin kelime dağarcığında "histamin" olması durumundan daha kötü vektör eşleşmeleri oluşturur.

Ekleme modeli seçme

Kullanım örneğiniz için doğru ekleme modelini belirlemek bir insan etkinliğidir. Ekleme modelinin kelime dağarcığıyla verilerinizin sözcükleri arasındaki çakışma, ekleme modelinizi seçerken dikkate almanız gereken önemli bir faktör olmalıdır.

Ekleme modeli seçme akışını diyagrama ekleyin.

Şekil 3. Ekleme modeli akışı seçme

İlk olarak içeriğinizin etki alanına özgü olup olmadığını belirlemeniz gerekir. Örneğin, belgeleriniz bir kullanım örneğine, kuruluşunuza veya bir sektöre özgü mü? Etki alanına özgülüğü belirlemenin iyi bir yolu, içeriğinizdeki varlıkların ve anahtar sözcüklerin İnternet'te genel olarak kullanılabilir veya bulunabilir olup olmadığını görmektir. Varsa, büyük olasılıkla genel bir ekleme modeli kullanır.

Genel veya etki alanına özgü olmayan içerik

Genel bir ekleme modeli seçerken, Başlangıç için iyi bir yer Yüz Tanıma puan tablosudur. Bu site, ekleme modellerinin güncel bir derecelendirmesini sağlar. En üst düzey modellerle başlayarak modellerin verilerinizle nasıl çalıştığını değerlendirin.

Alana özgü içerik

Etki alanına özgü içerik için ilk adım, kullanabileceğiniz etki alanına özgü bir model olup olmadığını belirlemektir. Örneğin, verilerinizin biyomedikal etki alanında olduğunu düşünün. Büyük bir biyomedikal literatürde önceden eğitilmiş bir dil modeli olan BioGPT modelini kullanmayı düşünmelisiniz. Bu model biyomedikal metin madenciliği ve üretimi için tasarlanmıştır. Etki alanı modelleri kullanılabiliyorsa, bu modellerin verilerinizle nasıl çalıştığını değerlendirerek başlayın.

Kullanılabilir etki alanına özgü model yoksa veya etki alanına özgü modeller iyi performans göstermiyorsa, bir sonraki seçenek genel bir ekleme modelini etki alanına özgü sözlüğünüzle hassas bir şekilde ayarlamaktır.

Önemli

Seçtiğiniz herhangi bir model için lisansın gereksinimlerinize uygun olduğunu ve modelin gerekli dil desteğini sağladığını doğrulamanız gerekir.

Ekleme modellerini değerlendirme

Ekleme modelini değerlendirmenin iki etkili aracı, eklemeleri görselleştirmek ve soru ile öbek vektörleri arasındaki mesafeyi değerlendirmektir.

Eklemeleri görselleştirme

Öbeklerinizin vektörlerini ve sorunuzu X-Y grafiğinde çizmek için t-SNE gibi kitaplıkları kullanabilirsiniz. Ardından öbeklerin birbirinden ne kadar uzakta olduğunu ve soruyu belirleyebilirsiniz. Şekilde, çizilen öbek vektörleri gösterilir. Birbirine yakın iki ok iki öbek vektörlerini temsil ederken, diğer ok bir soru vektörlerini temsil eder. Sorunun öbeklerden ne kadar uzak olduğunu anlamak için bu görselleştirmeyi kullanabilirsiniz.

Eklemenin görselleştirmesi. Resimde X-Y ölçeğinde çizilmiş bir dizi mavi nokta gösterilmektedir.

Şekil 4. Eklemeleri çizme

Ekleme uzaklıklarını hesaplama

Ekleme modelinizin sorularınız ve öbeklerinizle ne kadar iyi çalıştığını değerlendirmenin programlı bir yöntemi, soru vektörleri ile öbek vektörleri arasındaki mesafeyi hesaplamaktır. Öklid mesafesini veya Manhattan mesafesini kullanabilirsiniz.

Ekonomi ekleme

Ekleme modeli seçerken performans ile maliyet arasında bir denge vardır. Daha büyük ekleme modelleri genellikle karşılaştırma veri kümelerinde daha iyi performansa sahiptir. Ancak, artan performans bir maliyetle gelir. Daha büyük vektörler, vektör veritabanında depolanacak daha fazla alan gerektirir ve eklemeleri karşılaştırırken daha fazla hesaplama kaynağı ve zaman gerektirir. Daha küçük ekleme modelleri genellikle aynı karşılaştırmalarda daha düşük performansa sahiptir. Bunlar vektör veritabanınızda daha az alan gerektirir ve eklemeleri karşılaştırırken daha az işlem ve zaman gerektirir.

Sisteminizi tasarlarken hem depolama, hem işlem hem de performans gereksinimleri açısından ekleme maliyetini hesaba katmalısınız. Denemeler aracılığıyla modellerin performansının doğrulanması çok önemlidir. Genel kullanıma sunulan kıyaslamalar çoğunlukla akademik veri kümeleridir. Çoğu sonuç doğrudan iş verilerine ve kullanım örneklerine dönüştürülemez. Gereksinimlere bağlı olarak, maliyete göre performansı tercih edebilir veya düşük maliyet karşılığında yeterince iyi performanstan ödün verebilirsiniz.

Sonraki adımlar