Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
[Bu makale bir sürüm öncesi belgesidir ve değiştirilebilir.]
Test setleri oluştururken, ajanınızın yanıtlarını değerlendirmek için farklı test yöntemleri arasından seçim yapabilirsiniz: metin eşleşmesi, benzerlik ve kalite. Her test yönteminin kendi güçlü yönleri vardır ve farklı değerlendirme türleri için uygundur.
Metin eşleştirme test yöntemleri
Metin eşleştirme test yöntemleri, aracının yanıtlarını test kümesinde tanımladığınız beklenen yanıtlarla karşılaştırır. İki eşleşme testi vardır:
Tam eşleşme , aracının yanıtının testte beklenen yanıtla tam olarak eşleşip eşleşmediğini denetler: karakter için karakter, sözcük sözcüğü. Aynıysa geçer. Bir şey farklılık gösterirse, başarısız olur. Tam eşleşme, sayılar, kodlar veya sabit tümcecikler gibi kısa ve kesin yanıtlar için kullanışlıdır. İnsanların birden çok doğru şekilde ifade edebildiği yanıtlara uygun değildir.
Anahtar kelime eşleşmesi, ajanın cevabında tanımladığınız beklenen yanıttan bazı kelimeleri veya ifadeleri içerip içermediğini kontrol eder. Öyleyse geçer. Aksi takdirde başarısız olur. Anahtar kelime eşleştirmesi, bir yanıt farklı doğru şekillerde ifade edilebiliyorsa, ancak anahtar terimler veya fikirler yine de yanıta dahil edilmeli olduğunda faydalıdır.
Benzerlik test yöntemleri
Benzerlik testi yöntemi, ajanın yanıtlarının test setinizde tanımladığınız beklenen yanıtlarla benzerliğini karşılaştırır. Bir yanıtın farklı doğru yollarla ifade edilebilmesi ancak genel anlamın veya amacın yine de gelmesi gerektiğinde yararlıdır.
Ajansın cevabının beklenen cevabın ifade tarzı ve anlamına ne kadar benzer olduğunu değerlendirmek ve bir puan belirlemek için kosinüs benzerlik ölçütü kullanır. Puan 0 ile 1 arasında değişir; burada 1, yanıtın yakın eşleşmediğini, 0 ise eşleşmediğini gösterir. Bir yanıt için geçiş puanının ne olduğunu belirlemek için bir geçiş puanı eşiği ayarlayabilirsiniz.
Kalite testi yöntemleri
Kalite testi yöntemleri, aracınızın yanıtlarının standartlarınıza uygun olup olmadığına karar vermenize yardımcı olur. Bu yaklaşım, sonuçların hem güvenilir hem de açıklaması kolay olmasını sağlar.
Bu yöntemler, bir aracının kullanıcı sorularını ne kadar etkili bir şekilde yanıtlayanı değerlendirmek için büyük bir dil modeli (LLM) kullanır. Yanıtlar, alınan belgelere ve konuşma akışına göre yanıtları değerlendirmenin esnek ve ölçeklenebilir bir yolunu sunarak tam olarak yanıt beklenmiyorsa özellikle yararlıdır.
Kalite testi yöntemleri iki test yöntemi içerir:
Genel kalite, aracı yanıtlarını değerlendirir. Bu temel kriterleri kullanır ve puanlama için tutarlı bir prompt uygular:
İlgi: Aracının yanıtının soruyu ne ölçüde ele verdiği. Örneğin, ajanın yanıtı konuyla ilgili kalır ve soruyu doğrudan yanıtlar mı?
Temel: Aracının yanıtının sağlanan bağlama göre ne ölçüde olduğu. Örneğin, aracının yanıt başvurusu veya ilgisiz veya desteklenmeyen bilgileri tanıtmak yerine bağlamda verilen bilgilere güveniyor mu?
Eksiksizlik: Aracının yanıtının gerekli tüm bilgileri ne ölçüde sağladığı. Örneğin, aracının yanıtı sorunun tüm yönlerini kapsıyor ve yeterli ayrıntı sağlıyor mu?
Çekimserlik: Aracının soruyu yanıtlamaya çalışıp çalışmadığı.
Yüksek kaliteli sayılması için yanıtın tüm bu temel kriterleri karşılaması gerekir. Bir kriterin karşılanmaması durumunda, yanıt iyileştirme için işaretlenir. Bu puanlama yöntemi, yalnızca hem eksiksiz hem de iyi desteklenen yanıtların üst işaretleri almasını sağlar. Buna karşılık, eksik veya destekleyici kanıt eksikliği olan yanıtlar daha düşük puanlar alır.
Anlamı karşılaştırmak, aracının yanıtının beklenen yanıtın hedeflenen anlamını ne kadar iyi yansıttığını değerlendirir. Kesin ifadeye odaklanmak yerine, niyet benzerliği kullanır; yani kelimelerin arkasındaki fikirleri ve anlamı karşılaştırarak tepkinin beklenenle ne kadar yakın olduğunu değerlendirir.
Bir yanıt için geçiş puanının ne olduğunu belirlemek için bir geçiş puanı eşiği ayarlayabilirsiniz. Varsayılan geçiş puanı 50'dir. Anlam karşılaştırma testi yöntemi, bir cevabın farklı doğru şekillerde ifade edilebildiği, ancak genel anlamın veya niyetin yine de ortaya çıkması gerektiği durumlarda faydalıdır.
Eşikler ve geçiş oranları
Test senaryosunun başarısı, seçtiğiniz test yöntemine ve geçer notlar için ayarladığınız eşiğe bağlıdır.
Her test yöntemi, tam eşleşme hariç, değerlendirme kriterleri setine dayalı sayısal bir puan üretir. Bu puan, temsilcinin cevabının bu kriterleri ne kadar iyi karşıladığını yansıtır. Eşik, geçişi başarısızdan ayıran kesme puanıdır. Benzerlik için geçiş puanlarını ayarlayabilir ve test çalışmalarının anlamını karşılaştırabilirsiniz.
Tam eşleşme, sayısal puan üretmeyen katı bir test yöntemidir. Cevap tam olarak eşleşmeli ki geçebilsin. Test çalışması için eşiği seçerek değerlendirmenin ne kadar katı veya yumuşak olduğuna karar verirsiniz. Her test yöntemi aracının yanıtını farklı değerlendirir, bu nedenle değerlendirme ölçütlerinize en uygun olanı seçmeniz önemlidir.