Özel özetleme modellerinizi test etme ve değerlendirme

Makale
12/19/2023

Özel özetleme modelinizi oluştururken, kaliteli bir modele sahip olduğunuzdan emin olmak istersiniz. İyi performans sergilediğinden emin olmak için özel özetleme modelinizi test edip değerlendirmeniz gerekir.

Bölünmüş test ve eğitim kümelerine ilişkin yönergeler

Özelleştirilmiş özetleme modeli oluşturmanın önemli bir aşaması, oluşturulan modelin kalite açısından tatmin edici olduğunu ve beklendiği gibi özetler oluşturduğunu doğrulamaktır. Bu doğrulama işleminin eğitim için kullanılan örneklerden ayrı bir örnek kümesiyle (test örnekleri olarak adlandırılır) gerçekleştirilmesi gerekir. Kullanılabilir verileri eğitim ve teste bölerken izlemenizi önerdiğimiz üç önemli yönerge vardır:

Boyut: Modelin kalitesi hakkında yeterli güvenilirlik sağlamak için test kümesinin makul boyutta olması gerekir. Modeli yalnızca birkaç örnek üzerinde test ederek yanıltıcı sonuç değerlendirme süreleri elde edebilirsiniz. Yüzlerce örneği değerlendirmenizi öneririz. Çok sayıda belge/konuşma kullanılabilir olduğunda, bunların en az %10'unun test için rezerve olmasını öneririz.
Çakışma Yok: Aynı belgenin eğitim ve test için aynı anda kullanılmadığından emin olmak çok önemlidir. Test, hiçbir aşamada eğitim için hiç kullanılmamış belgeler üzerinde gerçekleştirilmelidir, aksi takdirde modelin kalitesi yüksek oranda tahmin edilebilir.
Çeşitlilik: Test kümesi mümkün olduğunca çok giriş özelliğini kapsamalıdır. Örneğin, farklı uzunluklarda, konu başlıklarında, stillerde, .. Vb. uygun olduğunda. Konuşma özetlemesinde de benzer şekilde, farklı sayıda dönüş ve konuşmacıdan oluşan konuşmaları dahil etmek her zaman iyi bir fikirdir.

Özel özetleme modelini değerlendirme kılavuzu

Özel bir modeli değerlendirirken hem otomatik hem de el ile değerlendirmeyi birlikte kullanmanızı öneririz. Otomatik değerlendirme, test kümesinin tamamı için üretilen özetlerin kalitesini hızla değerlendirmeye yardımcı olur ve bu nedenle çok çeşitli giriş varyasyonlarını kapsar. Ancak otomatik değerlendirme, kalitenin yaklaşık bir değerlendirmesini sağlar ve model kalitesine güven sağlamak için tek başına yeterli değildir. Bu nedenle, mümkün olduğunca çok sayıda test belgesi için üretilen özetlerin incelenmesini de öneririz.

Otomatik değerlendirme

Şu anda ROUGE (Deneme Değerlendirmesi için Geri Çağırma Odaklı Yedekli) adlı bir ölçüm kullanıyoruz. Bu teknik, bir özetin kalitesini insanlar tarafından oluşturulan ideal özetlerle karşılaştırarak otomatik olarak belirlemeye yönelik ölçüleri içerir. Ölçüler, değerlendirilen bilgisayar tarafından oluşturulan özet ile ideal özetler arasında n-gram, sözcük dizileri ve sözcük çiftleri gibi çakışan birimlerin sayısını sayar. Rouge hakkında daha fazla bilgi edinmek için ROUGE Wikipedia girdisine ve ROUGE paketiyle ilgili belgeye bakın.

El ile değerlendirme

Bir özetin kalitesini el ile incelediğinizde, özel modelin stil, biçim veya uzunluk gibi uyması için eğitildiğine ilişkin istenen beklentilerin yanı sıra, bir özetin genel niteliklerini denetlemenizi öneririz. Denetlemenizi önerdiğimiz genel nitelikler şunlardır:

Akıcılık: Özette biçimlendirme sorunları, büyük harfe çevirme hataları veya programlama dışı cümleler olmamalıdır.
Tutarlılık: Özet iyi yapılandırılmış ve iyi düzenlenmiş olmalıdır. Özet yalnızca ilgili bilgilerin bir yığını olmamalıdır, aynı zamanda bir konu hakkındaki bilgilerin tutarlı bir gövdesine tümceden cümleye derlenmelidir.
Kapsam: Özet, belgedeki/konuşmadaki tüm önemli bilgileri kapsamalıdır.
İlgi: Özet, yedeklilik olmadan yalnızca kaynak belgedeki/konuşmadaki önemli bilgileri içermelidir.
Halüsinasyonlar: Özet, kaynak belge/konuşma tarafından desteklenmeyen yanlış bilgiler içermiyor.

Özetleme değerlendirmesi hakkında daha fazla bilgi edinmek için SummEval ile ilgili MIT Press makalesine bakın.

Share via

Özel özetleme modellerinizi test etme ve değerlendirme

Bölünmüş test ve eğitim kümelerine ilişkin yönergeler

Özel özetleme modelini değerlendirme kılavuzu

Otomatik değerlendirme

El ile değerlendirme

Ek kaynaklar