Düzenleme iş akışı modelleri için değerlendirme ölçümleri

Makale
12/19/2023

Veri kümeniz iki bölüme ayrılır: eğitim kümesi ve test için bir küme. Eğitim kümesi modeli eğitmek için kullanılırken, test kümesi model performansını ve değerlendirmesini hesaplamak için eğitimden sonra model için bir test olarak kullanılır. Test kümesi, modelin yeni veriler üzerinde test edilmesi için eğitim süreci aracılığıyla modele tanıtılmıyor.

Eğitim başarıyla tamamlandıktan sonra model değerlendirmesi otomatik olarak tetikleniyor. Değerlendirme işlemi, test kümesindeki ifadeler için kullanıcı tanımlı amaçları tahmin etmek için eğitilen modeli kullanarak başlar ve bunları sağlanan etiketlerle karşılaştırır (bu da bir doğruluk temeli oluşturur). Modelin performansını gözden geçirebilmeniz için sonuçlar döndürülür. Değerlendirme için düzenleme iş akışı aşağıdaki ölçümleri kullanır:

Duyarlık: Modelinizin ne kadar hassas/doğru olduğunu ölçer. Doğru tanımlanmış pozitifler (gerçek pozitifler) ile tüm tanımlanan pozitifler arasındaki orandır. Duyarlık ölçümü, tahmin edilen sınıflardan kaçının doğru etiketlendiğini gösterir.

Precision = #True_Positive / (#True_Positive + #False_Positive)
Hatırlayın: Modelin gerçek pozitif sınıfları tahmin etme yeteneğini ölçer. Tahmin edilen gerçek pozitifler ile gerçekte etiketlenen değerler arasındaki orandır. Geri çağırma ölçümü, tahmin edilen sınıflardan kaçının doğru olduğunu gösterir.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1 puanı: F1 puanı Duyarlık ve Yakalama işlevinin bir işlevidir. Duyarlık ve Yakalama arasında bir denge ararken bu gereklidir.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

Duyarlık, yakalama ve F1 puanı şunlar için hesaplanır:

Her amaç ayrı ayrı (amaç düzeyinde değerlendirme)
Model için birlikte (model düzeyinde değerlendirme).

Duyarlık, yakalama ve değerlendirme tanımları amaç düzeyi ve model düzeyi değerlendirmeleri için aynıdır. Ancak , Gerçek Pozitifler, Hatalı Pozitifler ve Hatalı Negatifler için sayımlar farklılık gösterebilir. Örneğin, aşağıdaki metni göz önünde bulundurun.

Örnek

Çok teşekkür ederiz ile bir yanıt yapın
Arkadaşımı ara
Hello
Günaydın

Kullanılan amaçlar şunlardır: CLUEmail ve Greeting

Model aşağıdaki tahminleri yapabilir:

İfade	Tahmin edilen amaç	Gerçek amaç
Çok teşekkür ederiz ile bir yanıt yapın	CLUEmail	CLUEmail
Arkadaşımı ara	Karşılama	CLUEmail
Hello	CLUEmail	Karşılama
Günaydın	Karşılama	Karşılama

CLUEmail amacı için amaç düzeyi değerlendirmesi

Anahtar	Count	Açıklama
Doğru Pozitif	1	Konuşma 1 doğru şekilde CLUEmail olarak tahmin edildi.
Yanlış Pozitif	1	Konuşma 3 yanlışlıkla CLUEmail olarak tahmin edildi.
Yanlış Negatif	1	Konuşma 2 yanlışlıkla Selamlama olarak tahmin edildi.

Hassas = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Hatırla = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Selamlama amacı için amaç düzeyi değerlendirmesi

Anahtar	Count	Açıklama
Doğru Pozitif	1	Konuşma 4, Selamlama olarak doğru tahmin edildi.
Yanlış Pozitif	1	Konuşma 2 yanlışlıkla Selamlama olarak tahmin edildi.
Yanlış Negatif	1	Konuşma 3 yanlışlıkla CLUEmail olarak tahmin edildi.

Hassas = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Hatırla = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Kolektif model için model düzeyinde değerlendirme

Anahtar	Count	Açıklama
Doğru Pozitif	2	Tüm amaçlar için TP toplamı
Yanlış Pozitif	2	Tüm amaçlar için FP toplamı
Yanlış Negatif	2	Tüm amaçlar için FN toplamı

Hassas = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

Hatırla = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Karışıklık matrisi

Karışıklık matrisi, model performansı değerlendirmesi için kullanılan bir N x N matrisidir; burada N amaç sayısıdır. Matris, gerçek etiketleri model tarafından tahmin edilen etiketlerle karşılaştırır. Bu, modelin ne kadar iyi performans sergilediğinden ve ne tür hatalar yaptığına ilişkin bütünsel bir görünüm sağlar.

Birbirine çok yakın olan ve genellikle yanlışlık (belirsizlik) olan amaçları belirlemek için Karışıklık matrisini kullanabilirsiniz. Bu durumda, bu amaçları birlikte birleştirmeyi göz önünde bulundurun. Bu mümkün değilse, modelin aralarında ayrım yapmalarına yardımcı olmak için her iki amaç için de daha fazla etiketli örnek eklemeyi göz önünde bulundurun.

Karışıklık matrisinden model düzeyinde değerlendirme ölçümlerini hesaplayabilirsiniz:

Modelin gerçek pozitif değeri, tüm amaçlar için gerçek Pozitiflerin toplamıdır.
Modelin hatalı pozitif değeri, tüm amaçlar için hatalı pozitiflerin toplamıdır.
Modelin yanlış Negatif değeri, tüm amaçlar için hatalı negatiflerin toplamıdır.

Sonraki adımlar

Language Studio'da model eğitma

Share via

Düzenleme iş akışı modelleri için değerlendirme ölçümleri

Örnek

CLUEmail amacı için amaç düzeyi değerlendirmesi

Selamlama amacı için amaç düzeyi değerlendirmesi

Kolektif model için model düzeyinde değerlendirme

Karışıklık matrisi

Sonraki adımlar

Ek kaynaklar