Düzenleme iş akışı modelleri için değerlendirme ölçümleri

Makale
10/16/2024

Veri kümeniz iki bölüme ayrılır: eğitim kümesi ve test için bir küme. Eğitim kümesi modeli eğitmek için kullanılırken, test kümesi model performansını ve değerlendirmesini hesaplamak için eğitimden sonra model için bir test olarak kullanılır. Test kümesi, modelin yeni veriler üzerinde test edilmiş olduğundan emin olmak için eğitim süreci aracılığıyla modele tanıtılmıyor.

Eğitim başarıyla tamamlandıktan sonra model değerlendirmesi otomatik olarak tetikleniyor. Değerlendirme işlemi, test kümesindeki konuşmalar için kullanıcı tanımlı amaçları tahmin etmek için eğitilen modeli kullanarak başlar ve bunları sağlanan etiketlerle karşılaştırır (bu da bir doğruluk temeli oluşturur). Modelin performansını gözden geçirebilmeniz için sonuçlar döndürülür. Değerlendirme için düzenleme iş akışı aşağıdaki ölçümleri kullanır:

Duyarlık: Modelinizin ne kadar hassas/doğru olduğunu ölçer. Doğru tanımlanmış pozitifler (gerçek pozitifler) ile tüm tanımlanan pozitifler arasındaki orandır. Duyarlık ölçümü, tahmin edilen sınıflardan kaçının doğru etiketlendiğini gösterir.

Precision = #True_Positive / (#True_Positive + #False_Positive)
Hatırlayın: Modelin gerçek pozitif sınıfları tahmin etme yeteneğini ölçer. Tahmin edilen gerçek pozitifler ile gerçekte etiketlenenler arasındaki orandır. Geri çekme ölçümü, tahmin edilen sınıflardan kaçının doğru olduğunu gösterir.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1 puanı: F1 puanı Duyarlık ve Yakalama işlevinin bir işlevidir. Duyarlık ve Geri Çekme arasında bir denge ararken gereklidir.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

Duyarlık, yakalama ve F1 puanı şunlar için hesaplanır:

Her amaç ayrı ayrı (amaç düzeyi değerlendirmesi)
Model için topluca (model düzeyinde değerlendirme).

Duyarlık, yakalama ve değerlendirme tanımları, amaç düzeyi ve model düzeyi değerlendirmeleri için aynıdır. Ancak, Gerçek Pozitifler, Hatalı Pozitifler ve Hatalı Negatifler için sayılar farklılık gösterebilir. Örneğin, aşağıdaki metni göz önünde bulundurun.

Örnek

Çok teşekkür ederiz ile bir yanıt yapın
Arkadaşımı ara
Merhaba
Günaydın

Kullanılan amaçlar şunlardır: CLUEmail ve Greeting

Model aşağıdaki tahminleri yapabilir:

İfade	Tahmin edilen amaç	Gerçek amaç
Çok teşekkür ederiz ile bir yanıt yapın	CLUEmail	CLUEmail
Arkadaşımı ara	Selamlama	CLUEmail
Merhaba	CLUEmail	Selamlama
İyi hatıralar	Selamlama	Selamlama

CLUEmail amacı için amaç düzeyi değerlendirmesi

Anahtar	Sayı	Açıklama
Doğru Pozitif	1	Konuşma 1, CLUEmail olarak doğru tahmin edildi.
Hatalı Pozitif	1	Konuşma 3 yanlışlıkla CLUEmail olarak tahmin edildi.
Yanlış Negatif	1	Konuşma 2 yanlışlıkla Selamlama olarak tahmin edildi.

Kesinlik = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Anımsamak = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Selamlama amacı için amaç düzeyi değerlendirmesi

Anahtar	Sayı	Açıklama
Doğru Pozitif	1	Konuşma 4, Selamlama olarak doğru tahmin edildi.
Hatalı Pozitif	1	Konuşma 2 yanlışlıkla Selamlama olarak tahmin edildi.
Yanlış Negatif	1	Konuşma 3 yanlışlıkla CLUEmail olarak tahmin edildi.

Kesinlik = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Anımsamak = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Kolektif model için model düzeyi değerlendirmesi

Anahtar	Sayı	Açıklama
Doğru Pozitif	2	Tüm amaçlar için TP toplamı
Hatalı Pozitif	2	Tüm amaçlar için FP toplamı
Yanlış Negatif	2	Tüm amaçlar için FN toplamı

Kesinlik = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

Anımsamak = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Karışıklık matrisi

Karışıklık matrisi, model performansı değerlendirmesi için kullanılan bir N x N matrisidir; burada N amaç sayısıdır. Matris, gerçek etiketleri model tarafından tahmin edilen etiketlerle karşılaştırır. Bu, modelin ne kadar iyi performans sergilediğinden ve ne tür hatalar yaptığına ilişkin bütünsel bir görünüm sağlar.

Birbirine çok yakın olan ve genellikle yanlışlık (belirsizlik) olan amaçları belirlemek için Karışıklık matrisini kullanabilirsiniz. Bu durumda bu amaçları bir araya getirin. Bu mümkün değilse, modelin aralarında ayrım yapmalarına yardımcı olmak için her iki amaç için de daha etiketli örnekler eklemeyi göz önünde bulundurun.

Karışıklık matrisinden model düzeyi değerlendirme ölçümlerini hesaplayabilirsiniz:

Modelin gerçek pozitif değeri, tüm amaçlar için gerçek Pozitif değerlerinin toplamıdır.
Modelin hatalı pozitif değeri, tüm amaçlar için hatalı pozitiflerin toplamıdır.
Modelin hatalı Negatif değeri, tüm amaçlar için hatalı negatiflerin toplamıdır.

Sonraki adımlar

Language Studio'da model eğitin

Aracılığıyla paylaş

Düzenleme iş akışı modelleri için değerlendirme ölçümleri

Örnek

CLUEmail amacı için amaç düzeyi değerlendirmesi

Selamlama amacı için amaç düzeyi değerlendirmesi

Kolektif model için model düzeyi değerlendirmesi

Karışıklık matrisi

Sonraki adımlar

Geri Bildirim

Ek kaynaklar