Düzenleme iş akışı modelleri için değerlendirme ölçümleri
Veri kümeniz iki bölüme ayrılır: eğitim kümesi ve test için bir küme. Eğitim kümesi modeli eğitmek için kullanılırken, test kümesi model performansını ve değerlendirmesini hesaplamak için eğitimden sonra model için bir test olarak kullanılır. Test kümesi, modelin yeni veriler üzerinde test edilmiş olduğundan emin olmak için eğitim süreci aracılığıyla modele tanıtılmıyor.
Eğitim başarıyla tamamlandıktan sonra model değerlendirmesi otomatik olarak tetikleniyor. Değerlendirme işlemi, test kümesindeki konuşmalar için kullanıcı tanımlı amaçları tahmin etmek için eğitilen modeli kullanarak başlar ve bunları sağlanan etiketlerle karşılaştırır (bu da bir doğruluk temeli oluşturur). Modelin performansını gözden geçirebilmeniz için sonuçlar döndürülür. Değerlendirme için düzenleme iş akışı aşağıdaki ölçümleri kullanır:
Duyarlık: Modelinizin ne kadar hassas/doğru olduğunu ölçer. Doğru tanımlanmış pozitifler (gerçek pozitifler) ile tüm tanımlanan pozitifler arasındaki orandır. Duyarlık ölçümü, tahmin edilen sınıflardan kaçının doğru etiketlendiğini gösterir.
Precision = #True_Positive / (#True_Positive + #False_Positive)
Hatırlayın: Modelin gerçek pozitif sınıfları tahmin etme yeteneğini ölçer. Tahmin edilen gerçek pozitifler ile gerçekte etiketlenenler arasındaki orandır. Geri çekme ölçümü, tahmin edilen sınıflardan kaçının doğru olduğunu gösterir.
Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1 puanı: F1 puanı Duyarlık ve Yakalama işlevinin bir işlevidir. Duyarlık ve Geri Çekme arasında bir denge ararken gereklidir.
F1 Score = 2 * Precision * Recall / (Precision + Recall)
Duyarlık, yakalama ve F1 puanı şunlar için hesaplanır:
- Her amaç ayrı ayrı (amaç düzeyi değerlendirmesi)
- Model için topluca (model düzeyinde değerlendirme).
Duyarlık, yakalama ve değerlendirme tanımları, amaç düzeyi ve model düzeyi değerlendirmeleri için aynıdır. Ancak, Gerçek Pozitifler, Hatalı Pozitifler ve Hatalı Negatifler için sayılar farklılık gösterebilir. Örneğin, aşağıdaki metni göz önünde bulundurun.
Örnek
- Çok teşekkür ederiz ile bir yanıt yapın
- Arkadaşımı ara
- Merhaba
- Günaydın
Kullanılan amaçlar şunlardır: CLUEmail ve Greeting
Model aşağıdaki tahminleri yapabilir:
İfade | Tahmin edilen amaç | Gerçek amaç |
---|---|---|
Çok teşekkür ederiz ile bir yanıt yapın | CLUEmail | CLUEmail |
Arkadaşımı ara | Selamlama | CLUEmail |
Merhaba | CLUEmail | Selamlama |
İyi hatıralar | Selamlama | Selamlama |
CLUEmail amacı için amaç düzeyi değerlendirmesi
Anahtar | Sayı | Açıklama |
---|---|---|
Doğru Pozitif | 1 | Konuşma 1, CLUEmail olarak doğru tahmin edildi. |
Hatalı Pozitif | 1 | Konuşma 3 yanlışlıkla CLUEmail olarak tahmin edildi. |
Yanlış Negatif | 1 | Konuşma 2 yanlışlıkla Selamlama olarak tahmin edildi. |
Kesinlik = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Anımsamak = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Selamlama amacı için amaç düzeyi değerlendirmesi
Anahtar | Sayı | Açıklama |
---|---|---|
Doğru Pozitif | 1 | Konuşma 4, Selamlama olarak doğru tahmin edildi. |
Hatalı Pozitif | 1 | Konuşma 2 yanlışlıkla Selamlama olarak tahmin edildi. |
Yanlış Negatif | 1 | Konuşma 3 yanlışlıkla CLUEmail olarak tahmin edildi. |
Kesinlik = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Anımsamak = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Kolektif model için model düzeyi değerlendirmesi
Anahtar | Sayı | Açıklama |
---|---|---|
Doğru Pozitif | 2 | Tüm amaçlar için TP toplamı |
Hatalı Pozitif | 2 | Tüm amaçlar için FP toplamı |
Yanlış Negatif | 2 | Tüm amaçlar için FN toplamı |
Kesinlik = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5
Anımsamak = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5
F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Karışıklık matrisi
Karışıklık matrisi, model performansı değerlendirmesi için kullanılan bir N x N matrisidir; burada N amaç sayısıdır. Matris, gerçek etiketleri model tarafından tahmin edilen etiketlerle karşılaştırır. Bu, modelin ne kadar iyi performans sergilediğinden ve ne tür hatalar yaptığına ilişkin bütünsel bir görünüm sağlar.
Birbirine çok yakın olan ve genellikle yanlışlık (belirsizlik) olan amaçları belirlemek için Karışıklık matrisini kullanabilirsiniz. Bu durumda bu amaçları bir araya getirin. Bu mümkün değilse, modelin aralarında ayrım yapmalarına yardımcı olmak için her iki amaç için de daha etiketli örnekler eklemeyi göz önünde bulundurun.
Karışıklık matrisinden model düzeyi değerlendirme ölçümlerini hesaplayabilirsiniz:
- Modelin gerçek pozitif değeri, tüm amaçlar için gerçek Pozitif değerlerinin toplamıdır.
- Modelin hatalı pozitif değeri, tüm amaçlar için hatalı pozitiflerin toplamıdır.
- Modelin hatalı Negatif değeri, tüm amaçlar için hatalı negatiflerin toplamıdır.