Aracılığıyla paylaş


Düzenleme iş akışı modelleri için değerlendirme ölçümleri

Veri kümeniz iki bölüme ayrılır: eğitim kümesi ve test için bir küme. Eğitim kümesi modeli eğitmek için kullanılırken, test kümesi model performansını ve değerlendirmesini hesaplamak için eğitimden sonra model için bir test olarak kullanılır. Test kümesi, modelin yeni veriler üzerinde test edilmiş olduğundan emin olmak için eğitim süreci aracılığıyla modele tanıtılmıyor.

Eğitim başarıyla tamamlandıktan sonra model değerlendirmesi otomatik olarak tetikleniyor. Değerlendirme işlemi, test kümesindeki konuşmalar için kullanıcı tanımlı amaçları tahmin etmek için eğitilen modeli kullanarak başlar ve bunları sağlanan etiketlerle karşılaştırır (bu da bir doğruluk temeli oluşturur). Modelin performansını gözden geçirebilmeniz için sonuçlar döndürülür. Değerlendirme için düzenleme iş akışı aşağıdaki ölçümleri kullanır:

  • Duyarlık: Modelinizin ne kadar hassas/doğru olduğunu ölçer. Doğru tanımlanmış pozitifler (gerçek pozitifler) ile tüm tanımlanan pozitifler arasındaki orandır. Duyarlık ölçümü, tahmin edilen sınıflardan kaçının doğru etiketlendiğini gösterir.

    Precision = #True_Positive / (#True_Positive + #False_Positive)

  • Hatırlayın: Modelin gerçek pozitif sınıfları tahmin etme yeteneğini ölçer. Tahmin edilen gerçek pozitifler ile gerçekte etiketlenenler arasındaki orandır. Geri çekme ölçümü, tahmin edilen sınıflardan kaçının doğru olduğunu gösterir.

    Recall = #True_Positive / (#True_Positive + #False_Negatives)

  • F1 puanı: F1 puanı Duyarlık ve Yakalama işlevinin bir işlevidir. Duyarlık ve Geri Çekme arasında bir denge ararken gereklidir.

    F1 Score = 2 * Precision * Recall / (Precision + Recall)

Duyarlık, yakalama ve F1 puanı şunlar için hesaplanır:

  • Her amaç ayrı ayrı (amaç düzeyi değerlendirmesi)
  • Model için topluca (model düzeyinde değerlendirme).

Duyarlık, yakalama ve değerlendirme tanımları, amaç düzeyi ve model düzeyi değerlendirmeleri için aynıdır. Ancak, Gerçek Pozitifler, Hatalı Pozitifler ve Hatalı Negatifler için sayılar farklılık gösterebilir. Örneğin, aşağıdaki metni göz önünde bulundurun.

Örnek

  • Çok teşekkür ederiz ile bir yanıt yapın
  • Arkadaşımı ara
  • Merhaba
  • Günaydın

Kullanılan amaçlar şunlardır: CLUEmail ve Greeting

Model aşağıdaki tahminleri yapabilir:

İfade Tahmin edilen amaç Gerçek amaç
Çok teşekkür ederiz ile bir yanıt yapın CLUEmail CLUEmail
Arkadaşımı ara Selamlama CLUEmail
Merhaba CLUEmail Selamlama
İyi hatıralar Selamlama Selamlama

CLUEmail amacı için amaç düzeyi değerlendirmesi

Anahtar Sayı Açıklama
Doğru Pozitif 1 Konuşma 1, CLUEmail olarak doğru tahmin edildi.
Hatalı Pozitif 1 Konuşma 3 yanlışlıkla CLUEmail olarak tahmin edildi.
Yanlış Negatif 1 Konuşma 2 yanlışlıkla Selamlama olarak tahmin edildi.

Kesinlik = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Anımsamak = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Selamlama amacı için amaç düzeyi değerlendirmesi

Anahtar Sayı Açıklama
Doğru Pozitif 1 Konuşma 4, Selamlama olarak doğru tahmin edildi.
Hatalı Pozitif 1 Konuşma 2 yanlışlıkla Selamlama olarak tahmin edildi.
Yanlış Negatif 1 Konuşma 3 yanlışlıkla CLUEmail olarak tahmin edildi.

Kesinlik = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Anımsamak = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Kolektif model için model düzeyi değerlendirmesi

Anahtar Sayı Açıklama
Doğru Pozitif 2 Tüm amaçlar için TP toplamı
Hatalı Pozitif 2 Tüm amaçlar için FP toplamı
Yanlış Negatif 2 Tüm amaçlar için FN toplamı

Kesinlik = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

Anımsamak = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Karışıklık matrisi

Karışıklık matrisi, model performansı değerlendirmesi için kullanılan bir N x N matrisidir; burada N amaç sayısıdır. Matris, gerçek etiketleri model tarafından tahmin edilen etiketlerle karşılaştırır. Bu, modelin ne kadar iyi performans sergilediğinden ve ne tür hatalar yaptığına ilişkin bütünsel bir görünüm sağlar.

Birbirine çok yakın olan ve genellikle yanlışlık (belirsizlik) olan amaçları belirlemek için Karışıklık matrisini kullanabilirsiniz. Bu durumda bu amaçları bir araya getirin. Bu mümkün değilse, modelin aralarında ayrım yapmalarına yardımcı olmak için her iki amaç için de daha etiketli örnekler eklemeyi göz önünde bulundurun.

Karışıklık matrisinden model düzeyi değerlendirme ölçümlerini hesaplayabilirsiniz:

  • Modelin gerçek pozitif değeri, tüm amaçlar için gerçek Pozitif değerlerinin toplamıdır.
  • Modelin hatalı pozitif değeri, tüm amaçlar için hatalı pozitiflerin toplamıdır.
  • Modelin hatalı Negatif değeri, tüm amaçlar için hatalı negatiflerin toplamıdır.

Sonraki adımlar

Language Studio'da model eğitin