Değerlendirme ölçümleri

Makale
12/19/2023

Veri kümeniz iki bölüme ayrılır : eğitim kümesi ve test için bir küme. Eğitim kümesi modeli eğitmek için kullanılırken, test kümesi model performansını ve değerlendirmesini hesaplamak için eğitimden sonra model için bir test olarak kullanılır. Test kümesi, modelin yeni veriler üzerinde test edilmiş olduğundan emin olmak için eğitim süreci aracılığıyla modele tanıtılmıyor.

Eğitim başarıyla tamamlandıktan sonra model değerlendirmesi otomatik olarak tetikleniyor. Değerlendirme işlemi, test kümesindeki belgeler için kullanıcı tanımlı sınıfları tahmin etmek için eğitilen modeli kullanarak başlar ve bunları sağlanan veri etiketleriyle karşılaştırır (bu da bir doğruluk temeli oluşturur). Modelin performansını gözden geçirebilmeniz için sonuçlar döndürülür. Değerlendirme için özel metin sınıflandırması aşağıdaki ölçümleri kullanır:

Duyarlık: Modelinizin ne kadar hassas/doğru olduğunu ölçer. Doğru tanımlanmış pozitifler (gerçek pozitifler) ile tüm tanımlanan pozitifler arasındaki orandır. Duyarlık ölçümü, tahmin edilen sınıflardan kaçının doğru etiketlendiğini gösterir.

Precision = #True_Positive / (#True_Positive + #False_Positive)
Hatırlayın: Modelin gerçek pozitif sınıfları tahmin etme yeteneğini ölçer. Tahmin edilen gerçek pozitifler ile gerçekte etiketlenenler arasındaki orandır. Geri çekme ölçümü, tahmin edilen sınıflardan kaçının doğru olduğunu gösterir.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1 puanı: F1 puanı Duyarlık ve Yakalama işlevinin bir işlevidir. Duyarlık ve Geri Çekme arasında bir denge ararken gereklidir.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

Dekont

Duyarlık, geri çağırma ve F1 puanı her sınıf için ayrı ayrı (sınıf düzeyi değerlendirme) ve model için topluca (model düzeyi değerlendirme) hesaplanır.

Model düzeyi ve Sınıf düzeyi değerlendirme ölçümleri

Duyarlık, geri çağırma ve değerlendirme tanımları hem sınıf düzeyi hem de model düzeyi değerlendirmeleri için aynıdır. Ancak, Aşağıdaki örnekte gösterildiği gibi True Positive, False Positive ve False Negative sayıları farklılık gösterir.

Aşağıdaki bölümlerde aşağıdaki örnek veri kümesi kullanılır:

Belge	Gerçek sınıflar	Tahmin edilen sınıflar
1	aksiyon, komedi	Komedi
2	eylem	eylem
3	Romantizm	Romantizm
4	romantizm, komedi	Romantizm
5	Komedi	eylem

Eylem sınıfı için sınıf düzeyinde değerlendirme

Tuş	Sayı	Açıklama
Doğru Pozitif	1	Belge 2 eylem olarak doğru sınıflandırıldı.
Hatalı Pozitif	1	Belge 5 yanlışlıkla eylem olarak sınıflandırıldı.
Yanlış Negatif	1	Belge 1 olması gerekirken Eylem olarak sınıflandırılmamıştır.

Hassas = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Hatırla = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Komedi sınıfı için sınıf düzeyinde değerlendirme

Tuş	Sayı	Açıklama
Gerçek pozitif	1	1. belge doğru bir şekilde komedi olarak sınıflandırıldı.
Hatalı pozitif	0	Hiçbir belge yanlışlıkla komedi olarak sınıflandırılmadı.
Hatalı negatif	2	5. ve 4. belgeler, olması gerektiği halde komedi olarak sınıflandırılmamıştır.

Hassas = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 0) = 1

Hatırla = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 2) = 0.33

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 1 * 0.67) / (1 + 0.67) = 0.80

Kolektif model için model düzeyi değerlendirmesi

Tuş	Sayı	Açıklama
Doğru Pozitif	4	1, 2, 3 ve 4 belgelerine tahminde doğru sınıflar verilmiştir.
Hatalı Pozitif	1	Belge 5'e tahminde yanlış bir sınıf verildi.
Yanlış Negatif	2	1 ve 4 belgelerine tahminde tüm doğru sınıf verilmedi.

Hassas = #True_Positive / (#True_Positive + #False_Positive) = 4 / (4 + 1) = 0.8

Hatırla = #True_Positive / (#True_Positive + #False_Negatives) = 4 / (4 + 2) = 0.67

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.8 * 0.67) / (0.8 + 0.67) = 0.73

Dekont

Tek etiketli sınıflandırma modellerinde hatalı negatiflerin ve hatalı pozitiflerin sayısı her zaman eşittir. Özel tek etiketli sınıflandırma modelleri her belge için her zaman bir sınıf tahminde bulunur. Tahmin doğru değilse, tahmin edilen sınıfın FP sayısı bir artar ve gerçek sınıfın FN değeri bir artar, model için genel FP ve FN sayısı her zaman eşit olur. Bir belgenin sınıflarından birinin tahmin edilmemesi hatalı negatif olarak sayıldığından, çok etiketli sınıflandırma için bu durum geçerli değildir.

Sınıf düzeyi değerlendirme ölçümlerini yorumlama

Peki belirli bir sınıf için yüksek hassasiyete veya yüksek geri çağırmaya sahip olmak ne anlama geliyor?

Geri çek	Duyarlık	Yorumlama
Yüksek	Yüksek	Bu sınıf model tarafından mükemmel bir şekilde işlenir.
Düşük	Yüksek	Model her zaman bu sınıfı tahmin etmez, ancak bunu yaparken yüksek güvenle yapılır. Bunun nedeni bu sınıfın veri kümesinde fazla tanıtılmaması olabilir, bu nedenle veri dağıtımınızı dengelemeyi göz önünde bulundurun.
Yüksek	Düşük	Model bu sınıfı iyi tahmin eder, ancak düşük güvenilirliktedir. Bunun nedeni bu sınıfın veri kümesinde fazla temsil edilmesi olabilir, bu nedenle veri dağıtımınızı dengelemeyi göz önünde bulundurun.
Düşük	Düşük	Bu sınıf, genellikle tahmin edilmeyen model tarafından kötü işlenir ve tahmin edildiğinde yüksek güvenle işlenmez.

Özel metin sınıflandırma modellerinin hem hatalı negatifler hem de hatalı pozitiflerle karşılaşması beklenir. Her birinin genel sistemi nasıl etkileyeceğini ve modelin doğru tahminleri yoksayacağı ve yanlış tahminleri tanıyacağı senaryoları dikkatle düşünmeniz gerekir. Senaryonuza bağlı olarak, modelinizin performansını değerlendirmek için duyarlık veya geri çekme daha uygun olabilir.

Örneğin, senaryonuz teknik destek biletlerini işlemeyi içeriyorsa, yanlış sınıfın tahmin edilmesi yanlış departmana/takıma iletilmesine neden olabilir. Bu örnekte, sisteminizi hatalı pozitiflere karşı daha hassas hale getirmeniz gerekir ve duyarlık değerlendirme için daha ilgili bir ölçüm olacaktır.

Başka bir örnek olarak, senaryonuz e-postayı "önemli" veya "istenmeyen posta" olarak kategorilere ayırmayı içeriyorsa yanlış bir tahmin, "istenmeyen posta" olarak etiketlenmişse yararlı bir e-postayı kaçırmanıza neden olabilir. Ancak, bir istenmeyen posta e-postası önemli olarak etiketlenmişse e-postayı göz ardı edebilirsiniz. Bu örnekte, sisteminizi hatalı negatiflere karşı daha hassas hale getirmeniz gerekir ve geri çağırma değerlendirme için daha uygun bir ölçüm olacaktır.

Genel amaçlı senaryolar için iyileştirme yapmak istiyorsanız veya duyarlık ve geri çekme önemli olduğunda F1 puanını kullanabilirsiniz. Değerlendirme puanları, senaryonuza ve kabul ölçütlerinize bağlı olarak özneldir. Her senaryo için çalışan mutlak ölçüm yoktur.

Rehber

Modelinizi eğitdikten sonra modelin nasıl geliştirileceğine ilişkin bazı yönergeler ve öneriler görürsünüz. Kılavuz bölümündeki tüm noktaları kapsayan bir modele sahip olmanız önerilir.

Eğitim kümesi yeterli veriye sahip: Bir sınıf türünün eğitim verilerinde 15'ten az etiketli örneği olduğunda, modelin bu durumlarda yeterli şekilde eğitilmemesi nedeniyle daha düşük doğruluk sağlayabilir.
Tüm sınıf türleri test kümesinde bulunur: Test verilerinde sınıf türü için etiketli örnekler olmadığında, test edilmemiş senaryolar nedeniyle modelin test performansı daha az kapsamlı hale gelebilir.
Sınıf türleri eğitim ve test kümelerinde dengelenir: Örnekleme yanlılığı bir sınıf türünün sıklığının yanlış bir gösterimine neden olduğunda, model bu sınıf türünün çok sık veya çok az gerçekleşmesini beklediğinden düşük doğrulukla sonuçlanabilir.
Sınıf türleri eğitim ve test kümeleri arasında eşit bir şekilde dağıtılır: Sınıf türlerinin karışımı eğitim ve test kümeleri arasında eşleşmediğinde, modelin test edilme şeklinden farklı şekilde eğitildiği için test doğruluğunun düşmesine neden olabilir.
Eğitim kümesindeki sınıf türleri açıkça farklıdır: Eğitim verileri birden çok sınıf türü için benzer olduğunda, sınıf türleri sıklıkla birbiriyle yanlış sınıflandırılabileceğinden daha düşük doğrulukla sonuçlanabilir.

Karışıklık matrisi

Önemli

Çok etiketli sınıflandırma projeleri için karışıklık matrisi kullanılamaz. Karışıklık matrisi, model performansı değerlendirmesi için kullanılan bir N x N matristir; burada N sınıf sayısıdır. Matris beklenen etiketleri model tarafından tahmin edilen etiketlerle karşılaştırır. Bu, modelin ne kadar iyi performans sergilediğinden ve ne tür hatalar yaptığına ilişkin bütünsel bir görünüm sağlar.

Birbirine çok yakın olan ve genellikle yanlışlık (belirsizlik) olan sınıfları tanımlamak için Karışıklık matrisini kullanabilirsiniz. Bu durumda, bu sınıfları birlikte birleştirmeyi düşünün. Bu mümkün değilse, modelin aralarında ayrım yapmalarına yardımcı olmak için her iki sınıfla da daha fazla belge etiketlemeyi göz önünde bulundurun.

Tüm doğru tahminler tablonun köşegeninde yer alır, bu nedenle tabloyu çapraz dışındaki değerlerle temsil edilecekleri için tahmin hatalarını görsel olarak incelemek kolaydır.

Karışıklık matrisinden sınıf düzeyi ve model düzeyi değerlendirme ölçümlerini hesaplayabilirsiniz:

Köşegendeki değerler, her sınıfın Gerçek Pozitif değerleridir.
Sınıf satırlarındaki değerlerin toplamı (çapraz hariç) modelin hatalı pozitif değeridir.
Sınıf sütunlarındaki değerlerin toplamı (çapraz hariç) modelin yanlış Negatif değeridir.

Benzer şekilde,

Modelin gerçek pozitif değeri, tüm sınıflar için gerçek Pozitif değerlerinin toplamıdır.
Modelin hatalı pozitif değeri, tüm sınıflar için hatalı pozitiflerin toplamıdır.
Modelin hatalı Negatif değeri, tüm sınıflar için hatalı negatiflerin toplamıdır.

Share via