Sınıflandırma modelini değerlendirme

Tamamlandı

Makine öğrenmesinin büyük bir kısmı modellerin ne kadar iyi çalıştığını değerlendirmektir. Bu değerlendirme eğitim sırasında, modeli şekillendirmeye yardımcı olmak ve eğitimden sonra modelin gerçek dünyada kullanılmasının uygun olup olmadığını değerlendirmemize yardımcı olmak için gerçekleştirilir. Sınıflandırma modellerinin de regresyon modellerinde olduğu gibi değerlendirmeye ihtiyacı vardır ancak bu değerlendirmeyi yapma şeklimiz bazen biraz daha karmaşık olabilir.

Maliyete göre yenileyici

Eğitim sırasında bir modelin ne kadar kötü performans sergilediğini hesaplayacağımızı ve bu maliyeti veya kaybı çağıracağımızı unutmayın. Örneğin doğrusal regresyonda genellikle ortalama kare hata (MSE) adlı bir ölçüm kullanırız. MSE, tahmin ve gerçek etiket karşılaştırılarak, farkın karesi alınarak ve sonucun ortalaması alınarak hesaplanır. MSE'yi modelimize uygun hale getirmek ve ne kadar iyi çalıştığını raporlamak için kullanabiliriz.

Sınıflandırma için maliyet işlevleri

Sınıflandırma modelleri, %40'lık bir avalanche olasılığı veya son etiketler gibi çıkış olasılıklarına göre değerlendirilir veyano avalanche .avalanche Eğitim sırasında çıkış olasılıklarının kullanılması avantajlı olabilir. Modeldeki küçük değişiklikler, son kararı değiştirmek için yeterli olmasa bile olasılıklardaki değişikliklere yansır. Modelimizin gerçek dünya performansını tahmin etmek istiyorsak maliyet işlevi için son etiketleri kullanmak daha kullanışlıdır. Örneğin, test kümesinde. Çünkü gerçek dünya kullanımı için olasılıkları değil son etiketleri kullanırız.

Günlük kaybı

Günlük kaybı, basit sınıflandırma için en popüler maliyet işlevlerinden biridir. Çıkış olasılıklarına günlük kaybı uygulanır. MSE'ye benzer şekilde, az miktarda hata küçük maliyetle sonuçlanırken, orta miktarda hata büyük maliyetlerle sonuçlanır. Doğru yanıtın 0 (false) olduğu bir etiket için aşağıdaki grafikte günlük kaybını çiziyoruz.

Günlük kaybı örneği grafiğini gösteren diyagram.

x ekseni olası model çıkışlarını (0 ile 1 arasında olasılıklar) ve y ekseni ise maliyeti gösterir. Modelin doğru yanıtın 0 olduğundan (örneğin, 0,1 tahmini) yüksek güveni varsa. Daha sonra, bu örnekte doğru yanıt 0 olduğundan maliyet düşüktür. Model, sonucu güvenle yanlış tahmin ediyorsa (örneğin, 0,9 tahmininde) maliyet yüksek hale gelir. Aslında x=1'de maliyet o kadar yüksektir ki, grafiği okunabilir tutmak için buradaki x eksenini 0,999'a kırpıyoruz.

Neden MSE değil?

MSE ve günlük kaybı benzer ölçümlerdir. Log-loss'un lojistik regresyon için tercih olmasının bazı karmaşık nedenleri vardır, ancak bazı basit nedenler de vardır. Örneğin, günlük kaybı yanlış yanıtları MSE'den çok daha güçlü bir şekilde cezalandırır. Örneğin, doğru yanıtın 0 olduğu aşağıdaki grafikte, 0,8 üzerindeki tahminlerin günlük kaybı maliyeti MSE'den daha yüksektir.

Günlük kaybını ve mse grafiğini gösteren diyagram.

Bu şekilde maliyetin daha yüksek olması, çizginin dik gradyanı nedeniyle modelin daha hızlı öğrenmesine yardımcı olur. Benzer şekilde, günlük kaybı modellerin doğru yanıtı verme konusunda daha güvenli hale gelmesine yardımcı olur. Önceki çizimde, 0,2'den küçük değerler için MSE maliyetinin küçük olduğuna ve gradyanın neredeyse düz olduğuna dikkat edin. Bu ilişki, doğruya yakın modeller için eğitimi yavaşlatıyor. Günlük kaybı, modelin daha hızlı öğrenmesine yardımcı olan bu değerler için daha dik bir gradyan içerir.

Maliyet işlevlerinin sınırlamaları

Modelin insan değerlendirmesi için tek bir maliyet işlevi kullanmak her zaman sınırlıdır çünkü modelinizin ne tür hatalar yaptığını göstermez. Örneğin, çığ tahmini senaryomuzu göz önünde bulundurun. Günlük kaybı değerinin yüksek olması, modelin yok olduğunda sürekli olarak çığ tahmininde bulunduğu anlamına gelebilir. Ya da bu, gerçekleşen çığ tahminlerinin sürekli başarısız olduğu anlamına da gelebilir.

Modellerimizi daha iyi anlamak için, iyi çalışıp çalışmadıklarını değerlendirmek için birden fazla sayı kullanmak daha kolay olabilir. Bu daha büyük konuyu diğer öğrenme materyallerinde ele alacağız, ancak aşağıdaki alıştırmalarda bu konuya değineceğiz.