Sınıflandırma modelleri nedir?
Sınıflandırma modelleri, kararlar almak veya öğeleri kategorilere atamak için kullanılır. Yükseklikler veya ağırlıklar gibi sürekli sayıların çıkışını veren regresyon modüllerinden farklı olarak sınıflandırma modelleri Boole değerleri (ya da ) ya false
da true
, cherry
banana
veya gibi apple
kategorik kararlar verir.
Birçok sınıflandırma modeli türü vardır. Bazıları klasik regresyon modellerine benzer şekilde çalışırken, bazıları temelde farklıdır. Başlangıçta öğrenilmesi gereken en iyi modellerden biri lojistik regresyondur .
Lojistik regresyon nedir?
Lojistik regresyon, doğrusal regresyona benzer şekilde çalışan bir sınıflandırma modeli türüdür. Bu ve doğrusal regresyon arasındaki fark, eğrinin şeklidir. Basit doğrusal regresyon verilere düz bir çizgi sığdırsa da lojistik regresyon modelleri s şeklindeki bir eğriye uyar:
Lojistik regresyon, Boole sonuçlarını tahmin etmek için doğrusal regresyondan daha iyidir çünkü lojistik eğri her zaman 0 (yanlış) ile 1 (true) arasında bir değer üretir. Bu iki değer arasındaki her şey olasılık olarak düşünülebilir.
Örneğin, bugün bir çığ oluşup oluşmayabileceğini tahmin etmeye çalıştığımızı varsayalım. Lojistik regresyon modelimiz bize 0,3 değerini veriyorsa , %30'lık bir çığ olasılığı olduğunu tahmin eder.
Çıkışları kategorilere dönüştürme
Lojistik regresyon, basit true/false değerleri yerine bu olasılıkları sağladığından, sonucu bir kategoriye dönüştürmek için ek adımlar atmalıyız. Bu dönüştürmeyi yapmanın en basit yolu bir eşik uygulamaktır. Örneğin, aşağıdaki grafikte eşiğimiz 0,5 olarak ayarlanmıştır. Bu eşik, 0,5'in altındaki y değerlerinin false değerine (sol alt kutu) dönüştürüldüğü ve 0,5'in üzerindeki tüm değerlerin sağ üst kutu olan true değerine dönüştürüldüğü anlamına gelir.
Grafiğe baktığımızda, özellik 5'in altında olduğunda olasılığın 0,5'ten küçük olduğunu ve false'a dönüştürüldüğünü görebiliriz. 5'in üzerinde olan özellik değerleri 0,5'in üzerinde olasılıklar verir ve true değerine dönüştürülür.
Lojistik regresyonun doğru/yanlış bir sonuçla sınırlı olması gerekmediği dikkate değerdir; , veya sun
gibi rain
snow
üç veya daha fazla olası sonucun bulunduğu durumlarda da kullanılabilir. Bu tür bir sonuç, çok terimli lojistik regresyon olarak adlandırılan biraz daha karmaşık bir kurulum gerektirir. Sonraki birkaç alıştırmada çok terimli lojistik regresyon uygulamasak da, ikili olmayan tahminler yapmanız gereken durumlarda göz önünde bulundurmaya değer.
Lojistik regresyonun birden fazla giriş özelliğini kullanabileceğini de belirtmek gerekir: bu durumda yakında daha fazlası.