Regresyon nedir?
Regresyon basit, yaygın ve son derece kullanışlı bir veri analizi tekniğidir ve genellikle "çizgi uydurma" olarak adlandırılır. En basit haliyle regresyon, bir değişken (özellik) ile başka bir değişken (etiket) arasında düz bir çizgiye sığar. Daha karmaşık biçimlerde regresyon, tek bir etiketle birden çok özellik arasındaki doğrusal olmayan ilişkileri bulabilir.
Basit doğrusal regresyon
Basit doğrusal regresyon, tek bir özellik ile genellikle sürekli bir etiket arasındaki doğrusal ilişkiyi modelleyerek özelliğin etiketi tahmin etmesine olanak tanır. Görsel olarak şuna benzer olabilir:
Basit doğrusal regresyonun iki parametresi vardır: bir kesme noktası (c), özelliğin sıfır olarak ayarlandığında etiketin değerini gösteren kesme noktası (c) ve özellikteki her bir nokta artışı için etiketin ne kadar artacağını gösteren eğim (m).
Matematiksel olarak düşünmek isterseniz, bu basitçe:
y=mx+c
Burada y sizin etiketiniz, x ise sizin özelliğinizdir.
Örneğin, senaryomuzda hangi hastaların yaşlarına göre ateşin yükseldiği bir vücut sıcaklığına sahip olacağını tahmin etmeye çalışsaydık, modele sahip olurduk:
temperature=m*age+c
Ve montaj işlemi sırasında m ve c değerlerini bulmak gerekir. m = 0,5 ve c = 37 bulursak, bunu şu şekilde görselleştirebiliriz:
Bu, her yaş yılının 37°C'lik bir başlangıç noktası ile 0,5°C vücut sıcaklığı artışı ile ilişkili olduğu anlamına gelir.
Doğrusal regresyonu sığdırma
Normalde regresyon modellerini bizim için sığdırmak için mevcut kitaplıkları kullanırız. Regresyon genellikle en az hata üreten satırı bulmayı hedefler; burada hata, gerçek veri noktası değeri ile tahmin edilen değer arasındaki fark anlamına gelir. Örneğin, aşağıdaki görüntüde siyah çizgi tahmin, kırmızı çizgi ve bir gerçek değer arasındaki hatayı gösterir: nokta.
Bu iki noktaya y ekseninde baktığımızda tahminin 39,5 olduğunu ancak gerçek değerin 41 olduğunu görebiliriz.
Bu nedenle model, bu veri noktası için 1,5 ile hatalıydı.
En yaygın olarak, karelerin artık toplamını en aza indirerek bir modeli sığdırıyoruz. Bu, maliyet işlevinin şu şekilde hesaplandığını gösterir:
- Her veri noktası için gerçek ve tahmin edilen değerler (daha önce olduğu gibi) arasındaki farkı hesaplayın.
- Bu değerlerin karesi.
- Bu kare değerleri toplama (veya ortalama).
Bu kareleme adımı, tüm noktaların çizgiye eşit şekilde katkıda bulunmadığı anlamına gelir: aykırı değerler (beklenen desende düşmeyen noktalardır), orantısız olarak daha büyük bir hataya sahiptir ve bu da çizginin konumunu etkileyebilir.
Regresyonun güçlü yanları
Regresyon teknikleri, daha karmaşık modellerin sahip olmadığı birçok güçlü güce sahiptir.
Tahmin edilebilir ve yorumlanabilmesi kolay
Regresyonları yorumlamak kolaydır çünkü genellikle grafını çizebileceğimiz basit matematiksel denklemleri açıklarlar. Daha karmaşık modeller genellikle kara kutu çözümleri olarak adlandırılır, çünkü tahminde bulunmalarını veya belirli girişlerle nasıl davranacaklarını anlamak zordur.
Tahmin etmek kolay
Regresyonlar, tahminde bulunmayı kolaylaştırır; veri kümemizin aralığının dışındaki değerler için tahminlerde bulunmak için. Örneğin, önceki örneğimizde dokuz yaşındaki bir köpeğin 40,5°C sıcaklığa sahip olacağını tahmin etmek kolaydır. Tahmine her zaman dikkat etmelisiniz: Bu model, 90 yaşındaki bir çocukta suyu kaynatacak kadar sıcak bir sıcaklığa sahip olacağını tahmin eder.
En uygun bağlantı genellikle garanti edilir
Çoğu makine öğrenmesi modeli, gradyan azalma algoritmasını ayarlamayı içeren ve en uygun çözümün bulunacağı garantisini vermeyen modelleri sığdırmak için gradyan azalmasını kullanır. Buna karşılık, maliyet işlevi olarak karelerin toplamını kullanan doğrusal regresyonun yinelemeli gradyan azalma yordamına ihtiyacı yoktur. Bunun yerine akıllı matematik, yerleştirilecek çizginin en uygun konumunu hesaplamak için kullanılabilir. Matematik bu modülün kapsamı dışındadır, ancak doğrusal regresyonun (örnek boyutu çok büyük olmadığı sürece) uygun işleme özel dikkat edilmesi gerekmediğinden ve en uygun çözümün garanti edildiğinden emin olmak yararlıdır.