Sınıflandırma modellerini geliştirme

Tamamlandı

Alıştırmalarımızda modelimizin bir dereceye kadar çığ tahmininde bulunabileceğini ancak %40 civarında yanlış olduğunu tespit ettik. Bu hata miktarının nedeni, zayıf kar katmanlarının sayısı olan özelliğimizin, çığlardan sorumlu tek şey olmadığıdır.

Şimdi sınıflandırma modeli performansını artırmanın iki birincil yolunu gözden geçirelim: daha fazla özellik sağlama ve modele girenler hakkında seçici olma.

Daha fazla özellik sağlayın

Doğrusal regresyon gibi lojistik regresyonun da tek bir girişle sınırlı olması gerekmez. Tahminlerde bulunmak için özellikleri birleştirebilir. Örneğin, kar düşüşü ve bir patikayı rahatsız eden yürüyüşçü sayısı temelinde çığ tahmininde bulunuruz. Bir avalanche olasılığını hesaplamak için bu özelliklerin her ikisini de aynı modele girebiliriz.

Lojistik regresyon, özellikleri doğrusal regresyona benzer şekilde dahili olarak birleştirir. Diğer bir deyişle, tüm özellikleri bağımsız olarak ele alır, yani özelliklerin birbirlerini etkilemediğini varsayar. Örneğin modelimiz, kar yağışı miktarının patikayı ziyaret eden kişi sayısını değiştirmediğini varsayar. Varsayılan olarak, patikada kaç yürüyüşçü olduğuna bakılmaksızın, kar yağışının belirli bir miktarda çığ riskini artırdığını da varsayar.

Bağımsız özelliklerin iyi ve kötü yanları

Lojistik regresyon, özellikleri birleştirerek birlikte çalışma şeklinin modellenebilmesini ancak varsayılan olarak modellenmeyeceği açıkça söylenebilir. Lojistik regresyonun karar ağaçları ve sinir ağları gibi diğer iyi bilinen kategori algoritmalarından farklı hale getirilmesi.

Lojistik regresyonun özellikleri varsayılan olarak bağımsız olarak ele alması hem güç hem de dikkate alınması gereken bir sınırlamadır. Örneğin, insan sayısının artırılması riski artırması gibi net tahminler yapabilir ve bu genellikle diğer modellerle yapılamaz. Ayrıca eğitim verilerinin fazla uygunluk olasılığını azaltır. Buna karşılık, özellikler gerçek dünyada gerçekten etkileşime geçtiyse model düzgün çalışamaz. Örneğin, bir dağı geçen beş yürüyüşçü kar varsa risklidir, ancak bir çığa neden olacak kar düşüşü yoksa beş kişi güvende olur. Bu nüansı almak için bu örnekteki kar düşüşü ve yürüyüşçü sayısı arasındaki etkileşimin aranması için lojistik regresyon modelinin açıkça belirtilmesi gerekir.

Özelliklerinizi düşünün

Modelleri geliştirmenin diğer yolu, hangi özelliklerin ve neden sağlandığına ilişkin gerçek bir fikir vermektir. Genel olarak, bir modele ne kadar çok özellik eklersek, model o kadar iyi çalışır. Ancak bu bağıntı yalnızca sağladığımız özelliklerin ilgili olması ve mevcut özelliklerin açıklamaması durumunda geçerlidir.

Fazla eğitimden kaçınma

Kullanışlı olmayan daha fazla özellik sağlarsak model fazla eğitim alabilir. Gerçek dünyada daha iyi çalışıyor ama aslında daha kötü çalışıyormuş gibi görünüyor.

Örneğin, amount_of_snow, number_of_hikers, sıcaklık ve number_of_birds_spotted günlük kayıtlarına sahip olup olmadığını düşünün. Tespit edilen kuşların sayısı muhtemelen ilgili bilgi değildir. Ancak, sağlanan model, belirli günlerde tespit edilen kuş sayısı ile avalanches arasındaki ilişkiyi modellemeye son verir. Kuşlar avalanche günlerinde daha fazla tespit edilirse, model kuşların avalantiklara neden olabileceğine işaret ediyor. Daha sonra, yalnızca bunun işe yaramaması için, avalantikleri tahmin etmek için sistematik bir kuş izleme programı ayarlayabiliriz.

Yetersiz eğitimden kaçınma

Özelliklerin basit bir şekilde kullanılması da yetersiz eğitime yol açabilir ve mümkün olduğunca doğru tahminlerde bulunamayabilir. Örneğin, hem sıcaklık hem de number_of_hikers, çığlara yakından bağlı olabilir. Ancak, insanlar yalnızca güneşli günlerde yürüyorsa, model yürüyüşçülerin sıcaklıkla karşılaştırıldığında ne kadar önemli olduğunu ayırt etmek zor olabilir. Benzer şekilde, number_of_hikers yalnızca high veya lowyerine tam ziyaretçi sayısı olarak sağlarsak modelimizin daha iyi çalıştığını fark edebiliriz. Ardından model eğitimimizin daha kesin bir ilişki bulmasına izin verin.