Test kümelerinin nüansları

Tamamlandı

Test kümeleri, makine öğrenmesinin çoğu açısından en iyi uygulama olarak kabul edilir, ancak alan hala nispeten gençtir ve bu nedenle tam olarak nasıl ve ne zaman tartışılır? Dikkate alınması gereken bazı şeyleri gözden geçirelim.

Test kümeleri yanıltıcı olabilir

Test kümeleri fazla eğitimleri tanımlamaya yardımcı olsa da, bize yanlış güven sağlayabilir. Özellikle, test kümeleri yalnızca gerçek dünyada görmeyi beklediğimiz verileri yansıtıyorsa yararlıdır. Örneğin, test kümemiz çok küçük olduğundan gerçek dünyada görme olasılığımız olan çeşitli verileri temsil etmez. Test veri kümeleri yalnızca kaynakları kadar iyidir. Test veri kümemiz taraflı bir kaynaktan geliyorsa ölçümlerimiz, gerçek dünyada işlerin nasıl davranacağını yansıtmaz.

Örneğin, kurtarma sayısı ile köpeğin eğitime başladığı yaş arasındaki ilişkiyi bulmaya çalıştığımızı düşünelim. Test setimiz yalnızca üç köpekse, bu köpekler gerçek dünyadaki çok çeşitli çalışan köpeklerin iyi bir temsili değildir. Ayrıca, test setimizi yavru köpeklerle nasıl çalışıldığını bilmeyen tek bir yetiştiriciden aldığımızı düşünün. Modelimiz, yaşlı köpeklerin eğitmek için en iyi olduğunu tahmin edebilir ve test veri kümemiz bunu doğrulayabilir, aslında diğer eğitmenler daha genç hayvanlarda büyük başarılar elde edebilir.

Test kümeleri ücretsiz değil

Ne kadar çok eğitim verisine sahip olursak modelimizin fazla uygun olma olasılığının o kadar az olduğunu gördük. Benzer şekilde, test kümeleri ne kadar büyük olursa, test sonuçlarımıza o kadar çok güvenebileceğimizi hissederiz. Ancak genellikle sınırlı miktarda veriyle çalışırız ve veri noktası hem eğitimde hem de test kümesinde olamaz. Bu, daha büyük test kümeleri elde ettiğimizde daha küçük eğitim veri kümeleri elde ettiğimiz ve tam tersi anlamına gelir. Test veri kümesinde görüntülenmek için ne kadar verinin feda edilmesi gerektiği tek tek koşullara bağlıdır ve kullanılabilir veri hacmine bağlı olarak %10-50 arasında bir şey nispeten yaygındır.

Eğitim ve test tek yaklaşım değildir

Eğitme ve test etme işleminin yaygın olduğunu, ancak yaygın olarak kullanılan tek yaklaşımın bu olmadığını unutmayın. En yaygın iki alternatif, ayrı tutma yaklaşımı ve istatistiksel yaklaşım yöntemleridir.

Ayrı tutma yaklaşımı

Ayrı tutma yaklaşımı eğitme ve test etme yaklaşımı gibidir, ancak bir veri kümesini ikiye bölmek yerine üçe ayrılır: eğitim, test ( doğrulama olarak da bilinir) ve ayrı tutma. Eğitim ve test veri kümeleri daha önce açıklandığı gibidir. Ayrı tutma veri kümesi, modelimizi gerçek dünya kullanımı için dağıtmaya hazır olduğumuzda yalnızca bir kez kullanılan bir tür test kümesidir. Başka bir deyişle, farklı eğitim rejimleri, farklı model türleri vb. ile denemeyi bitirene kadar kullanılmaz.

Bu yaklaşım genellikle farklı modellerle ve eğitim rejimleriyle denemeler yaptığımız gerçeğiyle başa çıkmektedir. Örneğin, bir modeli sığdırdık, test veri kümesiyle düzgün çalışmadığını bulduk, eğitilen modelin bazı yönlerini değiştirdik ve iyi bir sonuç elde edene kadar yeniden deneyin. Bu, normal eğitimin eğitim veri kümesinde olduğu gibi modelimizi belirli bir veri kümesi için çalışacak şekilde bilerek değiştirdiğimiz anlamına gelir. Bunu yaparak, temelde test veri kümemiz üzerinde çalışamayacak kadar fazla eğitilmiş bir modelle sonuçlanabiliriz.

Üçüncü bir veri kümesinin fikri, bunu da test edebiliriz. Bu yaklaşım, verileri üç şekilde bölmek anlamına gelir ve bu da daha az eğitim verisiyle başlayacağımız anlamına gelir. Çalışmak için çok fazla verimiz yoksa, bu yaklaşım iyi bir model elde etme yeteneğimizi azaltabilir.

İstatistiksel yaklaşımlar

İstatistiklerden kaynaklanan daha basit modellerin genellikle test veri kümelerine ihtiyacı yoktur. Bunun yerine, modelin hangi dereceye göre aşırı uygun olduğunu doğrudan istatistiksel anlam olarak hesaplayabiliriz: p değeri.

Bu istatistiksel yöntemler güçlü, iyi kurulmuş ve modern bilimin temelini oluşturur. Bunun avantajı, eğitim kümesinin bölünmesine gerek olmaması ve model konusunda ne kadar emin olabileceğimizi çok daha net bir şekilde anlamamızdır. Örneğin 0,01 p değeri, modelimizin gerçek dünyada var olmayan bir ilişki bulma ihtimalinin çok küçük olduğu anlamına gelir. Buna karşılık 0,5 p değeri, modelimizin eğitim verileriyle iyi görünebileceği ancak gerçek dünyada bir madeni para çevirmekten daha iyi olmayacağı anlamına gelir.

Bu yaklaşımların dezavantajı, yalnızca üzerinde çalıştığınız doğrusal regresyon modelleri gibi belirli model türlerine kolayca uygulanmasıdır. En basit modeller dışında tüm modellerde, bu hesaplamaların düzgün bir şekilde gerçekleştirilmesi son derece karmaşık olabilir ve geçerli kursun kapsamı dışındadır. Ayrıca veri seçimiyle ilgili de aynı sınırlamaya maruz kaldılar; Eğitim verilerimiz taraflıysa p değerlerimiz yanıltıcı olacaktır.