Sınıflandırmadaki hiper parametreler

Tamamlandı

Hiper parametreleri eğitim için kullanılan ayarlar olarak düşünebilirsiniz. Örneğin, yavaş veya hızlı bir şekilde eğitmeyi seçebiliriz. Hiper parametreler eğitimi etkiler, bu nedenle son model performansını etkiler. Tam olarak hangi hiper parametrelerin kullanılabildiği, eğitilen modelin türüne bağlıdır. Modelimizin performansını iyileştirmek için genellikle hiper parametrelerle denemeler yapıyoruz.

Örnek olarak rastgele ormanlar

Rastgele ormanlar farklı türde hiper parametrelere sahiptir. Özellikle rastgele ormanlarda mimari kararlar hiper parametreleri arasındaki çizgi bulanık olabilir. Bunun nedeni hiper parametrelerin yalnızca modelin içindeki parametreleri değil, aynı zamanda ağaç ve ormanın nasıl yapılandırıldığını da etkilemesidir.

Eğitim başlangıcında her karar ağacına, bazıları madalya kazanan 100 jimnastikçi gibi çok sayıda örnek verildiğini hatırlayın. Bu örnekleri aşamalı olarak daha küçük atlet alt gruplarına bölen bir ağaç oluşturmalıyız. Amaç, bu alt grupların birbirine benzeyen atletler içermesi, örneğin her alt gruptaki tüm atletlerin madalya kazandığı veya hiç kazanmamış olmasıdır. Şimdi bu eğitim sürecini etkileyebilecek bazı hiper parametreleri inceleyelim.

Bölünecek ölçütler

Eğitim sırasında iyileştiricinin bir düğümün ne zaman bölüneceğine karar vermesi gerekir. Bunun gibi kararlar almanın farklı yolları vardır ve hangi yöntemin seçildiği hiper parametre olarak adlandırılır. Temelde, farklı yöntemler bir örneğin ne kadar benzer olduğunu değerlendirmek için farklı yöntemlere başvurur.

Düğümleri bölmek için kullanılan yaygın yöntemler bilgi teorisini temel alır. Bunu kabaca bir örneğin bölünmesi olarak düşünebilirsiniz, böylece sonuçta elde edilen iki alt örnek özgünden "saftır". Kullanılabilir yöntemler biraz farklılık gösterir ve sonuçta elde edilen ağaçta küçük farklılıklara neden olabilir; gradyan azalma için kullanılan maliyet işlevlerinin farklı son modellere nasıl sahip olabileceğine çok benzer. Sonraki alıştırmalar kümesinde iki ölçütle denemeler yapacağız.

Minimum kirlilik azaltma

Düğümleri bölmek için kullanılan ölçütü daha da özelleştirebilirsiniz. Örneğin, en düşük saflık düşüşünü ayarlamak, bir düğümün yalnızca modeli belirli bir miktar veya daha fazla geliştirmesi durumunda bölünebileceği anlamına gelir. Yeni düğümlerin oluşturulmasını engelleyebilen, maksimum derinlik veya bir düğümdeki en düşük örnek sayısı gibi çeşitli ilgili hiper parametreler vardır.

Çok fazla büyüyen bir ağacı kısıtlamanın nedeni fazla uygunluktan kaçınmaktır. Daha büyük ağaçlar eğitim veri kümesiyle eşleştirmede daha iyidir, ancak diğer veriler için çalışmayı durduracak şekilde bu eğitim kümesine o kadar ayarlanabilirler. Başka bir deyişle, bir ağacın ne kadar karmaşık hale geldiğini kısıtlamak aşırı sığdırma eğilimini azaltabilir.

En fazla özellik sayısı

Rastgele bir ormandaki ağaçlar oluşturulduğunda, bunlara sığacak eğitim verilerinin bir alt kümesi ve kullanılacak özelliklerin listesi sağlanır. Önemli olan, her ağaç farklı özellik koleksiyonları alabilir. Örneğin, bir ağaç Ağırlık ve Yükseklik kullanırken, diğeri Yükseklik ve Yaş kullanabilir.

Her ağacın alabileceği en fazla özellik sayısını artırmak, daha fazla bilgi sağlandığında her ağacın eğitim kümesine ne kadar iyi sığabileceğini geliştirme olasılığı yüksektir. Bunun test kümesindeki yeteneklerine yardımcı olup olmadığı deneme gerektirebilir. Bunun nedeni, her zaman birçok özellik sağlaması, ormandaki ağaçların birbirine daha çok benzemesi ve basit bir karar ağacı yerine rastgele bir ormanın avantajını azaltması anlamına gelebilir. Bu uç değerler arasındaki dengeyi bulmak için genellikle biraz deneme gerekir.

Tohumlama

Model uyumu genellikle belirli bir noktada rastgele sayılara dayanır. Bilgisayarlar gerçekten rastgele sayılar üretmez, ancak rastgele tohum olarak adlandırılan ilk sayı verildiğinde rastgele sayıların listesinin nasıl oluşturulduğunu belirten kurallar içerir.

Örneğin, tohum değerimiz 10 ise ve ilk üç 'rastgele' sayıyı alıyorsa, bilgisayar 0,75, 0,13, 0,68 üretebilir. Bu sayılar rastgele görünse de, 10'dan her tohum yaptığımızda aynı sayı kümesini alacağız.

Makine öğrenmesinde, modelin parametrelerini başlatmak ve/veya veri kümelerini eğitim ve test kümelerine bölmek için rastgele sayılar kullanırız. Rastgele çekirdek ayarlanırsa, eğitim işlemi sırasında kullanılan rastgele değerler kodumuzu her yeniden çalıştırışımızda aynı olur; yani kodumuzu her yeniden çalıştırışımızda aynı verileri test etmek veya eğitmek için atarız ve aynı başlatma durumuna (ilk parametreler) sahip modelleri eğitebiliriz.

Buna karşılık, tohumu ayarlamazsak bilgisayar bizim için bir tane seçer (örneğin, zamana bağlı olarak), bu da eğitimimizi iki kez çalıştırmanın biraz farklı sonuçlar verebileceği anlamına gelir.

Rastgele tohum kesinlikle bir hiper parametre değildir, ancak bu dış parametrenin eğitimin etkinliğinde bir rol oynayabileceğini vurgulamak için buraya tanıtıyoruz. Bu genellikle küçük olsa da, model çok karmaşıksa ve/veya kullanılabilir veri miktarı küçükse, iki farklı tohum kullanıldığında modelin test kümesi performansı belirgin şekilde farklı olabilir. Böyle durumlarda, genellikle model tasarımınızın ne derece yeterli olduğunu ve performansınızın yalnızca "şanssız" olduğunu değerlendirmek için birden çok farklı tohumla eğitim çalıştırmak için ödeme yapılır.