Rastgele ormanlar ve mimari seçme

Tamamlandı

Mimarilerle denemeler genellikle etkili modern modeller oluşturmanın ana odak noktasıdır. Bunu karar ağaçlarıyla temel düzeyde yaptık, ancak bunun tek sınırı hayalgücümüz ve belki de bilgisayarımızın belleğidir. Aslında, karar ağaçlarını daha geniş bir şekilde düşünmek, karar ağaçlarının verileri aşırı sığdırma eğilimini azaltan son derece popüler bir model mimarisine neden oldu.

Rastgele orman nedir?

Rastgele orman, bir örneğin atanması gereken etiketi tahmin etmek için birlikte kullanılan karar ağaçlarından oluşan bir koleksiyondur. Örneğin, madalya kazananları tahmin etmek için rastgele bir orman eğitecek olsaydık, 100 farklı karar ağacı eğitebilirdik. Tahminde bulunmak için tüm ağaçları bağımsız olarak kullanırız. Bunlar, nihai bir karar vererek sporcunun madalya kazanıp kazanmayacağı konusunda etkili bir şekilde "oy" verecek.

Rastgele bir orman nasıl eğitilir?

Rastgele ormanlar, tek bir karar ağacı son derece taraflı veya fazla uygun olsa da, birkaç karar ağacı eğitirsek farklı şekillerde yanlı olacakları fikrine dayalıdır. Bunun için her ağacın bağımsız olarak ve her birinin biraz farklı bir eğitim kümesinde eğitilmiş olması gerekir.

Tek bir karar ağacını eğitmek için, senaryomuzdaki belirli sayıda örnek -atlet- tam eğitim kümesinden ayıklanır. Her örnek birden çok kez seçilebilir ve bu rastgele gerçekleşir. Ağaç daha sonra standart şekilde eğitilir. Bu işlem her ağaç için yinelenir. Her ağaç eğitim örneklerinin farklı bir birleşimini aldığından, her ağaç diğerlerinden farklı şekilde eğitilir ve yanlı hale gelir.

Rastgele ormanın avantajları

Rastgele ormanların performansı genellikle etkileyicidir ve bu nedenle karşılaştırmalar genellikle başka bir popüler ve yüksek performanslı model türü olan sinir ağlarına karşı yapılır. Sinir ağlarından farklı olarak, rastgele orman modellerinin eğitmesi kolaydır: Modern çerçeveler, bunu yalnızca birkaç kod satırıyla yapmanıza olanak sağlayan yararlı yöntemler sağlar. Rastgele ormanlar da hızlı eğitilir ve iyi performans göstermeleri için büyük veri kümelerine ihtiyaç yoktur. Bu, onları eğitmek genellikle dakikalar veya günler süren, önemli bir deneyim gerektiren ve genellikle çok büyük veri kümeleri gerektiren sinir ağlarından ayırır. Rastgele ormanlar için mimari kararlar, doğrusal regresyon gibi modellerden daha karmaşıkken sinir ağlarından çok daha basittir.

Rastgele ormanın dezavantajları

Rastgele ormanların en büyük dezavantajı, anlaşılmasının zor olmasıdır. Özellikle, bu modeller tamamen saydam olsa da– her ağaç incelenebilir ve anlaşılabilir– genellikle bunu yapmak neredeyse imkansız olan çok sayıda ağaç içerir.

Bu mimarileri nasıl özelleştirebilirim?

Çeşitli modeller gibi rastgele ormanların da çeşitli mimari seçenekleri vardır. Dikkate alınması en kolay, ormanın büyüklüğüdür: bu ağaçların büyüklüğüyle birlikte kaç ağaç söz konusudur. Örneğin, her biri en fazla altı düğüm derinliğine sahip 100 ağaç içeren madalya kazananları tahmin etmek için bir orman istemek mümkün olabilir. Bu, bir sporcunun madalya kazanıp kazanmayacağına ilişkin nihai kararın en fazla altı "if" ifadesiyle alınması gerektiği anlamına gelir.

Daha önce öğrendiğimiz gibi, bir ağacın boyutunun artırılması (derinlik veya yaprak sayısı açısından) eğitildiği verilerin fazla sığdırılması olasılığını artırır. Bu sınırlama rastgele ormanlar için de geçerlidir. Ancak rastgele ormanlarda, her ağacın farklı bir şekilde taraflı olacağını varsayarak ağaç sayısını artırarak buna karşı koyabiliriz. Ayrıca her ağacı yalnızca belirli sayıda özellik ile kısıtlayabilir veya eğitim performansında yalnızca marjinal bir fark yaratacağı durumlarda yaprakların oluşturulmasına izin vermeyerek de kısıtlayabiliriz. Rastgele bir ormanın iyi tahminlerde bulunabilmesi sonsuz değildir. Bir noktada, ağaç boyutunu ve sayısını artırmak, sahip olduğumuz sınırlı eğitim verileri nedeniyle daha fazla gelişme elde etmez.