Two-Class Karar Ormanı bileşeni

Bu makalede Azure Machine Learning tasarımcısındaki bir bileşen açıklanmaktadır.

Karar ormanları algoritmasını temel alan bir makine öğrenmesi modeli oluşturmak için bu bileşeni kullanın.

Karar ormanları hızlı ve denetimli grup modelleridir. En fazla iki sonuç içeren bir hedefi tahmin etmek istiyorsanız bu bileşen iyi bir seçimdir.

Karar ormanlarını anlama

Bu karar ormanı algoritması, sınıflandırma görevlerine yönelik bir grup öğrenme yöntemidir. Grup yöntemleri, tek bir modele güvenmek yerine, birden çok ilgili model oluşturup bunları bir şekilde birleştirerek daha iyi sonuçlar ve daha genelleştirilmiş bir model elde edebilmenizi sağlayan genel ilkeyi temel alır. Genel olarak, grup modelleri tek karar ağaçlarından daha iyi kapsama ve doğruluk sağlar.

Tek tek modeller oluşturmanın ve bunları bir toplulukta birleştirmenin birçok yolu vardır. Karar ormanının bu özel uygulaması, birden çok karar ağacı oluşturup en popüler çıkış sınıfına oy vererek çalışır. Oylama, bir grup modelinde sonuç oluşturmak için en iyi bilinen yöntemlerden biridir.

  • Veri kümesinin tamamı kullanılarak ancak farklı (genellikle rastgele) başlangıç noktaları kullanılarak birçok ayrı sınıflandırma ağacı oluşturulur. Bu, tek tek karar ağaçlarının verilerin veya özelliklerin yalnızca rastgele bir kısmını kullanabileceği rastgele orman yaklaşımından farklıdır.
  • Karar ormanı ağacındaki her ağaç, etiketlerin normalleştirilmemiş bir sıklık histogramını oluşturur.
  • Toplama işlemi bu histogramları toplayarak her etiket için "olasılıkları" almak üzere sonucu normalleştirir.
  • Yüksek tahmin güveni olan ağaçlar, topluluğun son kararında daha fazla ağırlığa sahip olacaktır.

Genel olarak karar ağaçlarının sınıflandırma görevleri için birçok avantajı vardır:

  • Doğrusal olmayan karar sınırlarını yakalayabilirler.
  • Hesaplama ve bellek kullanımında verimli olduklarından çok sayıda veri üzerinde eğitebilir ve tahminde bulunabilirsiniz.
  • Özellik seçimi, eğitim ve sınıflandırma süreçleriyle tümleşiktir.
  • Ağaçlar gürültülü verileri ve birçok özelliği barındırabilir.
  • Bunlar parametrik olmayan modellerdir, başka bir deyişle çeşitli dağılımlara sahip verileri işleyebilirler.

Ancak, basit karar ağaçları verilere fazla uygun olabilir ve ağaç topluluklarından daha az genelleştirilebilir.

Daha fazla bilgi için bkz. Karar Ormanları.

Yapılandırma

  1. Azure Machine Learning'deki işlem hattınıza İki Sınıflı Karar Ormanı bileşenini ekleyin ve bileşenin Özellikler bölmesini açın.

    Bileşeni Machine Learning altında bulabilirsiniz. Başlat'ı ve ardından Sınıflandırma'yı genişletin.

  2. Yeniden Örnekleme yöntemi için tek tek ağaçları oluşturmak için kullanılan yöntemi seçin. Paketleme veya Çoğaltma arasından seçim yapabilirsiniz.

    • Paketleme: Paketleme, bootstrap toplama olarak da adlandırılır. Bu yöntemde her ağaç, özgün veri kümesinin boyutuna göre bir veri kümesine sahip olana kadar özgün veri kümesini rastgele örneklemek suretiyle oluşturulan yeni bir örnekte büyütülür.

      Modellerin çıkışları, bir toplama biçimi olan oylama ile birleştirilir. Sınıflandırma karar ormanındaki her ağaç, normalleştirilmemiş bir etiket sıklığı histogramı oluşturur. Toplama, bu histogramları toplamak ve her etiket için "olasılıkları" almak üzere normalleştirmektir. Bu şekilde, yüksek tahmin güveni olan ağaçlar, topluluğun son kararında daha fazla ağırlığa sahip olacaktır.

      Daha fazla bilgi için bkz. Bootstrap toplama için Wikipedia girdisi.

    • Çoğaltma: Çoğaltmada, her ağaç tam olarak aynı giriş verileri üzerinde eğitilir. Her ağaç düğümü için hangi bölme koşulunun kullanıldığının belirlenmesi rastgele kalır ve ağaçlar farklı olacaktır.

  3. Eğitmen modu oluştur seçeneğini ayarlayarak modelin nasıl eğitileceğini belirtin.

    • Tek Parametre: Modeli nasıl yapılandırmak istediğinizi biliyorsanız, bağımsız değişken olarak belirli bir değer kümesi sağlayabilirsiniz.

    • Parametre Aralığı: En iyi parametrelerden emin değilseniz , Modeli Ayarlama Hiper Parametreleri bileşenini kullanarak en uygun parametreleri bulabilirsiniz. Bazı değer aralıkları sağlarsınız ve eğitmen, en iyi sonucu veren değerlerin birleşimini belirlemek için ayarların birden çok bileşimini yineler.

  4. Karar ağacı sayısı için, toplulukta oluşturulabilecek en fazla karar ağacı sayısını yazın. Daha fazla karar ağacı oluşturarak daha iyi kapsama alanı elde edebilirsiniz, ancak eğitim süresi artar.

    Not

    Değeri 1 olarak ayarlarsanız. Ancak, yalnızca bir ağaç (ilk parametre kümesine sahip ağaç) oluşturulabilir ve başka yineleme gerçekleştirilmez.

  5. Karar ağaçlarının maksimum derinliği için, herhangi bir karar ağacının maksimum derinliğini sınırlamak için bir sayı yazın. Ağacın derinliğinin artırılması, fazla uygunluk ve eğitim süresinin artması riskiyle duyarlılığı artırabilir.

  6. Yaprak düğüm başına en az örnek sayısı için, bir ağaçta herhangi bir terminal düğümü (yaprak) oluşturmak için gereken en az servis talebi sayısını belirtin.

    Bu değeri artırarak yeni kurallar oluşturma eşiğini artırırsınız. Örneğin, varsayılan değer 1 olduğunda, tek bir büyük/küçük harf bile yeni bir kuralın oluşturulmasına neden olabilir. Değeri 5'e artırırsanız eğitim verilerinin aynı koşullara uyan en az beş durum içermesi gerekir.

  7. Eğitim veya doğrulama kümelerindeki bilinmeyen değerler için bir grup oluşturmak için Kategorik özellikler için bilinmeyen değerlere izin ver seçeneğini belirleyin. Model bilinen değerler için daha az kesin olabilir, ancak yeni (bilinmeyen) değerler için daha iyi tahminler sağlayabilir.

    Bu seçeneğin seçimini kaldırırsanız model yalnızca eğitim verilerinde yer alan değerleri kabul edebilir.

  8. Etiketli bir veri kümesi ekleyin ve modeli eğitin:

    Not

    Modeli Eğitmek için bir parametre aralığı geçirirseniz, tek parametre listesindeki yalnızca varsayılan değeri kullanır.

    Model Ayarlama Hiper Parametreleri bileşenine tek bir parametre değeri kümesi geçirirseniz, her parametre için bir dizi ayar beklediğinde değerleri yoksayar ve öğrenci için varsayılan değerleri kullanır.

    Parametre Aralığı seçeneğini belirleyip herhangi bir parametre için tek bir değer girerseniz, diğer parametreler bir değer aralığında değişse bile belirttiğiniz tek değer süpürme boyunca kullanılır.

Sonuçlar

Eğitim tamamlandıktan sonra:

  • Eğitilen modelin anlık görüntüsünü kaydetmek için Modeli eğit bileşeninin sağ panelindeki Çıkışlar sekmesini seçin. Modeli yeniden kullanılabilir bir bileşen olarak kaydetmek için Veri kümesini kaydet simgesini seçin.

  • Modeli puanlama için kullanmak için Model Puanlama bileşenini bir işlem hattına ekleyin.

Sonraki adımlar

Azure Machine Learning'in kullanabileceği bileşenler kümesine bakın.