Microsoft karar ağaçları algoritması teknik başvurusu
The Microsoft Decision Trees algorithm is a hybrid algorithm that incorporates different methods for creating a tree, and supports multiple analytic tasks, including regresyon, classification, and association. Karar ağaçları Microsoft algoritması, modelleme ayrı ve sürekli öznitelikleri destekler.
Bu konu, algoritma uygulaması açıklar, farklı görevler için algoritmayı davranışını özelleştiren açıklar ve karar ağacı modelleri sorgulama hakkında ek bilgilere bağlantılar sağlar.
Karar ağaçları algoritma uygulaması
Karar ağaçları Microsoft algoritması önceki bilgi ve istatistik veriler Bayesian ağlardan öğrenir.Bilgi değerinin değerlendirme için bu yöntemi algoritma önemli bir parçası olan priors öğrenme için gerekli.Yaklaşım varsayımına dayanır olasılığını eşdeğerlikhangi veri yoksa, koşullu bağımsızlığı aynı olan onaylamaları temsil eden bir ağ yapıları discriminate yardımcı değil, diyor.
Her iki durumda, tek bir Bayesian önceki ağ ve güven o ağ için tek bir ölçü için kabul edilir.Bu önceki ağlar kullanarak algoritma sonra göreli hesaplar posterior değerler ağ geçerli olan eğitim veri yapıları ve en yüksek olan posterior olasılıklar olan ağ yapıları tanımlar.
Karar ağaçları Microsoft algoritması, en iyi ağaç hesaplamak için farklı yöntemler kullanır.Kullanılan yöntem, doğrusal regresyon, sınıflandırma ya da ilişkiyi çözümlemesi olabilecek göreve bağlıdır.Tek BIR modeli, farklı öngörülebilir bir öznitelik için birden çok ağaçlarını içerebilir.Ayrıca, her bir ağaç kaç öznitelikleri ve değerleri veri bağlı olarak, birden çok dalları içerir.Istediğiniz şekil ve yerleşik olarak belirli bir modeli ağaç derinliği skor yöntem ve kullanılan diğer parametreleri bağlıdır.Parametreler değişiklikleri burada düğümlerin bölme da etkileyebilir.
Konsol ağacında oluşturma
Karar ağaçları Microsoft algoritması oluşturduğunda küme olası giriş değerleri, bunu gerçekleştirir. feature selection öznitelikleri ve değerleri çok seyrek dikkate'nden kaldırır ve en fazla bilgi sağlayan değerler tanımlamak için . Algoritma değerlere de gruplandırır. depo gözlerinigruplandırmalar performansını en iyi duruma getirmek için bir birim olarak işlenen değer oluşturmak için.
Bir ağaç giriş hedeflenen sonucu arasındaki bağıntıları belirleyen tarafından üretilmiştir.Tüm öznitelikleri correlated sonra algoritmanın en temiz bir şekilde edilen sonuçlar ayıran tek özniteliği tanımlar.Bu en iyi renk ayrımı noktası bilgileri kazanç hesapladığı Denklem kullanılarak ölçülür.Öznitelik bilgileri kazancı için en iyi skor olan servis talepleri, daha sonra konsol ağacında olamaz kadar aynı işlem tarafından çözümlenen özyinelemeli olarak herhangi bir çok bölme olan alt kümeleri bölmek için kullanılır.
Tam Denklem bilgi kazanç değerlendirmek için kullanılan algoritma ve öngörülebilir sütun veri türü giriş veri türünü yarattığınızda kullandınız parametreleri bağlıdır.
Ayrı ve sürekli giriş
Giriş başına sonuçlar sayım, öngörülebilir öznitelik ayrı ve girdileri farklı olduğunda, bir matris oluşturmak ve bu Puanları her hücre için matrisin içinde oluşturma, bir konular olur.
Ancak, öngörülebilir öznitelik ayrı girdileri sürekli olduðunda, sürekli sütunların giriş otomatik olarak discretized.Varsayılan kabul edebilir ve Analysis Services en uygun depo gözlerini sayısını bulmak varsa veya sürekli girdileri ayarlayarak, discretized şekilde denetleyebilirsiniz DiscretizationMethod() ve DiscretizationBucketCount() özellikleri. Daha fazla bilgi için bkz:Nasıl Yapılır: Bir sütun içinde Discretization değiştirmek bir araştırma modeli.
Sürekli özniteliklerini, burada bir karar ağacı böler belirlemek için doğrusal regresyon algoritmasını kullanır.
Zaman öngörülebilir öznitelik sürekli sayısal veri türü, özellik seçimi gibi çıktıların olası sonuçlar azaltmak ve daha hızlı modeli uygulanır.Artırabilir özellik seçimi eşiği değiştirmek ve böylece veya MAXIMUM_OUTPUT_ATTRIBUTES parametreyi ayarlayarak, olası değerleri sayısını azaltın.
Nasıl hakkında daha fazla detained bir açıklama için Microsoft Karar ağaçları algoritması öngörülebilir ayrı bir sütun ile çalıştığı için bkz: Bayesian ağları öğrenme:.For more information about how the Microsoft Decision Trees algorithm works with a continuous predictable column, see the appendix of Autoregressive Tree Models for Time-Series Analysis.
Skor yöntemleri ve özellik seçimi
Karar ağaçları Microsoft algoritması bilgi kazanç skor için üç formüllerin sunar: Shannon'ın entropi K2 önceki Bayesian ağ ve ağ priors Tekdüzen Dirichlet dağıtımını Bayesian. Tüm üç veri madenciliği alanında kurulmuş olan iyi yöntemlerdir.Farklı parametreleri ile en iyi sonuçlar sağlayan belirlemek için skor yöntemi denemeniz önerilir.Skor bu yöntemler hakkında daha fazla bilgi için bkz: Özellik Seçimi.
Tüm Analysis Services veri madenciliği algoritmaları, çözümleme geliştirmek ve işleme yükü azaltmak için özellik seçimi otomatik olarak kullanır. Özellik seçimi için kullanılan yöntem, model oluşturmak için kullanılan algoritma bağlıdır.Karar ağaçları model için özellik seçimi denetleyen algoritma parametreleri MAXIMUM_INPUT_ATTRIBUTES ve MAXIMUM_OUTPUT ' dir.
Algoritma |
Analiz yöntem |
Açıklamalar |
---|---|---|
Karar ağaçları |
Interestingness Skoru Shannon'ın Entropisi Bayesian K2 önceki ile Bayesian Dirichlet ile Tekdüzen önceki (varsayılan) |
Herhangi bir sütun, ikili olmayan sürekli bir değer içermiyorsa, interestingness skor için tüm sütunları, tutarlılığı sağlamak için kullanılır.Aksi halde varsayılan veya belirtilen yöntem kullanılır. |
Doğrusal regresyon |
Interestingness Skoru |
Yalnızca sürekli sütunları desteklediğinden, doğrusal regresyon yalnızca interestingness, kullanır. |
Ölçeklenebilirlik ve performans
Sınıflandırma bir önemli veri madenciliği stratejisidir.Genellikle, servis taleplerini sınıflandırmak için gereken bilgi miktarı kayıt sayısı, giriş için doğrudan bir oranı artar.Bu, sınıflandırılabilir verilerin boyutunu sınırlar.Microsoft karar ağaçları algoritması kullanır kullanarak bu sorunları gidermek için aşağıdaki yöntemlerden performansı ve bellek kısıtlamaları ortadan:
Öznitelik seçime en iyi duruma getirmek için seçim özelliği.
Ağaç büyüme denetlemek için skor Bayesian.
Sürekli özniteliklerini binning en iyileştirme.
En önemli değerleri belirlemek için giriş değerleri dinamik gruplandırması.
Karar ağaçları Microsoft algoritması, hızlı ve ölçeklenebilir ve kolayca parallelized için , tüm işlemcilerin tek, tutarlı bir modelini oluşturmak için birlikte çalışır, yani tasarlanmıştır.Bu özelliklerin birleşimi, karar ağacında Sınıflandırıcısı veri madenciliği için ideal bir araç sağlar.
Önemli performans kısıtlamalarını iseniz, aşağıdaki yöntemleri kullanarak, işlem saat sırasında bir karar ağacı modelinin eğitim iyileştirebilirsiniz olabilir.Bunu yaparsanız, ancak işleme performansını artırmak için öznitelikleri ortadan değiştirecek unutmayın sonuçlar, modelini ve büyük olasılıkla daha az toplam popülasyonun temsilcisi.
Ağaç büyüme sınırlamak için COMPLEXITY_PENALTY parametrenin değerini artırın.
Ilişki modelleri yerleşik ağaçlarını sayısını sınırlamak için öğe sayısını sınırla.
fazla uygunluk önlemek için MINIMUM_SUPPORT parametrenin değerini artırın.
10 Veya daha az, herhangi bir öznitelik için ayrık değerler sayısını kısıtlayın.Gruplandırma değerleri, farklı modelleri farklı biçimlerde deneyebilirsiniz.
Not
You can use the data exploration tools available in SQL Server 2008 Integration Services to visualize the distribution of values in your data and group your values appropriately before beginning data mining.Daha fazla bilgi için bkz:Görev ve Görüntüleyicisi profil oluşturma verilerini içeren veri profil oluşturma.Ayrıca Veri madenciliği eklentileri Excel 2007araştırmak için Grup ve Microsoft Excel'deki verileri relabel.
Karar ağaçları algoritması'nı özelleştirme
The Microsoft Decision Trees algorithm supports parameters that affect the performance and accuracy of the resulting araştırma modeli. Ayrıca küme bayraklarını araştırma modeli sütunlarda modelleme veya verilerin işlenme biçimini denetlemek için yapı sütunları mining.
Algoritma parametreleri ayarlama
Ile kullanabileceğiniz parametreleri aşağıdaki tabloda açıklanmıştır Microsoft Karar ağaçları algoritması.
COMPLEXITY_PENALTY
Büyüme denetimleri karar ağacı.Düşük BIR değer bölmelerini sayısını artırır ve bölmeleri sayısını yüksek bir değere azaltır.Varsayılan değer özniteliklerini belirli bir model için aşağıdaki listede açıklanan dayanır:Için 1'den 9 öznitelikleri, 0,5 varsayılandır.
Için 10'den 99 öznitelikleri, 0,9 varsayılandır.
100 Veya daha fazla öznitelik 0.99 varsayılandır.
FORCE_REGRESSOR
Belirtilen sütun olarak algoritması tarafından hesaplanan sütun önemi ne olursa olsun, regressors olarak kullanılacak algoritma zorlar.Bu parametre yalnızca, sürekli bir öznitelik için öngörülen karar ağaçları için kullanılır.Not
Bu parametreyi ayarlayarak, algoritması, öznitelik bir regresör kullanmaya zorla.Ancak, öznitelik aslında son modelinde bir regresör olarak kullanılıp kullanılmadığını incelemenin sonuçlarını bağlıdır.Hangi sütunların regressors içerik modeli sorgulayarak kullanılan bulabilirsiniz.
[SQL Server Enterprise]
MAXIMUM_INPUT_ATTRIBUTES
Algoritma işleyebileceği giriş özniteliklerini tanımlayan önce bu özellik seçimi çağırır.Varsayılan değer 255'dir.
küme Bu özellik seçimi devre dışı bırakmak için 0 değeri.
[SQL Server Enterprise]
MAXIMUM_OUTPUT_ATTRIBUTES
Algoritma işleyebileceği bir çıkış özniteliklerini tanımlayan önce bu özellik seçimi çağırır.Varsayılan değer 255'dir.
küme Bu özellik seçimi devre dışı bırakmak için 0 değeri.
[SQL Server Enterprise]
MINIMUM_SUPPORT
Içinde bir bir bölünme oluşturmak için gerekli olan en az sayıda yaprak durumlarda belirler karar ağacı.Varsayılan değer 10'dir.
Veri kümesi overtraining önlemek için çok büyük ise, bu değeri arttırmanız gerekebilir.
SCORE_METHOD
Bölme Skor hesaplamakta kullanılan yöntem belirler.Aşağıdaki seçenekler kullanılabilir:Tanımlayıcı
Name
1
Entropi
2
Bayesian K2 önceki ile
3
Eşit (BDE) önceki Bayesian Dirichlet
(varsayılan)
Varsayılan değer 3'dir.
Skor bu yöntemlerin bir açıklaması için bkz: Özellik Seçimi.
SPLIT_METHOD
Düğüm ayırmak için kullanılan yöntem belirler.Aşağıdaki seçenekler kullanılabilir:Tanımlayıcı
Name
1
Binary: Öznitelik değerleri gerçek sayısı ne olursa olsun, ağaç içinde iki dalı bölünmesi olduğunu gösterir.
2
Complete: Konsol ağacında, öznitelik değerleri gibi çok bölmelerini oluşturabilirsiniz gösterir.
3
Both: Analysis Services ikili veya tam bir bölme en iyi sonuçlar için kullanılıp kullanılmayacağını belirleyebilirsiniz belirtir.
Varsayılan değer 3'dir.
Flags model oluşturma
The Microsoft Decision Trees algorithm supports the following modeling flags.araştırma yapısı veya araştırma modeli oluşturduğunuzda, modelleme bayraklarını belirtmek için tanımladığınız nasıl değerleri her sütun çözümlemesi sırasında işlenir.Daha fazla bilgi için bkz:Flags (veri madenciliği) model oluşturma.
Bayrak model oluşturma |
Açıklama |
---|---|
model_existence_only |
Sütun iki olası durumlar sahip olarak değerlendirilmez olduðu anlamýna gelir: Missing ve Existing. null BIR eksik bir değerdir. araştırma modeli sütunlar için geçerlidir. |
null DEĞİL |
Sütun null içeremez gösterir.Analysis Services null karşılaşırsa modeli eğitim sırasında bir hata neden olur. araştırma yapısı sütunlar için geçerlidir. |
Karar ağacı modeller, regressors
Kullanmadığınız bile Microsoft Doğrusal regresyon algoritması, sürekli öznitelik bulunan bir gerileme temsil eden düğümlerin olası sürekli sayısal giriş ve çıkışlarını tüm karar ağacını modeli içerebilir.
Sürekli bir sayısal veri sütununu bir regresör temsil ettiğini belirtmek gerekmez.The Microsoft Decision Trees algorithm will automatically use the sütun as a potential regresör and partition the dataset into regions with meaningful patterns even if you do not küme the regresör flag on the sütun.
Ancak, FORCED_REGRESSOR parametre algoritma belirli bir regresör kullanmanızı güvence altına almak için kullanabilirsiniz.Bu parametre, yalnızca kullanılabilir Microsoft Ağaçlar karar ve Microsoft Doğrusal regresyon algoritmaları. Zaman, küme modelleme bayrak, regresyon denklemi formunun bulmak algoritmayı deneyecek bir * C1 + b * C2 +... desenleri ağacının düğümlerin sığdırmak için.Kalan toplamı olarak hesaplanır ve çok iyi bir sapma ise, konsol ağacında bir bölünme zorlanır.
Örneğin, müşterinin satın alma davranışı kullanarak tahmin Geliri özniteliği ve regresör modelleme bayrak sütun kümesi algoritması ilk kez dener uyma Geliri değerleri standart regresyon formül kullanarak.Sapma çok büyük ise, regresyon formülün durdurulmuş ve konsol ağacında, başka öznitelik bölünür.Karar ağacı algoritması, sonra bir regresör gelir için her dalları sonra bölme sığacak şekilde deneyecek.
Gereksinimler
Bir karar ağacı modeli, bir anahtar sütunu, giriş sütunları ve tahmin edilebilir olan en az bir sütun içermelidir.
Girdi ve öngörülebilir bir sütun
The Microsoft Decision Trees algorithm supports the specific input columns and predictable columns that are listed in the following tablo. Içerik türleri kullanıldığında anlamları hakkında daha fazla bilgi için bir araştırma modeli, bkz: Içerik türleri (veri madenciliği).
Sütun |
Içerik türleri |
---|---|
Giriş bir öznitelik |
Sipariş edildi, sürekli döngüsel, ayrı, Discretized, anahtar, tablo |
Öngörülebilir bir öznitelik |
Sipariş edildi, sürekli döngüsel, ayrı, Discretized, tablo |
Not
Cyclical ve sipariş edilmiş içerik türleri desteklenir, ancak algoritma bunları gibi farklı değerleri kabul eder ve özel bir işlem gerçekleştirmez.