Aracılığıyla paylaş


Microsoft karar ağaçları algoritması

The Microsoft Decision Trees algorithm is a classification and regression algorithm provided by Microsoft SQL Server Analysis Services for use in predictive modeling of both discrete and continuous attributes.

Ayrı öznitelikleri için algoritmayı Öngörüler giriş sütunlar bir dataset arasındaki ilişkileri temel oluşturur.Bu, bilinen durumları, öngörülebilir olarak belirleyeceğiniz sütun durumları tahmin etmek için bu sütunların değerleri kullanır.Özellikle, correlated giriş tahmin edilebilir sütun sütunlarla algoritmayı tanımlar.Örneğin, bir senaryoda, tahmin etmek için büyük bir olasılıkla dışında dokuz on yeni müşteriler, bir bisiklet satın, ancak bu algoritmayı yaş bisikleti satın iyi bir tahmini olduğunu infers yalnızca dışında iki on eski müşteriler bunun, bir bisiklet, satınalma müşterilerdir.karar ağacı Öngörüler bu eğilimi doğru belirli bir sonuca göre yapar.

Sürekli özniteliklerini, burada bir karar ağacı böler belirlemek için doğrusal regresyon algoritmasını kullanır.

Birden çok sütun için öngörülebilir küme veya giriş verilerinin çok öngörülebilir küme iç içe geçmiş bir tablo içeriyorsa, algoritma ayrı bir karar ağacı için her oluşturur tahmin edilebilir sütun

Örnek

Pazarlama bölümünü Adventure Works Cycles Bu müşterilerin gelecekte bir ürün satın almak popülasyondan gösterebilir, önceki müşteriler özelliklerini tanımlamak şirket istemektedir. The AdventureWorks database stores demographic information that describes previous customers.Kullanarak Microsoft Karar ağaçları algoritması pazarlama bölümüne bu bilgileri çözümlemek için belirli bir müşteri ürünleri, durumları demografisi veya desenleri satın alma geçmiş o müşteri ile ilgili bilinen bir sütunu temel alan satınalma olup olmadığını öngörür bir modeli oluşturabilirsiniz.

Karma algoritması'nasıl çalışır?

The Microsoft Decision Trees algorithm builds a veri madenciliği model by creating a series of splits in the tree. Bu bölmeleri olarak gösterilir düğümler.Algoritma modele bir düğüm ekler her saat öngörülebilir sütununun önemli ölçüde correlated için giriş olan bir sütun bulunur.Algoritma bölme belirlediği şekilde olup olmadığını, sürekli bir sütun veya ayrı bir sütun tahmin bağlı farklıdır.

The Microsoft Decision Trees algorithm uses feature selection to guide the selection of the most useful attributes.Tüm tarafından kullanılan özellik seçimi Analysis Services Performans ve çözümleme kalitesini artırmak için veri madenciliği algoritmaları. Özellik Seçimi Önemsiz öznitelikleri işlemci kullanmalarını önemlidir saat.Çok fazla giriş veya öngörülebilir özniteliklerini kullanırsanız, bir veri araştırma modeli tasarlarken modeli, işlem veya bile bellek yetersiz) çalıştırmak için çok uzun saat alabilir.Karar ağacında bölmek için kullanılan yöntemleri için endüstri standardı ölçülerine içerir. entropi ve Bayesian ağlar. Anlamlı özniteliklerini seçin ve sonra puana ve özniteliklerini derecelendirmek için kullanılan yöntemleri hakkında daha fazla bilgi için bkzIçinde veri madenciliği özellik seçimi.

Ortak BIR veri madenciliği modelleri sorun modeli küçük farklılıkları eğitim veri için çok önemli olur, olduğu söylenir durumda over-fitted or over-trained.Diğer veri kümeleri için genelleştirilmiş overfitted bir modeli edemiyor.Veri, belirli bir dizi fazla uygunluk önlemek için Microsoft Karar ağaçları algoritması teknikleri, büyüme ağacının denetlemek için kullanır. Bir daha ayrıntılı açıklama nasıl için Microsoft Ağaçlar algoritması çalışır karar Bkz: Microsoft karar ağaçları algoritması teknik başvurusu.

Ayrı bir sütun tahmin

Bu şekilde Microsoft Bir çubuk grafik kullanarak karar ağaçları algoritması ayrı ve tahmin edilebilir sütun için bir ağacı oluşturur gösterildiği. Aşağıdaki şemada bir tahmin edilebilir sütun Bike alıcılarının, Giriş bir sütun, yaş karşı çizer bir çubuk grafik olarak gösterir.Bir kişinin yaş, kişi, bir bisiklet satınalma mı ayırt yardımcı histogram gösterir.

Histogram from Microsoft Decision Trees algorithm

Şemada gösterilen korelasyon neden Microsoft Yeni bir düğüm model oluşturmaya karar ağaçları algoritması.

Decision tree node

Ağaç yapısı algoritma bir model için yeni bir düğüm ekler olarak oluşturulmuş.Konsol ağacında, bir üst düğüm müşterilerin genel bir popülasyon için tahmin edilebilir sütun içindeki açıklar.Algoritma, ulaşması model devam gibi tüm sütunları dikkate alır.

Sürekli sütunlar tahmin

Zaman Microsoft Karar ağaçları algoritması sürekli öngörülebilir sütun temel alan bir ağacı oluşturur, her düğüm regresyon formülünü içerir. Bölme, linearity regresyon formülde, bir noktadan oluşur.Örneğin, aşağıdaki şemada göz önünde bulundurun.

Multiple regression lines showing non-linearity

Diyagramı, tek bir satır veya kullanarak bağlı olan iki satır kullanarak modellenebilir veriler içeriyor.Ancak, tek bir satır verileri temsil eden, zayıf bir iş yaptığınız.Bunun yerine iki satır kullanırsanız, model verileri approximating, bir çok daha iyi iş yapabilirsiniz.Burada iki satır birlikte gelen noktası olmayan linearity noktasıdır ve bir karar ağacı modelinde bir düğüm bölünmüş noktadır.Örneğin, aşağıdaki şemada tarafından linearity önceki grafikte noktasına karşılık gelen düğümü gösterilemeyecek.Iki denklemler, regresyon denklemi iki satır için temsil eder.

Equation that represents a point of non-linearity

Karar ağacı modeller için gerekli veri

Karar ağaçları modelindeki kullanmak için veri hazırladığınızda, ne kadar veri gereklidir ve verileri nasıl kullanıldığı gibi belirli algoritması, gereksinimlerini anlamalısınız.

Karar ağaçları model için gereksinimleri aşağıdaki gibidir:

  • Tek bir key sütun   Her model, her kaydı benzersiz olarak tanımlayan bir sayı veya metin sütun içermelidir.Bileşik anahtar izin verilmez.

  • tahmin edilebilir sütun   Tahmin edilebilir olan en az bir sütun gerektirir.Öngörülebilir öznitelikleri, sayısal veya ayrık farklı tiplerde olabilir ve bir modelinde tahmin edilebilir olan birden fazla öznitelik içerebilir.Ancak, öngörülebilir bir öznitelik sayısını artırma işleme artırabilirsiniz saat.

  • Giriş bir sütun   Giriş sütunlar, sürekli ya da ayrı gerektirir.Giriş bir öznitelik sayısını artırma işlem süresini etkiler.

Karar ağacında modeller için desteklenen veri türleri ve içerik türleri hakkında daha ayrıntılı bilgi için gereksinimler bölümüne bakın. Microsoft karar ağaçları algoritması teknik başvurusu.

Karar ağaçları model görüntüleme

Model keşfetmek için Microsoft ağacı Görüntüleyicisi.Model, birden çok ağaç oluşturursa, seçebileceğiniz bir ağaç ve bir dökümünü servis taleplerini nasıl öngörülebilir her öznitelik için kategorize edilir, görüntüleyiciyi gösterir.Ağaçlarının etkileşim bağımlılık ağ görüntüleyiciyi kullanarak da görüntüleyebilirsiniz.Daha fazla bilgi için bkz:Görüntüleme bir araştırma modeli Microsoft ağacı Görüntüleyici ile.

Herhangi bir dal veya Ağaçtaki düğüm hakkında daha fazla ayrıntı öğrenmek isterseniz, ayrıca modeli kullanarak göz atabiliyor Microsoft Genel içerik ağacı Görüntüleyicisi.Içerik modeli için saklanan tüm değerleri her düğümde bulunan, ağacın her düzeyine olasılıklar dağıtıma ve sürekli öznitelikleri regresyon formüllerini içerir.Daha fazla bilgi için bkz:araştırma modeli Karar ağacı modeller için içerik (Analysis Services - veri madenciliği).

Öngörüler oluşturma

Işlem modeli sonra sonuçlar olarak saklanır bir küme desenleri ve istatistikler, ilişkiler'i Keşfedin Öngörüler yapmak için kullanabilirsiniz.

Karar ağaçları modelde kullanılacak sorgusuna örnekler için bkz: Karar ağaçları model sorgulama (Analysis Services - veri madenciliği).

Madenciliği modelleri sorgular oluşturma hakkında genel bilgi için bkz: Veri madenciliği modelleri sorgulama (Analysis Services - veri madenciliği).

Açıklamalar

  • Öngörü modeli biçimlendirme dili (madenciliği modelleri oluşturmak için PMML) kullanılmasını destekler.

  • detaylandırma destekler.

  • OLAP madenciliği modelleri kullanımını ve veri madenciliği boyutları oluşturulmasını destekler.