Aracılığıyla paylaş


Microsoft doğrusal regresyon algoritması Teknik Başvurusu

The Microsoft Linear Regression algorithm is a special version of the Microsoft Decision Trees algorithm that is optimized for modeling pairs of continuous attributes.Bu konuda algoritma uygulaması açıklar, algoritma davranışını özelleştirmek nasıl açıklar ve modeller sorgulama hakkında ek bilgilere bağlantılar sağlar.

Doğrusal regresyon algoritma uygulaması

Microsoft karar ağaçlar algoritması çoğu görev için kullanılabilir: doğrusal regresyon, sınıflandırma ya da ilişkiyi analiz.Bu algoritma için amacıyla, doğrusal regresyon uygulamak için ağacın büyüme sınırlamak ve model tek bir düğüm içinde bulunan tüm verileri korumak için algoritma parametreleri denetlenir.Başka bir deyişle, ağaç üzerinde bir karar ağacı doğrusal regresyon dayanmasına rağmen yalnızca tek bir kök ve dalları yok içerir: tüm veriler kök düğümü bulunuyor.

Bu, algoritma 's gerçekleştirmek için MINIMUM_LEAF_CASES parametresi küme olması algoritması eğitmek kullandığı durumlarda toplam sayısına eşit veyaaraştırma modeli. Algoritma parametresi bu şekilde küme, hiçbir zaman bir bölünme oluşturmak ve bu nedenle doğrusal regresyon uygular.

Regresyon çizgisini temsil eden denklemi biçimini Genel alır y = ax + bve regresyon denklemi bilinir.Değişken y çıkış değişkeni temsil x giriş değişkeni temsil eder ve bir ve b ayarlanabilir katsayıları şunlardır.Tamamlanan araştırma modeli sorgulayarak katsayıları, intercepts ve regresyon formül hakkında diğer bilgileri alabilirsiniz.Daha fazla bilgi için bkz: Doğrusal regresyon modeli sorgulama (- Analysis Services veri madenciliği).

Skor yöntemleri ve özellik seçimi

Tüm Analysis Services veri madenciliği algoritmaları çözümleme geliştirmek ve azaltmak özellik seçimi otomatik olarak kullanişleme yükü. Doğrusal regresyon, özellik seçimi için kullanılan yöntem, interestingness puanı, modelini desteklediği için sürekli sütunları yalnızca destekler.Başvuru için aşağıdaki tablo doğrusal regresyon algoritma ve karar ağaçlar algoritması için özellik seçimi arasındaki fark gösterilir.

Algoritma

Analiz yöntemi

Açıklamalar

Doğrusal regresyon

İnterestingness puanı

Varsayılan.

Karar ağaçlar algoritması ile kullanılabilen diğer özellik seçimi yöntemleri discrete değişkenleri için geçerlidir ve bu nedenle doğrusal regresyon modeller için geçerli değildir.

Karar ağaçları

İnterestingness puanı

Shannon'ın entropi

k2 önceki ile Bayesian

(Varsayılan) Tekdüzen önceki ile Bayesian Dirichlet

Tüm sütunları ikili olmayan sürekli değer içermiyorsa, interestingness puanı tutarlılığı sağlamak için tüm sütunlar için kullanılır.Aksi halde varsayılan veya belirtilen yöntem kullanılır.

Karar ağaçları modeli için özellik seçimi denetlemek algoritması MAXIMUM_INPUT_ATTRIBUTES ve MAXIMUM_OUTPUT parametreleridir.

Doğrusal regresyon algoritma özelleştirme

The Microsoft Linear Regression algorithm supports parameters that affect the behavior, performance, and accuracy of the resulting mining model.Ayrıca küme araştırma modeli sütunlar üzerinde bayrakları modelleme veya mining yapısı sütun verilerin işlenme biçimini denetlemek için.

Algoritma parametreleri ayarlama

Aşağıdaki tablo için sağlanan parametreleri listeler Microsoft doğrusal regresyon algoritması.

Parameter

Açıklama

MAXIMUM_INPUT_ATTRIBUTES

Algoritma işleyebilir giriş özniteliklerini tanımlar önce özellik seçimi çağırır.Bu değer özellik seçimi devre dışı bırakmak için 0 olarak ayarlayın.

Varsayılan değer 255'dir.

MAXIMUM_OUTPUT_ATTRIBUTES

Algoritma işleyebilir çıkış özniteliklerini tanımlar önce özellik seçimi çağırır.Bu değer özellik seçimi devre dışı bırakmak için 0 olarak ayarlayın.

Varsayılan değer 255'dir.

FORCED_REGRESSOR

Belirtilen sütun algoritması tarafından hesaplanan sütunları önemini bakılmaksızın regressors olarak kullanılacak algoritma zorlar.

Bayrakları modelleme

The Microsoft Linear Regression algorithm supports the following modeling flags.Araştırma yapısı veya araştırma modeli oluşturduğunuzda belirtmek için modelleme bayrakları tanımlamak nasıl değerleri her sütun çözümleme sırasında işlenir.Daha fazla bilgi için bkz: Modelleme bayrakları (veri madenciliği).

Bayrak modelleme

Açıklama

BOŞ DEĞİL

Sütun null değeri içeremez gösterir.Analysis Services null değer modeli eğitim sırasında karşılaşırsa bir hata neden olur.

Araştırma yapısı sütunlar için geçerlidir.

REGRESSOR

Gösterir sütun çözümleme sırasında olası bağımsız değişkenler olarak değerlendirilmesi gerektiğini sürekli sayısal değerler içerir.

NotNot
Sütun bir regresör olarak bayrak eklemek sütun son modelinde bir regresör olarak kullanılacak garantilemez.

Araştırma modeli sütunlar için geçerlidir.

Regressors içindeki doğrusal regresyon modeller

Doğrusal regresyon modeller esas alan Microsoft karar ağaçlar algoritması.Ancak, kullanıyor olsalar bile, Microsoft doğrusal regresyon algoritması, herhangi bir karar ağacı modeli bir ağaç veya içerebilir düğümleri temsil bir gerileme sürekli öznitelik.

Sürekli bir sütun bir regresör temsil ettiğini belirtmek gerekmez.The Microsoft Decision Trees algorithm will partition the dataset into regions with meaningful patterns even if you do not set the REGRESSOR flag on the column.Fark olan zaman, küme modelleme bayrak, algoritma formun regresyon denklemi bulmaya çalışır bir * C1 + b * C2 +... desenleri düğümler ağacı sığdırmak için.Kalanlar toplamı hesaplanır ve sapma çok fazlaysa, bölünmüş ağaç zorlanır.

Örneğin müşteri satın alma davranışı kullanarak tahmin etmek, gelir bir öznitelik ve sütun regressor modelleme bayrak küme, algoritma önce deneyeceği uyma gelir standart regresyon formül kullanarak değerleri.Sapma çok güzel, regresyon formül terk ve bazı diğer ağaç ayrılır öznitelik.Karar ağacı algoritma sonra deneyin uyma bir regresör gelir her bölme sonra dalları için.

Belirli bir regresör algoritma kullanacağı güvence altına almak için forced_regressor parametresini kullanabilirsiniz.Bu parametre, Microsoft karar ağaçlar ve Microsoft doğrusal regresyon algoritmaları ile kullanılabilir.

Gereksinimler

Doğrusal regresyon modeli anahtar sütunu, giriş sütunlar ve en az birini içermelidir tahmin edilebilir sütun.

Giriş ve öngörülebilir sütunları

The Microsoft Linear Regression algorithm supports the specific input columns and predictable columns that are listed in the following table.İçerik türleri kullanıldığında anlamları hakkında daha fazla bilgi için bir araştırma modeli, bkz: İçerik türleri (veri madenciliği).

Column

İçerik türleri

Giriş öznitelik

Sürekli, döngüsel, anahtar, tablo ve sipariş

Öngörülebilir öznitelik

Sürekli, döngüsel ve sipariş edilen

Not

Cyclicalve Ordered içerik türleri desteklenir, ancak algoritma ayrık değerler olarak değerlendirir ve yapmaz özel işleme.