Makale
05/07/2010

Microsoft Logistic regresyon algoritması teknik başvurusu

The Microsoft Logistic regresyon algorithm is a variation of the Microsoft Neural Network algorithm, where the HIDDEN_NODE_RATIO parameter is küme to 0. Bu ayar, gizli bir katmanda içermez ve bu nedenle logistic gerileme için eşdeğer olan neural ağ model oluşturur.

Logistic regresyon algoritması Microsoft uygulamasıdır.

Yalnızca iki durumu tahmin edilebilir sütun içerir, ancak hala bir regresyon çözümlemesi yapma olasılığını öngörülebilir sütunu, belirli bir durum içerecek için giriş sütunları ilgili istediğiniz varsayalım.Aşağıdaki şemada durumlara tahmin edilebilir sütun 1 ve 0 atarsanız alacaktır sonuçlar göstermektedir, sütun bir özel durum içerir ve bir doğrusal regresyon giriş olan bir değişkene gerçekleştirmek, olasılığını hesaplamak.

Poorly modeled data using linear regression

X-eksen bir girdi sütun değerleri içerir.Y ekseni bir il veya diğer tahmin edilebilir sütun olacak değerler içerir.Bu sorun, bu sütunun en yüksek ve en düşük değerleri olsa doğrusal regresyon sütun 0 ile 1 arasında olmalıdır sınırlamak değil, kaynaklanmaktadır.Logistic regresyon gerçekleştirmek için bu sorunu çözmek için BIR yoludur.Düz bir çizgi oluşturmak yerine, en yüksek ve en küçük kısıtlamaları içeren eğri şeklinde bir "S" logistic regresyon çözümlemesi oluşturur.Örneğin, aşağıdaki şemada, önceki örnek için kullanılan aynı verilere karşı logistic regresyon gerçekleştirirseniz elde sonuçlar gösterilmiştir.

Data modeled by using logistic regression

Nasıl eğri hiçbir zaman 1'üstünde veya altında 0 gider dikkat edin.Logistic regresyon, giriş hangi sütunların tahmin edilebilir sütun durumunu belirlerken önemlidir tanımlamak için kullanabilirsiniz.

Özellik Seçimi

Özellik Seçimi, çözümleme geliştirmek ve işleme yükü azaltmak için tüm Analysis Services veri madenciliği algoritmaları tarafından otomatik olarak kullanılır.Özellik Seçimi logistic regresyon modeli için kullanılan yöntem özniteliği veri türüne bağlıdır.Microsoft Neural ağ algoritmasına logistic regresyon dayalı olduğundan, bu alt küme küme ağlara neural geçerli özellik seçim yöntemlerini kullanır.Daha fazla bilgi için bkz:Içinde veri madenciliği özellik seçimi.

Skor giriş

Skor neural ağ modeli veya logistic regresyon modeli bağlamındaki verileri içinde bulunan değerleri dönüştürme işlemi anlamına gelir bir küme değerlerinin aynı ölçeği kullanır ve bu nedenle birbirlerine karşılaştırılabilir.Girdileri [Çocuklarının Sayısı] için 0 ile 5 aralığında ise, örneğin, girdileri gelir aralık 0 için 100.000 varsayalım.Bu dönüştürme işlemi, sağlar. Skorveya karşılaştırma, değerler arasındaki fark ne olursa olsun, her giriş önemini.

Eğitim içinde görünen her il için küme, model, bir giriş oluşturur.Eksik durumu, eğitim, en az bir kez görüntülenir, ayrı veya discretized girişleri için ek bir giriş eksik durumunu göstermek için oluşturulan küme.Sürekli girişleri için en fazla iki giriş düğüm oluşturulur: Varolan veya null olmayan, tüm değerler için biri eksik değerleri, eğitim verilerde varsa ve bir giriş. Her girdi, z-score kullanarak bir sayısal biçim ölçeklenir normalleştirme yöntem, (x- μ) / STDSAPMA.

Z-score normalleştirme sırasında Ortalama (μ) ve standart sapma üzerinden tam eğitim alınır küme.

Sürekli bir değer

Bugünkü değerdir: ()X – μ) σ / / / X, kodlanmış gerçek değerdir)

Ayrık değerler

μ = p-(önceki bir duruma olasılık)

Logistic regresyon katsayıları anlama

Çeşitli yöntemler vardır logistic regresyon gerçekleştirmek için bir istatistik belgeleri, ancak önemli bir bölümü yöntemlerinin modelinin uyma değerlendiriliyor.uyma güzelliklerine istatistiklerini çeşitli teklif, bunları odds oranları ve covariate desenleri arasında.Tartışmayı uyma bir alt modelin ölçen nasıl bu konunun kapsam dışındadır, ancak modelinde katsayıları değerini almak ve bunları kendi önlemler uyma olarak tasarlamak için kullanın.

Not

Bir logistic regresyon modeline bir parçası olarak oluşturulan katsayıları odds oranları gösteren ve gibi yorumlanmalıdır değil.

Için model grafikteki her bir düğümde katsayıları ağırlıklı bir düğüm için girişleri toplamını gösterir.Bir logistic regresyon modeline gizli katmanı boş; bu nedenle, katsayıları,'çıktı düğümlerin depolanan tek bir dizi yoktur.Katsayıları değerlerini, aşağıdaki sorgu kullanarak alabilirsiniz:

SELECT FLATTENED [NODE_UNIQUE NAME],
(SELECT ATTRIBUTE_NAME< ATTRIBUTE_VALUE
FROM NODE_DISTRIBUTION) AS t
FROM <model name>.CONTENT
WHERE NODE_TYPE = 23

Her değer çıktı için bu sorgu, katsayılar ve ilgili giriş düğüme geri işaret eden bir KIMLIK verir.Ayrıca, çıkışı ve kesme noktası değerini içeren bir satır döndürür.Her giriş, X kendi katsayısı (CI) vardır, ancak iç içe geçmiş tablo, aşağıdaki formüle göre hesaplanan “ boş ” katsayısı (co) de içerir:

F(X) X 1 = * C1 + X 2 * C2 +... + Xn * CN + X, 0

Daha fazla bilgi için bkz:Bir Logistic regresyon modeli sorgulama (Analysis Services - veri madenciliği).

Logistic regresyon algoritması'nı özelleştirme

The Microsoft logistic regresyon algorithm supports several parameters that affect the behavior, performance, and accuracy of the resulting araştırma modeli. Ayrıca, giriş olarak kullanılan sütunlar modelleme bayraklarını ayarlayarak modelinin davranışı değiştirebilirsiniz.

Algoritma parametreleri ayarlama

Aşağıdaki tablo Microsoft Logistic regresyon algoritması ile kullanılacak olan parametreleri açıklar.

holdout_percentage
gizleme hata hesaplamak için kullanılan eğitim veri içinde taleplerinin yüzdesini belirtir.HOLDOUT_PERCENTAGE araştırma modeli eğitimi sırasında durdurma ölçütünün bir parçası olarak kullanılır.

Varsayılan değer 30'dir.
holdout_seed
Rasgele gizleme verisi belirlerken üretir oluşturucu temel için kullanılacak bir numara belirtir.HOLDOUT_SEED ise küme 0, içerik modeli aynı reprocessing sırasında kalmasını güvence altına almak için madenciliği modelinin adı temel alınarak çekirdek algoritma oluşturur.

Varsayılan değer 0'dir.
maximum_input_attributes
Algoritma işleyebileceği giriş özniteliklerini tanımlayan önce bu özellik seçimi çağırır.küme Bu özellik seçimi devre dışı bırakmak için 0 değeri.

Varsayılan değer 255'dir.
maximum_output_attributes
Algoritma işleyebileceği bir çıkış özniteliklerini tanımlayan önce bu özellik seçimi çağırır.küme Bu özellik seçimi devre dışı bırakmak için 0 değeri.

Varsayılan değer 255'dir.
maximum_states
Sayısı üst sınırını belirtir öznitelik durumları algoritmasını destekler.Bir öznitelik olan durumları sayısı en fazla durum sayısından büyükse, algoritma özniteliğinin en popüler durumları kullanır ve kalan durumları yoksayar.

Varsayılan değer 100'dir.
sample_size
Model eğitmek için kullanılacak bir servis talebi sayısını belirtir.Bu sayı ya da HOLDOUT_PERCENTAGE parametresi tarafından belirtilen gizleme yüzde dahil edilmeyen bir servis talebi toplamı yüzdesi algoritması sağlayıcı kullanır, hangi değer daha küçüktür.

Diğer bir deyişle, HOLDOUT_PERCENTAGE ise küme 30 için bu parametrenin değeri ya da yüzde 70'toplam servis talebi sayısı eşit bir değer algoritması kullanır, hangisi daha küçüktür.

Varsayılan değer 10000'dir.

Flags model oluşturma

Aşağıdaki bayraklardan modelleme kullanılmak üzere desteklenen Microsoft Logistic regresyon algoritması.

null DEĞİL
Sütun null içeremez gösterir.Analysis Services null karşılaşırsa modeli eğitim sırasında bir hata neden olur.

araştırma yapısı sütunlar için geçerlidir.
model_existence_only
Sütun iki olası durumlar sahip olarak değerlendirilmez olduðu anlamýna gelir: Missing ve Existing. null BIR eksik bir değerdir.

araştırma modeline geçerli sütun.

Gereksinimler

Bir logistic regresyon modeline bir anahtar sütunu, giriş sütunları ve en az bir içermeli tahmin edilebilir sütun.

Girdi ve öngörülebilir bir sütun

The Microsoft Logistic regresyon algorithm supports the specific input column content types, tahmin edilebilir sütun content types, and modeling flags that are listed in the following tablo. Içerik türleri kullanıldığında anlamları hakkında daha fazla bilgi için bir araştırma modeli, bkz: Içerik türleri (veri madenciliği).

Sütun	Içerik türleri
Giriş bir öznitelik	Sürekli ayrı, Discretized, anahtar, tablo
Öngörülebilir bir öznitelik	Sürekli ayrı, Discretized

Aracılığıyla paylaş