Microsoft ilişkilendirmesi algoritması teknik başvurusu
The Microsoft Association Rules algorithm is a straightforward implementation of the well-known Apriori algorithm.
Her iki Microsoft Karar ağaçları algoritmasını ve Microsoft Ilişki kurallar algoritması ilişkileri analiz etmek için kullanılabilir, ancak her algoritması tarafından bulunan kurallar farklı olabilir. Karar ağaçları modelinde bir ilişki modeli kuralları tamamen güven üzerinde temel alır, ancak bilgi kazanç'olarak için belirli kurallar neden bölmelerini temel alır.Yeni bilgi sağlamaz, çünkü bu nedenle, bir ilişkide modeli, güçlü bir kural veya yüksek bir güven var, mutlaka ilginç olmayabilir.
Microsoft ilişkilendirmesi algoritma uygulaması
Apriori algoritması desenleri, çözümlemek, ancak yerine oluşturur ve sonra sayar. Aday itemsets.öğe, bir olay, bir ürün ya da analiz veri türüne bağlı olarak, bir öznitelik değerini gösterebilir.
Ilişkilendirme modelini Boole değişkenleri yaygın türünü temsil eden, Evet/Hayır veya eksik/varolan değeri, ürün veya olay adı gibi her öznitelik için atanmış.pazar sepeti çözümlemesi olup olmadığını gösteren Boole değişkenler kullanan bir ilişki kurallar model örneği veya belirli bir Müşteri alışveriş sepetine ürünleri, devamsızlık ' dir.
Algoritma, her itemset için destek ve güven temsil eden puanları sonra oluşturur.Bu puanları rütbe ve ilginç kuralları itemsets türetmek için kullanılır.
Ilişki modelleri de sayısal öznitelikleri için oluşturulabilir.Öznitelikleri sürekli, sayılar olabilir discretized, veya demetleri içinde gruplandırılmış.Discretized değerleri Boolean değerleri veya öznitelik-değer çiftleri olarak işlenebilir.
Destek, olasılık ve önem
Support, which issometimes referred to as frequency, means the number of cases that contain the targeted item or combination of items.Yalnızca en az destek belirtilen miktarı içeren öğeleri modelde eklenebilir.
C sık sık itemset öğeleri birleşimi MINIMUM_SUPPORT parametresi tarafından tanımlanan bir eşiğin desteği de sahip olduğu öğeler koleksiyon gösterir.Örneğin, the itemset {A, B, C} ve MINIMUM_SUPPORT değeri 10 ' A, tek tek her öğe B ve C modelde eklenmek üzere en az 10 durumlarda bulunması gerekir ve öğeleri {A, B, C} birleşimi de en az 10 durumda bulunan gerekir.
Not Içinde itemsets sayısını kontrol edebilirsiniz bir araştırma modeli belirterek bir itemset uzunluğu, maddelerin numarasını burada anlamına gelir, en fazla uzunluğu.
Varsayılan olarak, herhangi bir özel desteğini öğe veya öğe kümesini içeren servis taleplerinin sayısını gösteren öğe veya öğe s.Ancak, aynı zamanda MINIMUM_SUPPORT toplam servis taleplerini verilerin bir yüzdesi olarak ifade edebilirsiniz küme, bunun numarasını ondalık olarak yazarak, 1'den küçük değer.0.03 MINIMUM_SUPPORT değerini belirtirseniz, örneğin, geldiğini toplam servis talepleri verilerdeki en az % 3 küme bu maddenin veya madde içeren küme modelinde eklenmek üzere.Bir sayısı veya yüzdesi'ni kullanarak daha fazla anlamlı olup olmadığını belirlemek için modelinize denemeniz.
Buna ek olarak, eşik kuralları için değil bir sayı veya yüzde olarak ifade edilen, ancak olasılık, bazen olarak adlandırılır güven.Örneğin, 50 durumlarda itemset, {A, B, C} oluşur, ancak itemset, {A, B, D} da 50 olan servis talepleri ve 50 olan başka bir durumda {A, B} itemset oluşuyor, {A, B}, {C} güçlü bir tahmini değil açıktır.Bu nedenle, belirli bir sonuç bilinen tüm sonuçlar karşı Ağırlık Analysis Services (örneğin, tek tek kural olasılığını hesaplar {A, B} Then {C}) {A, B, C} itemset desteğini ilgili tüm itemsets desteğini bölünerek.
Bir model için MINIMUM_PROBABILITY bir değeri ayarlayarak üreten kuralları sayısını sınırlayabilirsiniz.
For each rule that is created, Analysis Services outputs a score that indicates its importance, which is alsoreferred to as lift.Lift önem farklı itemsets ve kuralları için hesaplanır.
Bir itemset önemini itemset tek tek öğeleri bileşik olasılığını bölünen itemset olasılığını olarak hesaplanır.Örneğin, bir itemset {A, B} içeriyorsa, Analysis Services önce bu birleşimini içeren tüm servis talepleri sayar A ve B, servis taleplerini toplam sayısına böler ve sonra da olasılığını normalleştirir.
Bir kural önemini taraftaki kuralın verilen kuralı sağ tarafında günlük olasılığını tarafından hesaplanır.Örneğin, bu kuralda If {A} Then {B}, Analysis Services BIR servis talepleriyle oranını hesaplar ve B üzerinden B ancak olmayan BIR durumda ve sonra Logaritmik ölçek kullanarak bu oranı normalleştirir.
Özellik Seçimi
The Microsoft Association Rules algorithm does not perform any kind of automatic feature selection.Bunun yerine, algoritma algoritması tarafından kullanılan veri kontrol parametreleri sağlar.Bu, her bir itemset boyutunu, sınırlarını içerebilir veya bir itemset modele eklemek için gereken en çok ve en az destek ayarlama.
Öğeleri ve çok sık kullanılan ve bu nedenle uninteresting olayları öğrenmek süzmek için , çok sık itemsets modelinden kaldırmak için MAXIMUM_SUPPORT değerini azaltın.
Öğeleri ve seyrek itemsets çıkış süzmek için , MINIMUM_SUPPORT değerini artırın.
Kural süzmek için , MINIMUM_PROBABILITY değerini artırın.
Microsoft ilişkilendirmesi kuralları algoritması'nı özelleştirme
The Microsoft Association Rules algorithm supports several parameters that affect the behavior, performance, and accuracy of the resulting araştırma modeli.
Algoritma parametreleri ayarlama
Parametreler için değiştirebileceğiniz bir araştırma modeli veri madenciliği Tasarımcıda kullanarak herhangi bir anda Business Intelligence Development Studio. Ayrıca parametre programsal olarak kullanarak değiştirebilirsiniz AlgorithmParameters() koleksiyon ÇYN veya kullanarak MiningModels öğesi (ASSL) XMLA içinde. Aşağıdaki tabloda her parametre açıklar.
Not
Varolan bir modeli parametrelerinde bir DMX deyimini kullanarak değiştiremezsiniz; DMX MODELI CREATE veya ALTER STRUCTURE… parametreleri belirtmeniz gerekir ADD, model oluştururken MODELI.
MAXIMUM_ITEMSET_COUNT
Itemsets üretmek için en fazla sayısını belirtir.Sayı belirtilmezse, varsayılan değer kullanılır.Varsayılan değer 200000'dir.
Not
Itemsets destek tarafından derecelendirilir.Sıralama aynı desteğiniz itemsets arasında rastgele olur.
MAXIMUM_ITEMSET_SIZE
Izin verilen öğe sayısı içinde bir itemset belirtir.Bu değeri 0 olarak ayarlandığında, itemset boyutu sınırı olduğunu belirtir.Varsayılan değer 3'dir.
Not
Bu değer azaltma, çünkü bu sınıra ulaşıldığında, işlem modelinin durdurur, model oluşturmak için gerekli olan saat olası azaltabilirsiniz.
MAXIMUM_SUPPORT
En fazla bir itemset desteği olan bir servis talebi sayısını belirtir.Bu parametre, sık olarak görünür ve bu nedenle büyük olasılıkla az anlamı öğeleri elemek için kullanılabilir.Bu değer 1'den küçük ise, değer, servis taleplerini toplam yüzdesi temsil eder.Değer 1'den büyük mutlak itemset içeren bir servis talebi sayısını gösterir.
Varsayılan değer 1'dir.
MINIMUM_IMPORTANCE
Ilişki kurallar için önem eşik belirtir.Bu değerden daha az önem kurallarıyla filtrelenir.Yalnızca kurumsal kullanılabilir.MINIMUM_ITEMSET_SIZE
En az sayıda izin verilen öğeler'de bir itemset belirtir.Bu sayıyı artırmak için bu model daha az itemsets içerebilir.Bu, örneğin tek öğe itemsets, dikkate almamasını istiyorsanız yararlı olabilir.Varsayılan değer 1'dir.
Not
Modeli, işlem saat, en küçük değerini artırarak çünkü azaltmak olamaz Analysis Services tek bir öğe için değerler işleminin bir parçası olarak yine de hesaplamalısınız. Ancak, bu değer daha yüksek ayarlayarak için daha küçük itemsets süzebilirsiniz.
MINIMUM_PROBABILITY
En az bir kural doğru olma olasılığını belirtir.Örneğin, size küme 0,5 bu değeri, bu kural ile yüzde fifty'den az olasılık oluşturulabilir anlamına gelir.
Varsayılan değer 0,4'dir.
MINIMUM_SUPPORT
Algoritma bir kural oluşturur önce itemset içermeli servis taleplerinin sayısı alt sınırını belirtir.Varsa, küme bu değeri 1'den küçük, en az sayıda servis talebi, servis taleplerini toplam yüzdesi olarak hesaplanır.
Varsa, küme durumda en az sayıda öğe içermeli, servis talebi sayısı hesaplanır, bu değeri 1'den büyük bir tamsayı belirtir küme.Algoritma, otomatik olarak bellek sınırlı ise, bu parametrenin değeri artabilir.
Varsayılan değer 0,03'dir.Bu modelde dahil edilecek, yani bir itemset en az % 3'de servis talepleri bulunması gerekir.
OPTIMIZED_PREDICTION_COUNT
Tahmin en iyi duruma getirmek için önbelleğe alınmak amacıyla, öğe sayısını tanımlar.Varsayılan değer 0’dır.Varsayılan olarak kullanılan, algoritmayı sorguda istendiği gibi çok Öngörüler üretecektir.
Sıfır olmayan bir değer belirtirseniz OPTIMIZED_PREDICTION_COUNT, Ek Öngörüler istek bile tahmin sorgular, en fazla öğe sayısını belirtilen döndürebilir. Ancak, bir değeri ayarlayarak tahmin performansı artırabilir.
Örneğin, karma algoritması değeri 3'e ayarlı ise, yalnızca 3 maddeler için tahmin önbelleğe alır.Döndürülen 3 maddelere eşit olası olabilecek ek Öngörüler göremez.
Flags model oluşturma
Aşağıdaki bayraklardan modelleme kullanılmak üzere desteklenen Microsoft Ilişki kurallar algoritması.
null DEĞİL
Sütun null içeremez gösterir.Bir hata neden Analysis Services null bir modeli eğitim sırasında karşılaşır.araştırma yapısına geçerli sütun.
model_existence_only
Sütun iki olası durumlar sahip olarak değerlendirilmez olduðu anlamýna gelir: Missing ve Existing. null BIR eksik bir değerdir.araştırma modeline geçerli sütun.
Gereksinimler
Bir ilişkilendirme modelini bir anahtar sütunu, giriş sütunları ve öngörülebilir tek bir sütun içermelidir.
Girdi ve öngörülebilir bir sütun
The Microsoft Association Rules algorithm supports the specific input columns and predictable columns that are listed in the following tablo. Içerik türlerinin anlamı hakkında daha fazla bilgi için bir araştırma modeli, bkz: Içerik türleri (veri madenciliği).
Sütun |
Içerik türleri |
---|---|
Giriş bir öznitelik |
Döngüsel ayrı, Discretized, anahtar, tablo, sipariş |
Öngörülebilir bir öznitelik |
Döngüsel, ayrı, Discretized, tablo, sipariş |
Not
Cyclical ve sipariş edilmiş içerik türleri desteklenir, ancak algoritma bunları gibi farklı değerleri kabul eder ve özel bir işlem gerçekleştirmez.
Değişiklik Geçmişi
Güncelleştirilmiş içerik |
---|
Parametre MINIMUM_IMPORTANCE ek açıklaması. |