Microsoft Kümeleme algoritması Teknik Başvurusu
Bu balıkta uygulaması Microsoft kümeleme algoritması davranışını denetlemek için kullanabileceğiniz parametreler de dahil olmak üzerekümeleme modelleri. Ayrıca oluşturduğunuzda, performans ve modelleri kümeleme işlemi geliştirmek konusunda rehberlik sağlar.
Kümeleme modelleri kullanma hakkında ek bilgi için aşağıdaki konulara bakın:
Algoritma kümeleme Microsoft uygulamasıdır.
The Microsoft Clustering algorithm provides two methods for creating clusters and assigning data points to the clusters.İlk k-anlamına gelir , algoritmasıdır sabit kümeleme yöntem. Yani bir veri noktasını yalnızca bir kümeye ait olabilir ve üyelik, kümedeki her veri noktası için bir tek olasılık hesaplanır.İkinci yöntem, Beklentisiyle Maximization (em) yöntemi, bir yumuşak kümeleme yöntemi. Yani bir veri noktası her zaman birden çok kümeye ait olduğunu ve her veri noktası ve küme birleşimi için bir olasılık hesaplanır.
Hangi algoritmanın ayarlayarak kullanılacağını seçebilirsiniz CLUSTERING_METHOD parametresi.Ölçeklenebilir em, kümeleme için varsayılan yöntem.
Kümeleme em
De em Kümelemede algoritması yinelenen bir ilk küme modeli için iyileştirir uyma veri ve veri noktası bir kümede bulunan olasılık belirler.Probabilistic modeli veri ne zaman algoritması işlemi sonlandırır.Belirlemek için kullanılan işlev uyma modeli verilen veriler günlüğüne olasılığını olur.
Boş Küme işlemi sırasında oluşturulan veya bir veya daha fazla Küme üyeliği belirli bir eşiğin altına düşerse, düşük örneğin alınma olasılığını kümeleriyle yeni noktalarda reseeded ve em algoritması yeniden çalıştırın.
sonuçlar em probabilistic kümeleme yöntem.Her veri noktası için tüm kümeleri ait olduğu, ancak her bir veri noktası için bir küme ataması farklı bir olasılık olduğu anlamına gelir.Yöntem üst üste kümeleri için izin verdiğinden, toplam Eğitim küme öğeleri tüm kümelerdeki öğeleri toplamını aşabilir.Araştırma modelinde sonuçlar, destek gösteren puanları hesabına ayarlanmış bu.
em algoritması, Microsoft Kümeleme modellerinde kullanılan varsayılan algoritmasıdır.Bu algoritma kümeleme k-anlamına gelir karşılaştırıldığında için birden fazla avantajlar sunar varsayılan olarak kullanılır:
En fazla bir veritabanı tarama gerektirir.
Sınırlı bellek (ram) rağmen çalışır.
yalnızca ilerleyen imleç kullanma olanağı vardır.
Örnekleme yaklaşımlardan outperforms.
Microsoft uygulaması için iki seçenek sunar: ölçeklenebilir ve ölçeklenemeyen em.Varsayılan olarak, ölçeklenebilir em ilk 50.000 kayıtları ilk tarama sağlamak için kullanılır.Bu başarılı olursa, bu verileri yalnızca modeli kullanır.Model olamaz, uyma 50.000 kayıtları kullanılarak, ek bir 50.000 kayıtlar okunur.Ölçeklenemeyen em tüm DataSet nesnesini, boyutu ne olursa olsun salt okunur.Bu yöntem daha doğru kümeleri oluşturabilirsiniz, ancak bellek gereksinimleri önemli olabilir.Ölçeklenebilir em bir yerel ara bellek üzerinde çalıştığından, üzerinden veri yineleme çok daha hızlıdır ve algoritma ölçeklenemeyen EM'den daha iyi ne kadar cpu bellek önbellek kullanımını kolaylaştırır.Üstelik, tüm verileri bile ölçeklenebilir em ölçeklenemeyen EM'den üç kat daha hızlı uyma ana bellekteki.Çoğu kez, içinde performans geliştirme tam modelinin kalitesini düşürmek için yol açmaz.
Uygulaması, em açıklayan teknik rapor için Microsoft Bkz: kümeleme algoritması, büyük veritabanları için kümeleme em ölçeklendirme (beklentisiyle Maximization).
Kümeleme k-anlamına gelir
Kümeleme k-anlamına gelir, öğeler arasındaki farklar bir kümede indirerek kümeleri arasındaki mesafeyi en üst düzeye çıkarma sırasında Küme üyeliği atama, iyi bilinen yöntem."Anlamına gelir" k-anlamına gelir anlamına gelir centroid kümenin, rasgele seçilen ve kümedeki tüm veri noktaları doğru ortalamasını gösteren kadar inventory siyah sonra zemin bir veri noktasıdır."k" Kümeleme işlemi temel yapmak için kullanılan noktaları rasgele bir sayıya başvuruda bulunuyorsa.K-anlamına gelir algoritması veri kayıtlarını bir kümede küme ortalamasını gösteren ve son k kümeler kümesi üzerinde o toplamı en küçük değerini ulaştığında yakınsamıyor vektör arasındaki karesi alınmış Euclidean uzaklıkları hesaplar.
K-anlamına gelir algoritma her veri noktası için tam olarak bir küme atar ve belirsizlik üyeliği için izin vermez.Bir küme üyeliği bir mesafeden centroid olarak ifade edilir.
Genellikle, k-anlamına gelir algoritması sürekli öznitelik kümeleri oluşturmak için bir ortalama uzaklığı hesaplamak kolay anlaşılan nerede kullanılır.Ancak, Microsoft uygulaması k-anlamına gelir uyum yöntem kesikli öznitelikleri olasılıklar. kullanarak kümeKesikli öznitelikleri için bir veri noktasından belirli bir küme uzaklık aşağıdaki gibi hesaplanır:
1 - P(data point, cluster)
Not
The Microsoft Clustering algorithm does not expose the distance function used in computing k-means, and measures of distance are not available in the completed model.Ancak, kullanabileceğiniz bir tahmin yeri mesafe hesaplanan olasılığı, kümeye ait veri noktası olarak uzaklığı, karşılık gelen bir değer dönmek için işlevi.Daha fazla bilgi için bkz: ClusterProbability (dmx).
K-anlamına gelir algoritması örnekleme veri küme için iki yöntem sağlar: ölçeklenemeyen k-tüm veriyi yükleyen demektir, küme ve kümeleme tek seferde veya ölçeklenebilir k-burada algoritması ilk 50.000 servis talepleri kullanır ve yalnızca bir mal elde etmek için daha fazla veri gerekiyorsa, daha fazla servis taleplerini sığdırmak için veri modelinin okur anlamına gelir, yapar.
sql Server 2008'deki algoritma kümeleme Microsoft güncelleştirmeleri
sql Server 2008, varsayılan yapılandırma, Microsoft kümeleme algoritması değiştirildi NORMALLEŞTİRME iç parametre kullanmak için = 1.Normalleştirme, z-score istatistikleri kullanılarak yapılır ve normal dağılım varsayar.Büyük magnitudes ve birçok outliers olabilir öznitelikleri etkisini en aza indirmek için varsayılan davranıştaki bu değişikliğin amacı idi. Z-score normalleştirme değiştirebilir ancak, kümeleme (Tekdüzen dağıtımları gibi) normal dağıtım sonuçlar.Bu uygulama sonucunda, müşterilerin sql Server 2005 Analysis Services 2008 geçirme çözümleri kümeleme şimdi modeller olduğunu fark edebilirsiniz farklı sonuçlar doğurur.Normalleştirme önlemek ve sql Server 2005'te k-anlamına gelir kümeleme algoritması olarak aynı davranışı elde etmek için kullanabileceğiniz parametresi kümetings NORMALLEŞTİRME, özel parametre eklemek için iletişim kutusunda ve küme için 0 değeri.
Not
NORMALLEŞTİRME parametre bir iç özellik: Microsoft algoritması Kümeleme ve desteklenmiyor.Genel olarak, normalleştirme modelleri kümeleme model sonuçlar iyileştirmek için önerilir.
Algoritma kümeleme Microsoft özelleştirme
The Microsoft Clustering algorithm supports several parameters that affect the behavior, performance, and accuracy of the resulting mining model.
Algoritma parametreleri ayarlama
Aşağıdaki tablo ile kullanılan parametrelerini açıklar Microsoft kümeleme algoritması.Bu parametreler performans ve elde edilen araştırma modeli doğruluğunu etkiler.
CLUSTERING_METHOD
Kullanılacak algoritma için kümeleme yöntem belirtir.Kümeleme aşağıdaki yöntemler kullanılabilir:No
Yöntemi
1
Ölçeklenebilir em
2
Ölçeklenemeyen em
3
Ölçeklenebilir k anlamına gelir
4
Ölçeklenemeyen k-demektir.
1 (Ölçeklenebilir em) varsayılandır.
CLUSTER_COUNT
Küme algoritması tarafından oluşturulacak yaklaşık sayısını belirtir.Veri kümeleri yaklaşık kaç oluþturulamaz, algoritması mümkün olduğu kadar çok kümeleri oluşturur.cluster_count 0 olarak ayarlamak en iyi oluşturmak için küme sayısını belirlemek için Buluşsal yöntemler kullanılacak algoritma neden olur.Varsayılan değer 10'dir.
CLUSTER_SEED
Rasgele model binanın ilk aşaması için kümeleri oluşturmak için kullanılan çekirdek numarasını belirtir.Bu sayıyı değiştirerek, ilk küme yerleşik şeklini değiştirmek ve sonra farklı oluştururken çekirdeği kullanılarak oluşturulan modelleri karşılaştırın.Tohum değiştirilir, ancak bulunan kümeler büyük ölçüde değiştirmek, model görece kararlı kabul edilebilir.
Varsayılan değer 0'dir.
MINIMUM_SUPPORT
En az bir küme oluşturmak için gerekli olan durumlarda sayısını belirtir.Küme durumlarda sayısını bu sayıdan daha düşük ise, küme boş olarak işlem görür ve attı.Bu sayı çok yüksek bir değere ayarlarsanız, geçerli küme almayabilirsiniz.
Not
Bazı kümeler, varsayılan kümeleme yöntem olan em kullanırsanız, belirtilen değerden daha düşük olan bir destek değer olabilir.Çünkü her durum için olası tüm kümelerdeki üyeliği değerlendirilir ve bazı kümeler yalnızca en az destek olabilir budur.
Varsayılan değer 1'dir.
MODELLING_CARDINALITY
Kümeleme işlemi sırasında oluşturulmuş örnek model sayısını belirtir.Aday modelleri sayısını azaltma adresindeki riskini nin bazı iyi candidate modeller eksik performansını artırabilirsiniz.
Varsayılan değer 10'dir.
STOPPING_TOLERANCE
Yakınsama ulaşıldığında belirlemek için kullanılan değer ve algoritmayı belirtir modelini oluşturma tamamlandı.Küme olasılıklar genel değişiklik modelin boyutuna göre bölünmüş STOPPING_TOLERANCE parametresinin oranı azdır, yakınsama ulaşıldı.Varsayılan değer 10'dir.
SAMPLE_SIZE
CLUSTERING_METHOD parametresi ise her geçişte algoritması kullanan servis taleplerinin sayısını belirtir küme ölçeklenebilir birini kümeleme yöntemleri.SAMPLE_SIZE parametre 0 olarak ayarlanması, tek geçişte kümelenecek tüm dataset neden olur.Tek bir seferde tüm veri kümesi yükleniyor neden olabilecek bellek ve performans sorunları.Varsayılan değer 50000'dir.
MAXIMUM_INPUT_ATTRIBUTES
Maksimum Giriş sayısı öznitelikleri belirtir önce özellik seçimi çağırır algoritma işleyebilir.Bu değeri 0 olarak ayarlandığında hiçbir sayısının öznitelikler olduğunu belirtir.Öznitelikleri artırıldığında, performans önemli ölçüde düşebilir.
Varsayılan değer 255'dir.
MAXIMUM_STATES
Algoritmasını destekler öznitelik durumları sayısı üst sınırını belirtir.Yoksa bir öznitelik en büyük değerinden daha fazla durumu vardır, en popüler durumlarını kullanır ve kalan durumları yoksayar.Durumları artırıldığında, performans önemli ölçüde düşebilir.
Varsayılan değer 100'dir.
Bayrakları modelleme
Algoritma aşağıdaki modelleme bayrakları destekler.Araştırma yapısı veya araştırma modeli oluştururken modelleme bayrakları tanımlar.Modelleme bayrakları nasıl değerleri her sütun çözümleme sırasında işlenir.
Bayrak modelleme |
Açıklama |
---|---|
MODEL_EXISTENCE_ONLY |
Sütun iki olası durumlar sahip olarak kabul edilir: Eksik ve mevcut.Null değeri eksik bir değerdir. Araştırma modeli sütun uygulanır. |
BOŞ DEĞİL |
Sütun null değeri içeremez.Analysis Services null değer modeli eğitim sırasında karşılaşırsa bir hata neden olur. Araştırma yapısı sütun uygulanır. |
Gereksinimler
Bir kümeleme modeli anahtar sütunu ve giriş sütun içermelidir.Tahmin edilebilir olacak şekilde giriş sütunları da tanımlayabilirsiniz.Sütun küme için Predict Only yap kümeleri için kullanılmazDağıtım kümelerinde bu değerlerin hesaplanması kümeleri tasarlandıktan sonra.
Giriş ve öngörülebilir sütunları
The Microsoft Clustering algorithm supports the specific input columns and predictable columns that are listed in the following table.İçerik türleri kullanıldığında anlamları hakkında daha fazla bilgi için bir araştırma modeli, bkz: İçerik türleri (veri madenciliği).
Column |
İçerik türleri |
---|---|
Giriş öznitelik |
Sürekli, döngüsel, kesikli, Discretized, anahtar, sipariş tablosu |
Öngörülebilir öznitelik |
Sürekli, döngüsel, kesikli, Discretized, sipariş tablosu |
Not
Cyclical ve Sipariş edilmiş içerik türleri desteklenir, ancak bunları olarak ayrık değerler değerlendirir ve özel işlem gerçekleştirmek.