Aracılığıyla paylaş


Microsoft Teknik Başvurusu algoritması kümeleme sırası

Microsoft Dizi Kümeleme algoritması Markov zinciri çözümlemesi sıralı serileri tanımlamak için kullanır ve teknikleri sıraları ve diğer öznitelikleri modelini temel alan kümeleri oluşturmak için kümelendirme ile bu incelemenin sonuçlarını birleştiren bir karma algoritması ' dir.Bu konuda, uygulama, algoritmanın açıklanmaktadır algoritmasını ve modelleri kümeleme sıra için özel gereksinimleriniz nasıl özelleştirileceği.

Algoritma göz atmayı ve model, kümeleme, sorgu sırası da dahil olmak üzere hakkında daha fazla genel bilgi için bkz: Microsoft Dizi Kümeleme algoritmasısı.

Uygulaması, Microsoft Dizi Kümeleme algoritması

Microsoft kümeleme, sıra modeli Markov modelleri serileri tanımlamak ve sıralarının olasılığını belirlemek için kullanır.Farklı durumlar arasında geçişler depolayan yönlendirilmiş bir grafik Markov modelidir.Microsoft Dizi Kümeleme algoritması n sırası Markov zincirlerini bir gizli Markov modeli kullanır.

Siparişlere Markov zincirdeki kaç durumlarını, geçerli durumlarını olasılığını belirlemek için kullanılan bildirir.Ilk sipariş Markov modelinde, geçerli durumu olasılığı, yalnızca önceki durumuna bağlıdır.Ikinci sipariş Markov zincirdeki bir durum olasılığı, önceki iki durumu ve benzeri üzerinde bağlıdır.Her Markov zincirinden geçiş matris geçişleri durumları her birleşimi için depolar.Markov zincir uzunluğu arttıkça, üssel matrisinin boyutu da artar ve matrisin oldukça seyrek olur.Işleme saat de orantılı artar.

Bir sitedeki Web sayfalarını ziyaret çözümler clickstream çözümleme örneği'ni kullanarak, zincirdeki görmenize yardımcı olabilir.Her kullanıcı, tıklatma her oturum için uzun bir sıra oluşturur.Bir Web sitesinde kullanıcı davranışı çözümlemek için bir model oluştururken, eğitim için bir dizi URL'ler, hepsinin aynı sayısını içeren bir grafiğe dönüştürülür kullanılan küme veri yol tıklatın.Örneğin, grafik, kullanıcı, kullanıcı 1 sayfadan sayfaya 3 (20 %) taşır, olasılık (% 10), 2 sayfa ve benzeri 1 sayfasından taşır olasılığını içerir.Ne zaman, tüm olası yolları ve yolları parçalarını birlikte, grafik elde yerleştirin, daha uzun ve herhangi bir tek gözlenen yol daha karmaşık olabilir.

Varsayılan olarak, Microsoft Dizi Kümeleme algoritması kümeleme Beklenti Maximization (EM) yöntem kullanır.Daha fazla bilgi için bkz:Microsoft kümeleme algoritması teknik başvurusu.

Sıralı ve nonsequential öznitelikleri, kümeleme, hedeflerin görüntülenir.Bir olasılık dağılımını kullanarak her küme rasgele seçilir.Her küme yolları ve sıra durumunu geçişleri ve değerler içeren bir matris kümesinin tamamı gösteren Markov zinciri var.Başlangıç dağılımın bağlı olarak, Bayes kuralı, belirli bir kümede bir sıra dahil olmak üzere, her öznitelik olasılığını hesaplamak için kullanılır.

Microsoft Dizi Kümeleme algoritması ek modeline nonsequential öznitelikleri destekler.Bu sıra özniteliklerle normal bir küme modelinde gibi durumlarda, benzer özniteliklere sahip bir küme oluşturmak için bu ek öznitelikler birleştirildiğini gösterir.

Model kümeleme dizisi normal bir küme modeli daha çok daha fazla küme oluşturma eğilimi gösterir.Bu nedenle, sıra Microsoft kümeleme algoritması gerçekleştirir. Küme decomposition kümeleri sıraları ve diğer öznitelikleri göre ayırmak için.

Model kümeleme bir sıra içinde özellik seçimi

Serileri oluştururken özellik seçimi çağrılır; ancak bu özellik seçimi kümeleme aşamada geçerlidir.

Modeli türü

Özellik Seçimi yöntem

Açıklamalar

Kümeleme sırası

Kullanılmıyor

Özellik Seçimi açılmak istenen; ancak, değeri MINIMUM_SUPPORT ve MINIMUM_PROBABILIITY parametreleri ayarlayarak algoritma davranışını denetleyebilirsiniz.

kümeleme

Interestingness Skoru

Kümeleme algoritması ayrı veya discretized algoritmaları kullanabilir, ancak her özniteliğinin Skor bir uzaklığa hesaplanır ve sürekli; bu nedenle interestingness Skor kullanılır.

Daha fazla bilgi için bkz:Özellik Seçimi.

Performansı en iyi duruma getirme

Microsoft Dizi Kümeleme algoritması işlemini en iyi duruma getirmek için çeşitli şekillerde destekler:

  • CLUSTER_COUNT parametresi için bir değeri ayarlayarak, oluşturulan küme sayısı denetliyor.

  • Numara sıralarının MINIMUM_SUPPORT parametrenin değerini artırarak öznitelikleri dahil azaltır.Sonuç olarak, ender serilerini elemiş.

  • Ilgili öznitelikleri yeniden gruplandırarak, model işleme önce karmaşıklığını azaltır.

Genel olarak, performansı iyileştirebilir bir n-çeşitli biçimlerde sipariş Markov zinciri modu:

  • Olası sıralarının uzunluğu denetliyor.

  • Program aracılığıyla değerini azaltma n.

  • Yalnızca belirli bir eşiği aşan olasılıklar depolama.

Bu yöntemlerin tam bir tartışma'nin bu konunun kapsam dışındadır.

Algoritma kümeleme sırası'nı özelleştirme

The Microsoft Sequence kümeleme algorithm supports parameters that affect the behavior, performance, and accuracy of the resulting araştırma modeli. Ayrıca, Denetim biçimini algoritma eğitim veri işleme bayraklarını modelleme ayarı tarafından tamamlanan modelinin davranışı değiştirebilirsiniz.

Algoritma parametreleri ayarlama

Aşağıdaki tablo sırası Microsoft kümeleme algoritması ile kullanılacak olan parametreleri açıklar.

  • cluster_count
    Algoritması tarafından oluşturulacak küme yaklaşık sayısını belirtir.Küme sayısı yaklaşık verilerden oluşturulmuş, karma algoritması, olabildiğince çok kümeleri oluşturur.CLUSTER_COUNT parametre 0 olarak ayarlandığında, buluşsal yöntemlerini en iyi oluşturmak için kullanılan küme sayısını belirlemek için kullanılacak algoritma neden olur.

    Varsayılan değer 10'dir.

    Not

    Belirtilen bulma amacı ile devam eder, ancak daha çok veya daha az bulma son algoritması için bir ipucu olarak sıfır olmayan bir sayı davranır belirtme.

  • minimum_support
    Öznitelik'ın bir küme oluşturmak için gerekli olan en az sayıda servis taleplerini belirtir.

    Varsayılan değer 10'dir.

  • maximum_sequence_states
    En yüksek bir sıra sahip olabileceği durumları belirtir.

    Bu değer 100 anlamlı bilgiler sağlayan bir model oluşturmak kullanılan algoritma neden daha büyük bir sayıya ayarlanıyor.

    Varsayılan değer 64'dir.

  • maximum_states
    Durum Algoritması'nı destekleyen olmayan sıra bir öznitelik için en fazla sayısını belirtir.Durum olmayan sıra bir öznitelik sayısını en fazla durum sayısından büyükse, algoritma özniteliği çubuğundaki en popüler durumlarını kullanır ve kalan durumları ele alan Missing.

    Varsayılan değer 100'dir.

Flags model oluşturma

Aşağıdaki bayraklardan modelleme kullanılmak üzere desteklenen Microsoft Sıra kümeleme algoritması.

  • null DEĞİL
    Sütun null içeremez gösterir.Analysis Services null karşılaşırsa modeli eğitim sırasında bir hata neden olur.

    araştırma yapısına geçerli sütun.

  • model_existence_only
    Sütun iki olası durumlar sahip olarak değerlendirilmez olduðu anlamýna gelir: Missing ve Existing. Null olarak işlem görür bir Missing değer.

    araştırma modeline geçerli sütun.

Eksik değerleri madenciliği modelleri ve değerleri nasıl eksik kullanımı hakkında daha fazla bilgi için olasılık puanları etkiler, bkz: Değerleri eksik (Analysis Services - veri madenciliği).

Gereksinimler

durum tablo büyük bir ID sütun olmalıdır.Isteğe bağlı durumda tablo öznitelikleri hakkında durum depolayan başka bir sütun içerebilir.

Microsoft Dizi Kümeleme algoritması sırası, iç içe tablo olarak saklanan bilgi, gerektirir.Iç içe geçmiş tablo anahtar sırası tek bir sütun olması gerekir.C Key Sequence sütun, her tür, dize veri türleri de dahil olmak üzere sıralanabilir veriyi içerebilir, ancak sütun her biri için benzersiz değerler içermelidir durum. Dahası, model işleme önce büyük bir tablo hem de iç içe geçmiş tablo tabloların ilişkili anahtar üzerinde artan düzende sıralanır, emin olun.

Not

Microsoft sırası algoritması kullanan bir model oluşturmak, ancak sıra sütun kullanın, sonuç modeli tüm sıraları içerir, ancak yalnızca modelinde bulunan diğer öznitelikleri bağlı durumda küme.

Girdi ve öngörülebilir bir sütun

The Microsoft Sequence kümeleme algorithm supports the specific input columns and predictable columns that are listed in the following tablo. Içerik türleri kullanıldığında anlamları hakkında daha fazla bilgi için bir araştırma modeli, bkz: Içerik türleri (veri madenciliği).

Sütun

Içerik türleri

Giriş bir öznitelik

Sürekli, Döngüsel, ayrı, Discretized, tuş, tuş sırası, tablo ve sipariş

Öngörülebilir bir öznitelik

Sürekli, Döngüsel, ayrı, Discretized, tablo ve sipariş

Remarks

  • Tahmin sıralarının kullanarak, PredictSequence (DMX) işlev, yalnızca kullanılabilir SQL Server Kuruluş.

  • The Microsoft Sequence kümeleme algorithm does not support using the Predictive Model Markup Language (PMML) to create mining models.

  • TheMicrosoft Sequence kümeleme algorithm supports detaylandırma, the use of OLAP mining models, and the use of veri madenciliği dimensions.