Aracılığıyla paylaş


Discretization yöntemleri (veri madenciliği)

Some algorithms that are used to create data mining models in SQL Server Analysis Services require specific content types in order to function correctly.Örneğin, Microsoft Naive Bayes sürekli sütunları giriş olarak kullanamaz ve sürekli bir değer tahmin edemiyor. Ayrıca, bazı sütunlar algoritma kolayca veri almak istediğiniz bir model oluşturmak daha ilginç desenleri tanıyamıyor çok değerleri içerebilir.

Bu durumda, veri madenciliği model oluşturmak için algoritmalarının kullanımı sağlamak için sütunları ayırmak.Discretization olası durumlar sınırlı sayıda böylece değerleri demetleri koyma işlemidir.Demetleri kendilerini, sipariş edilen ve ayrı değerler olarak kabul edilir.Dize ve sayısal sütunlar ayırmak.

Veri ayırmak için kullanabileceğiniz çeşitli yöntemler vardır.Veri madenciliği çözümünüz ilişkisel veri kullanıyorsa, veri değeri ayarlayarak gruplandırılmasında kullanılacak demetleri sayısını denetleyebilir DiscretizationBucketCount() özellik. Demetleri varsayılan sayısı 5'tir.

Veri madenciliği çözümünüz çevrimiçi analitik işlem (OLAP) küp verileri kullanıyorsa, veri madenciliği algoritması, aşağıdaki denklemi kullanarak oluşturmak için demetleri numarasını otomatik olarak hesaplar yeri n farklı sütundaki veri değerlerinin sayısıdır:

Number of Buckets = sqrt(n)

Istemiyorsanız Analysis Services kullanabileceğiniz demetleri sayısını hesaplamak için , DiscretizationBucketCount() el ile demetleri sayısını belirtmek için özellik'ı tıklatın.

Aşağıdaki tabloda veri ayırmak için kullanabileceğiniz yöntemleri açıklar. Analysis Services.

Discretization yöntem

Açıklama

AUTOMATIC

Analysis Services hangi discretization yönteminin kullanılacağını belirler.

CLUSTERS

Algoritma verileri gruplar halinde eğitim veri örnekleme, bir nokta sayısı kadar rasgele için başlatılıyor ve birkaç yineleme yöntem kümeleme Beklenti Maximization (EM) kullanarak Microsoft kümeleme algoritması'ı çalıştırarak böler.The CLUSTERS yöntem is useful because it works on any distribution curve. Ancak, diğer discretization yöntemlerine göre daha fazla işlem zamanı vardır.

Bu yöntem yalnızca sayısal sütunlar ile kullanılabilir.

EQUAL_AREAS

Algoritma veri değerleri sayısı eşit olarak içeren gruplar halinde böler.Bu yöntem, normal dağılıma Eğriler için en iyi şekilde kullanılır, ancak iyi dağılımın dar sürekli veri grubunda çok sayıda ortaya çıkan değerleri içeriyorsa, çalışma.Yarım saniyeden maddelerin maliyeti 0 varsa, örneğin elipsin verileri tek bir eğri noktası altında ortaya çıkar.Tür dağıtımlarında bu yöntem veri içinde birden çok alana eşit discretization kurmak için çaba keser.Bu, yanlış bir verilerin sunumunu oluşturur.

Açıklamalar

  • Kullanabileceğiniz EQUAL_AREAS dizeleri ayırmak için yöntem.

  • The CLUSTERS yöntem uses a random sample of 1000 records to ayırmak data. Use EQUAL_AREAS Örnek veriler için kullanılan algoritma istemiyorsanız yöntem.

  • Neural ağ araştırma modeli öğreticisi discretization nasıl özelleştirilebilir bir örnek sağlar.Daha fazla bilgi için bkz:Ders 5: Neural ağ ve Logistic regresyon modelleri (Ara veri madenciliği Öğreticisi).