Aracılığıyla paylaş


Içinde veri madenciliği özellik seçimi

Özellik Seçimi herhangi bir veri madenciliği ürünü için gereken ' dir.Bir veri araştırma modeli oluştururken, veri kümesi sık model oluşturmak için gerekenden daha fazla bilgi içerdiğinden, olmasıdır.Örneğin, bir dataset, müşterilerin özelliklerini açıklayan 500 sütunlar içerebilir, ancak belirli bir modeli oluşturmak için yalnızca 50 bu sütunların da kullanılır.Gereksiz sütunları modeli oluşturulurken saklarsanız, daha fazla CPU ve bellek eğitim işleminde gerekli olan ve tamamlanan modeli için daha fazla depolama alanı gereklidir.

Kaynakları, sorunu olmasa bile olsa, genellikle, aşağıdaki nedenlerle keşfedilen desenleri kalitesini bozabilir, çünkü gereksiz sütunları kaldırmak istediğiniz:

  • Bazı sütunlar gürültülü veya yedek ' dir.Bu parazit, verilerin; en anlamlı desenleri bulmaya zorlaştırır

  • Kalite desenler bulmak için , çok büyük bir eğitim veri çoğu veri madenciliği algoritmaları gerektiren küme yüksek boyutlu verilere küme.Ancak, eğitim bazı veri madenciliği uygulamalarda çok küçük veridir.

Seçim özellik yardımcı küçük bir değer ya da yüksek değeri çok az veriler, çok fazla veri, bu sorunu çözdü.

Analysis Services veri madenciliği, özellik seçimi

Genel olarak, her öznitelik için bir puan hesaplama ve en iyi puanları olan öznitelikleri'ı seçmek özellik seçimi çalışır.Eşik üst puanları için ayarlayabilirsiniz.Özellik Seçimi, model, otomatik olarak özniteliklerini modelde kullanılacak en büyük olasılıkla bir veri kümesi seçmek için eğitilmiş için önce her zaman yapılır.

SQL Server 2008 Analysis Services (SSAS)c özellik seçimi için birden çok yöntem sağlar.En yüksek değerli özniteliklerini seçme tam yöntem modelinize ve bulunabilen herhangi bir parametre kullanılan algoritma bağlıdır küme modelinize üzerinde.Özellik Seçimi girdileri, öngörülebilir öznitelikleri, ya da bir sütun durumlarda uygulanır.Yalnızca öznitelikleri ve algoritmayı seçer durumları model oluşturma işleminde bulunan ve tahmin için kullanılan.Tahmin için kullanılan özellik seçimi yoksayılır öngörülebilir bir sütun, ancak bu modelde, yalnızca genel istatistikler Öngörüler dayanır.

Not   Özellik Seçimi modelinde kullanılan sütunlar etkiler ve depolama araştırma yapısı üzerinde hiçbir etkisi olmaz.Madenciliği modelini bırakır sütunları yapıda hala kullanılabilir ve veri araştırma yapısı sütunlarındaki önbelleğe alınır.

Özellik Seçimi yöntemlerinin tanımı

Özellik Seçimi, çalıştığınız veri çözümlemesi için seçtiğiniz algoritma ve türe göre uygulamak için birçok yol vardır.SQL Server Analysis Services öznitelikleri skor için çeşitli popüler ve tanınmış yöntemler sağlar.Tüm algoritması veya veri uygulanan yöntem küme veri türleri ve sütun kullanımına bağlıdır.

The interestingness score is used to rank and sort attributes in columns that contain nonbinary continuous numeric data.

Ayrı ve discretized veri içeren sütunlar arasından seçim yapabilirsiniz Shannon'ın entropi ve iki Bayesian puanları; model sürekli sütun içeriyorsa, ancak, interestingness Skor tutarlılık sağlamak için tüm giriş sütun değerlendirmek için kullanılır.

Bu bölümde, her özellik seçimi yöntem açıklanmıştır.

Interestingness Skoru

Bu, bazı yararlı bilgiyi bildiriyorsa, ilginç BIR özelliktir..Veri madenciliği endüstri ne yararlı olduğu tanımını senaryoya göre değiştiğinden, çeşitli yolları geliştirmiştir ölçü interestingness.Örneğin, novelty outlier algılamasını ilgi çekici olabilir, ancak arasında yakın discriminate yeteneği, maddelere veya ilgilidiscriminating ağırlığısınıflandırılması için daha ilginç olabilir.

SQL Server Analysis Services'daki kullanılan interestingness ölçümüdür entropi tabanlırasgele dağıtımları özniteliklerle yüksek entropi ve alt bilgi sahip başka bir deyişle, geçirmesine; bu nedenle, bu tür öznitelikleri daha az ilginç.Belirli bir öznitelik için entropi gibi diğer öznitelikleri entropi ilgili olarak için karşılaştırılır:

Interestingness(öznitelik) =-(m - Entropy(öznitelik)) * (m - Entropy(öznitelik))

Merkezi entropi, veya m, tüm özellik kümesinin entropi anlamına gelir.Merkezi entropi'dan hedef özniteliğinin entropi çıkararak, öznitelik sağlar ne kadar bilgi değerlendirebilirsiniz.

Sütun nonbinary sürekli sayısal veri içeren her bu skor, varsayılan olarak kullanılır.

Shannon'ın Entropisi

Shannon'ın entropi bir rasgele değişken için belirli bir sonuca uncertainty ölçer.Örneğin, bir para toss entropi bir kafaları gelen, olasılık işlev olarak temsil edilebilir.

Analysis Services Shannon'ın entropi hesaplamak için aşağıdaki formülü kullanır:

H(X) - ∑ P(xi) log(P(xi)) =

Skor bu yöntem, ayrı ve discretized öznitelikleri için kullanılabilir.

Bayesian K2 önceki ile

Analysis Services Bayesian ağlarında esas alan seçim puanları iki özelliği de sağlar.Bayesian ağ bir yönlendirilmiş or acyclic grafik durumlar arasında geçişler ve bildiren, bazı durumlarıdır önce her zaman geçerli durumu, bazı posterior durumlarıdır ve grafik var olmayan yineleyin veya döngü.Tanım olarak Bayesian ağlar, önceki bilgi kullanımına izin vermek.Ancak, sonraki durumlarını olasılıklar hesaplanmasında kullanılacak hangi önceki durumlarını soru algoritması tasarım, performans ve tutarlılık önemlidir.

Öğrenme Bayesian ağ K2 algoritması Cooper ve Herskovits tarafından geliştirilmiştir ve de veri madenciliği sık sık kullanılır.Ölçeklenebilir ve birden çok değişken çözümleyebilirsiniz ancak giriş olarak kullanılan değişkenler üzerinde sıralama gerektirir.Daha fazla bilgi için bkz: Öğrenme Bayesian ağları Chickering, Geiger ve Heckerman.

Skor bu yöntem, ayrı ve discretized öznitelikleri için kullanılabilir.

Tekdüzen önceki Bayesian Dirichlet eşdeğerleriyle

Bayesian Dirichlet eşdeğer (BDE) Skor Bayesian çözümlemesi bir dataset verilen ağ değerlendirmek için de kullanır.Yöntem Skor BDE Heckerman tarafından geliştirilmiştir ve Cooper ve Herskovits tarafından geliştirilen BD metric dayanır.Ağdaki her değişkenin koşullu olasılık açıklar ve öğrenme için yararlı olan pek çok özellik vardır multinomial dağıtım Dirichlet dağıtım var.

Özel bir durum Dirichlet dağılımın bir sabit veya Tekdüzen dağıtımını önceki durumları oluşturmak için bir matematik sabiti kullanılan Bayesian Dirichlet eşdeğer Tekdüzen önceki (BDEU) yöntemiyle varsayar.BDE puanı da verileri eşdeğer yapıları discriminate için tahmin edemiyor, yani olasılığını eşdeğerlik varsayar.Diğer bir deyişle, için skor Then'A, B Skoru ile aynıdırB Then Ayapıların verileri temel alınarak ayırt olamaz ve causation değişkenden.

Bayesian ağlar ve Skor bu yöntemlerin uygulama hakkında daha fazla bilgi için bkz: Öğrenme Bayesian ağları.

Seçim yöntemleri Analysis Services algoritmaları tarafından kullanılan özellik.

Aşağıdaki tablo, özellik seçimi destekleyen algoritmaları listeler, özellik seçim yöntemlerini algoritma ve parametreleri, kullanılan küme denetim özellik seçimi davranışı:

Algoritma

Analiz yöntem

Açıklamalar

Naive Bayes

Shannon'ın Entropisi

Bayesian K2 önceki ile

Bayesian Dirichlet ile Tekdüzen önceki (varsayılan)

Microsoft Naïve Bayes algoritma yalnızca ayrı discretized öznitelikleri veya kabul eder; bu nedenle, interestingness Skor kullanamazsınız.

Bu algoritma hakkında daha fazla bilgi için bkz: Microsoft Naive Bayes algoritması teknik başvurusu.

Karar ağaçları

Interestingness Skoru

Shannon'ın Entropisi

Bayesian K2 önceki ile

Bayesian Dirichlet ile Tekdüzen önceki (varsayılan)

Herhangi bir sütun, ikili olmayan sürekli bir değer içermiyorsa, interestingness skor için tüm sütunları, tutarlılığı sağlamak için kullanılır.Aksi halde, varsayılan özellik seçimi yöntemi kullanıldığında, veya modeli oluşturulurken belirtilen yöntem.

Bu algoritma hakkında daha fazla bilgi için bkz: Microsoft karar ağaçları algoritması teknik başvurusu.

Neural ağ

Interestingness Skoru

Shannon'ın Entropisi

Bayesian K2 önceki ile

Bayesian Dirichlet ile Tekdüzen önceki (varsayılan)

Microsoft Neural ağları algoritması, verileri sürekli bir sütun içeren sürece her iki yöntem de kullanabilirsiniz.

Bu algoritma hakkında daha fazla bilgi için bkz: Microsoft Neural ağ algoritması teknik başvurusu.

Logistic regresyon

Interestingness Skoru

Shannon'ın Entropisi

Bayesian K2 önceki ile

Bayesian Dirichlet ile Tekdüzen önceki (varsayılan)

Microsoft Logistic regresyon algoritması Neural) Microsoft Network) algoritmasına dayanır, ancak özellik seçimi davranışını denetlemek için logistic regresyon modeli özelleştiremiyor; bu nedenle, her zaman özellik seçimi varsayılan öznitelik için en uygun olan yöntem.

Tüm öznitelikleri ayrı veya discretized, BDEU varsayılandır.

Bu algoritma hakkında daha fazla bilgi için bkz: Microsoft Logistic regresyon algoritması teknik başvurusu.

kümeleme

Interestingness Skoru

Microsoft kümeleme algoritması, ayrı veya discretized verileri kullanabilirsiniz.Skor her özniteliğinin bir uzaklığa hesaplanır ve sürekli bir sayı gösterilir, ancak interestingness Skor kullanılmalıdır.

Bu algoritma hakkında daha fazla bilgi için bkz: Microsoft kümeleme algoritması teknik başvurusu.

Doğrusal regresyon

Interestingness Skoru

Yalnızca sürekli sütunları desteklediğinden, Microsoft doğrusal regresyon algoritma yalnızca interestingness skor, kullanabilirsiniz.

Bu algoritma hakkında daha fazla bilgi için bkz: Microsoft doğrusal regresyon algoritması teknik başvurusu.

Ilişki kurallar

Kümeleme sırası

Kullanılmıyor

Özellik Seçimi bu algoritmaların ile çağrılır.

Ancak, algoritma davranışını denetlemek ve MINIMUM_SUPPORT ve MINIMUM_PROBABILIITY parametreleri değerini ayarlayarak gerekirse, giriş veri boyutunu küçültün.

Daha fazla bilgi için bkz: Microsoft ilişkilendirmesi algoritması teknik başvurusu ve Microsoft Teknik Başvurusu algoritması kümeleme sırası.

saat serisi

Kullanılmıyor

Özellik Seçimi saat serisi modelleri için geçerli değildir.

Bu algoritma hakkında daha fazla bilgi için bkz: Microsoft saat Serisi algoritması teknik başvurusu.

Özellik Seçimi davranışı denetleme

Özellik Seçimi aşağıdaki parametreleri kullanarak açık olduğunda, özellik seçimi destekler algoritmaları denetleyebilirsiniz.Izin verilen girdi sayısı için bir varsayılan değer her algoritması vardır ve bu Varsayılanı geçersiz kılar ve öznitelikleri belirtin.

maximum_input_attributes

Bir model, belirtilen sayıdan daha fazla sütun içeriyorsa, MAXIMUM_INPUT_ATTRIBUTES parametre algoritma uninteresting olarak hesapladığı sütun yoksayar.

maximum_output_attributes

Benzer şekilde, bir model, belirtilen sayıdan daha öngörülebilir bir sütun içeriyorsa, MAXIMUM_OUTPUT_ATTRIBUTES parametre algoritma uninteresting olarak hesapladığı sütun yoksayar.

maximum_states

Bir model belirtilen çok daha fazla servis taleplerini içerir, MAXIMUM_STATES parametresi en az popüler durumları gruplanmış ve eksik olarak işlem görür. Bu parametrelerden biri ise küme 0, özellik seçimi işlem saat ve Performans'ı etkileyen kapalı.

Değişiklik Geçmişi

Güncelleştirilmiş içerik

Özellik Seçimi rationale ilk sunar ve daha sonra uygulama ayrıntılarını sağlamak için yeniden düzenlenen içerik.Her model için varsayılan değerler güncelleştirildi.

Eklenen her algoritması için teknik başvuru konularına bağlantılar