Değerleri eksik (Analysis Services - veri madenciliği)
Eksik BIR değer, verilerinizdeki farklı işlemler bir dizi bitişini işaret eder.Belki de alan olayı oluştuğunda, uygulanabilir, değildi ya da verileri kullanılabilir değildi.Veri giren kişi doğru değeri olduğunu biliyor muydunuz veya alan doldurulmuş değil, dikkate olabilir.Bu nedenle, Analysis Services yönetme ve bu eksik değerleri null olarak da bilinir) değerleri hesaplamak için iki farklı'sonrasındaki bir düzenek sağlar.
Görevi, modelleme eksik değerleri bir sütun hiçbir zaman olması gerektiğini belirtirse, araştırma yapısı tanımladığınızda, bayrak modelleme NOT_NULL kullanmanız gerekir.Bu, durum, uygun bir değer yoksa, işlem başarısız olacağını garanti eder.Bir model işlerken bir hata ortaya çıkarsa, sonra hata oturum ve modele sağlanan verileri düzeltmek için gerekli adımları da gerçekleştirin.Çeşitli algılayın ve uygun değerleri, arama dönüştürme veya SQL Server tümleştirme Hizmetleri'nde veri Profiler görev gibi doldurmanız için kullanabileceğiniz araçlar veya veri madenciliği eklentiler, Excel için sağlanan göre dolgu örneği araç vardır.
Ancak, ayrıca, önemli bilgiler eksik değerleri sağlayan birçok veri madenciliği senaryo vardır.Genellikle, Analysis Services değerleri eksik bilgi verici olarak nitelendirir ve değerler,, hesaplamaları eksik değerleri birleştirmek için ayarlar. Böyle yaparak, modelleri dengeli ve varolan bir servis talebi çok yoğun Ağırlık sağlayabilirsiniz.Bu bölümde, değerlerin nasıl tanımlanan ve olarak sayılan açıklanır. Eksik null (boş) değerlere izin veren bir model.Bu konu ayrıca veri madenciliği algoritmaları nasıl işlemek ve bunları kullanın açıklar Missing bir model oluştururken değerleri.
Not
Bir üçüncü taraf eklentisi, alınan özel algoritmaları dahil olmak üzere, her algoritması eksik değerleri farklı şekilde işleyebilir.
Eksik Values model kullanarak
Veri madenciliği algoritmasını eksik bilgi verici değerlerdir.Büyük tablolarda Missing Geçerli durum gibi diğer olur. Dahası, bir veri araştırma modeli, diğer değerleri bir değeri eksik olduğunu tahmin etmek için kullanabilirsiniz.Diğer bir deyişle, bir değeri eksik olgu, hata olarak işlenmez.
Bir veri madenciliği model oluştururken bir Missing durumu otomatik olarak tüm ayrı sütunlarda modeline eklenir. Cinsiyet için giriş sütun erkek ve Female, iki olası değerler içeriyorsa, üçüncü değer otomatik olarak göstermek için eklenen Missing değer ve sütunu, her zaman bir sayısı ile servis taleplerini içerir için tüm değerlerin dağıtım gösteren çubuk grafik Missing değerleri. Cinsiyet sütun değerleri eksik, histogram eksik durum 0 durumda bulunan gösterir.
Dahil Missing varsayılan durumu, verilerinizi tüm olası değerleri örnekleri olabilir ve modelin yalnızca olduğundan hiçbir örnek veride olasılığı çıkarmak isteyebilirsiniz düşündüğünüz zaman anlamlıdır. Belirli bir ürünü satın almış tüm müşterilerin Kadınlar için yapıldı, satış verilerini bir mağazaya gösterdi, örneğin, yalnızca Kadınlar ürün satın alabilirsiniz öngörür bir model oluşturmak istediğiniz değil.Bunun yerine, Analysis Services adlı bir ek bilinmeyen değer için yer tutucu ekler. Missing, olası kullanılan bir yol olarak diğer durumları.
Örneğin, aşağıdaki tablo karar ağacı modelinde (tümü) düğüm değerlerini dağıtımını Bike alıcı öğreticisi için oluşturulan gösterir.Örnek senaryoda [Bike alıcı] sütun tahmin edilebilir olan öznitelik, burada 1, "Evet" gösterir ve 0, "Hayır" gösterir.
Değer |
Servis talepleri |
---|---|
0 |
9296 |
1 |
9098 |
Eksik |
0 |
Bu dağıtım, bir bisiklet satın almış olan müşterilerin yaklaşık yarısını ve yarısı sahip gösterir.Bu belirli veri küme çok temiz; bu nedenle, ise, her durum sayısı ve sütun [Bike alıcı] değerine sahiptir... Missing değerler 0 olur. Ancak, herhangi bir durum null bir [Bike alıcı] alanında sahipti. Analysis Services Satır bir servis talebiyle olarak sayımını bir Missing değer.
Model, giriş sürekli bir sütun ise, öznitelik için iki olası durumlar tabulates: Existing ve Missing. Ya da diğer bir deyişle, sütun bir değeri içeren bazı sayısal veri türü veya herhangi bir değer içerir.Bir değer, servis talebi için model, diğer anlamlı istatistikler ortalama ve standart sapmayı hesaplar.Değeri olmayan durumlarda, bir sayımını model sağlar Missing vales ve Öngörüler uygun şekilde ayarlar. tahmin ayarlama yöntem algoritma bağlı olarak farklılık gösterir ve durum aşağıdaki bölümde açıklanan.
Not
Iç içe geçmiş tablo öznitelikleri değerleri eksik bilgi verici değil.Örneğin, bir müşteri yuvalanmış bir ürünü satın almış Ürünler tablo, bu ürün için karşılık gelen bir satır vardır ve araştırma modeli, bir öznitelik eksik ürünün oluşturun.Belirli bir ürün satın almış olan müşteriler ilgileniyorsanız, ancak, filtre uygulanmış bir modeli olmayan-varlığını iç içe geçmiş tablo, ürünleri modeli süzgecinde bir NOT EXISTS deyim kullanarak oluşturabilirsiniz.Daha fazla bilgi için bkz:Nasıl Yapılır: Bir süzgeç için geçerli bir araştırma modeli.
Olasılık eksik değeri için ayarlama
Değerleri, sayım yanında Analysis Services verilerin arasında herhangi bir değer olasılığını hesaplar küme. Aynı için geçerlidir Missing değerleri. Örneğin, aşağıdaki tabloda, önceki örnekte durumlar için değerler gösterilmiştir:
Değer |
Servis talepleri |
Olasılık |
---|---|---|
0 |
9296 |
50.55% |
1 |
9098 |
49.42% |
Eksik |
0 |
0.03% |
Tek görünebilir, olasılığını Missing değer, servis talebi sayısı 0 olduğunda 0.03 %'olarak hesaplanır. Aslında, bu davranış tasarım gereğidir ve gösteren bir modelini sağlayan bir ayarlama bilinmeyen değerlerini düzgün biçimde tanıtıcı.
Genel olarak, olasılık avantajlı servis taleplerini göre olası tüm servis talepleri bölünmesiyle hesaplanır.Örneğin, belirli bir koşula uyan servis taleplerini toplamı algoritma hesaplar ([Bike alıcı] = 1 ya da [Bike alıcı] = 0) ve bu sayı, toplam satır sayısı böler.Ancak, hesaba Missing Genellikle, olası tüm servis taleplerinin sayısı için 1 eklenecektir. Sonuç olarak, bilinmeyen bir durum için artık sıfır, ancak durum yalnızca improbable, değil olanaksız gösterir, çok küçük bir sayı olasılıktır.
Küçük, toplama Missing değer tahmini durumunu değiştirmez; ancak, daha iyi geçmişe dönük verileri tüm olası sonuçlarını yüklü olmadığı senaryolarda modelleme etkinleştirir.
Not
Veri madenciliği sağlayıcıları, eksik değerleri işleme yönteminde farklı.Örneğin, bazı sağlayıcılar, bu eksik verilerde bir iç içe geçmiş varsayalım sütun sparse gösterimi, ancak bir olmayan iç içe veri eksik sütun rasgele eksik.
Tüm sonuçlar verilerinizi belirtilir ve küme değerler engellemek istediğiniz belirli kullanıyorsanız, bayrak sütun, model oluşturma NOT_NULL ayarlamalısınız araştırma yapısı.
Karar ağacı modeller, eksik değerlerinin özel işleme
Karar ağaçları Microsoft algoritması değerler diğer algoritmalar daha farklı eksik değerleri hesaplar.Yalnızca 1 için toplam servis talebi sayısı eklemek yerine karar ağaçları algoritması eksik durumları için biraz farklı bir formül kullanarak ayarlar.
Karar ağacında modelinde, olasılık eksik durumu aşağıdaki gibi hesaplanır:
StateProbability (NodePriorProbability) = * (StateSupport + 1) / (NodeSupport + TotalStates)
Ayrıca, SQL Server 2008 Analysis Services'daki karar ağaçları algoritması bulunup bulunmadığına süzgeç eğitim sırasında dışlanacak birçok durumları sonuçlanabilir modeli tazmin algoritması yardımcı olacak ek bir düzeltme sağlar.
Içinde SQL Server 2008, durum eğitim sırasında var, ancak yalnızca belirli bir düğüm için 0 destek olmuyor standart ayarlama yapılır. Eğitim sırasında hiçbir zaman bir durum karşılaşılırsa, ancak algoritma olasılığı 0 tam olarak ayarlar.Bu düzeltme yalnızca eksik durumuna, eğitim veri var, ancak sonucu olarak modeli süzme 0 desteğiniz durumlara uygulanır.
Bu ek düzeltme, aşağıdaki formülde oluşur:
StateProbability 0.0 = Bu durumda, eğitim 0 desteği varsa ayarlayın.
ELSE StateProbability (NodePriorProbability) = * (StateSupport + 1) / (NodeSupport + TotalStatesWithNonZeroSupport)
Konsol ağacında kararlılığını korumak için bu ayarlama net etkisi var.