Değerleri eksik (Analysis Services - veri madenciliği)
Eksik bir değer, verilerinizdeki farklı şey bir dizi bitişini işaret eder.Belki de alan olay gerçekleşmesi değil, uygulanmadığı veya verileri kullanılabilir.Veri giren kişi sağ değerini biliyor veya alan doldurulur değil, dikkate olabilir.Bu nedenle, Analysis Services sağlayan iki DTD'leri mekanizmaları yönetmek ve hesaplama bu eksik değerler, değer null olarak da bilinir.
Model görev sütun eksik değerleri hiçbir zaman olması gerektiğini belirtirse, araştırma yapısı tanımlarken bayrak modelleme not_null kullanmanız gerekir.Bu, bir durum uygun bir değer yoksa, işlem başarısız olacağını garanti eder.Model işleme sırasında hata oluşursa, sonra hatayı günlüğe kaydeder ve modele sağlanan veri düzeltecek adımları.Çeşitli gerçekleştirip ve arama dönüştürme veya sql Server Integration Services veri Profiler görevi gibi uygun değerleri doldurmak için kullanabileceğiniz araçlar veya veri Mining eklentiler, sağlanan Excel için örnek olarak Dolgu araç vardır.
Ancak, ayrıca içinde önemli bilgiler eksik değerleri sağlar birçok veri madenciliği senaryo vardır.Genellikle, Analysis Services eksik değerleri bilgilendirici olarak değerlendirir ve kendi hesaplamalarını eksik değerleri birleştirmek için değerler ayarlarBöyle yaparak, modellerinin Dengeli ve mevcut durumda çok yoğun olarak Ağırlık emin olabilirsiniz.Değerlerin nasıl tanımlandığı ve olarak sayılan bu balıkta eksik içinde null değerlere izin veren modeller.Bu konuda nasıl veri madenciliği algoritmaları işlemek ve bunları kullanın açıklar Missing değerleri oluştururken bir model.
Not
Bir üçüncü taraf eklentisi, alınan özel algoritmalar dahil olmak üzere her algoritması eksik değerleri farklı şekilde işleyebilir.
Eksik değerleri kullanarak modeller
Veri madenciliği algoritması için eksik bilgi verici değerlerdir.De durum tablolar, Missing gibi başka geçerli bir durumdur.Üstelik, bir veri araştırma modeli diğer değerleri eksik bir değer olup olmadığını tahmin etmek için kullanabilirsiniz.Başka bir deyişle, olgu bir değer eksik olduğunu belirten bir hata kabul edilir.
Bir veri oluşturduğunuzda, araştırma modeli, bir Missing durumu otomatik olarak ekleniyor modeli için tüm ayrı sütunlar.Giriş sütun için cinsiyet erkek ve kadın, iki olası değerler içeriyorsa, örneğin, üçüncü değer otomatik olarak temsil etmek için eklenen Missing değeri ve her zaman sütun için tüm değerleri dağıtımını gösteren histogram ile servis taleplerinin sayısını içerir Missing değerler.Cinsiyet sütun değerleri eksik, histogram eksik durumu 0 durumda bulunur gösterir.
Dahil olmak üzere Missing durumu varsayılan olarak, göz önüne alınması verileriniz sahip tüm olası değerleri, örnekleri ve yeterli istediğiniz modeli hariç tutulacak olasılığı sadece çünkü hiçbir örnekte vardı anlamlı bir haleveri. Mağaza satış verilerini belirli bir ürünü satın almış tüm müşterilerin Kadınlar için oldu ise, örneğin, yalnızca Kadınlar ürün satın alabilirsiniz öngörür bir model oluşturmak görmesini istemeyebilirsiniz.Bunun yerine, Analysis Services ekler ekstra bilinmeyen değer için yer tutucu olarak adlandırılan Missing, uyum sağlama olası bir yolu olarak diğer durumlar.
Örneğin, aşağıdaki tablo karar ağacı modeli (tümü) düğümü için değerleri dağıtımını bisiklet alıcı öğretici için oluşturulan gösterir.Örnek senaryoda [bisiklet alıcı] öngörülebilir öznitelik 1 "Evet" burada gösterir sütun ve "Hayır" 0 belirtir.
Değer |
Servis talepleri |
---|---|
0 |
9296 |
1 |
9098 |
Eksik |
0 |
Bir bisiklet satın almış olan müşteriler yaklaşık yarısını ve yarısı olması bu dağılımı gösterir.Bu özellikle veri küme çok temiz; Bu nedenle, her durum [bisiklet alıcı] sütun ve sayısı değeri Missing değerler: 0.Ancak, herhangi bir durumda null bir [bisiklet alıcı] vardı, alan, Analysis Services o satırın bir durum olarak sayılacaktır bir Missing değer.
Giriş sürekli bir sütun ise, öznitelik için iki olası durumlar modeli tablo haline getirir: Existingand Missing.Ya da başka bir deyişle, sütun bir değer içeriyorsa bazı sayısal veri türü veya değer içermez.Bir değeri olan durumlarda, ortalama, standart sapma ve diğer anlamlı İstatistikler model hesaplar.Değere sahip olmayan durumlarda, model sayısını sağlar Missing vales ve Öngörüler buna göre ayarlar.Ayarlama yöntem tahmin algoritma bağlı olarak farklılık gösterir ve aşağıdaki bölümde anlatılan.
Not
İç içe tablo öznitelikleri değerleri eksik bilgi verici değildir.Örneğin, bir müşteri bir ürün, iç içe geçmiş satın alınmamış, ürünleri tablo sahip değil, ürüne karşılık gelen bir satır ve bir öznitelik eksik ürün araştırma modeli oluşturacak.Belirli ürünleri satın almış olan müşteriler ilgileniyorsanız, ancak, filtre uygulanmış bir model olmayan-varlığını ürünleri iç içe geçmiş tablo modeli filtrede bir not EXISTS deyim kullanarak oluşturabilirsiniz.Daha fazla bilgi için bkz: Nasıl yapılır: Bir araştırma modeli için bir filtre uygulama.
Olasılık eksik değeri ayarlama
Sayım değerleri, ek olarak Analysis Services hesaplar olasılığı, herhangi bir değer üzerinden veri küme.Aynı durum Missing değerler.Örneğin, aşağıdaki tablo durumlar için olasılıklar önceki örnekte gösterilmektedir:
Değer |
Servis talepleri |
Olasılık |
---|---|---|
0 |
9296 |
50.55% |
1 |
9098 |
49.42% |
Eksik |
0 |
0.03% |
Bu garip görünse, olasılığı, Missing servis taleplerinin sayısı 0 olduğunda değer %0.03 hesaplanır.De olgu, bu davranış tasarım gereğidir ve tanıtıcı bilinmeyen değerleri dikkatlice bir model sağlar ayarı temsil eder.
Genel olarak, olasılık, tüm olası durumlarda tarafından bölünmüş avantajlı durumlar olarak hesaplanır.Algoritma Bu örnekte, belirli bir koşula uyan servis taleplerini toplamını hesaplar ([Bike alıcı] = 1 veya [bisiklet alıcı] = 0) ve tarafından toplam satır sayısı bu sayıyı böler.Ancak, hesap için için Missing durumlarda 1 sayısını tüm olası durumlar. için eklenenSonuç olarak, bilinmeyen durum için artık sıfır, ancak durumu olduğunu yalnızca olanak, imkansız, çok küçük bir sayı olasılığıdır.
Küçük ve buna ek olarak Missing değerini değiştirmek; predictor sonucunu Ancak, tüm olası sonuçlarını burada geçmiş verilerini içermez senaryolarda daha iyi modelleme etkinleştirir.
Not
Veri madenciliği sağlayıcıları bunlar eksik değerleri işleme yönteminde farklı.Örneğin, bazı sağlayıcılar, kaybolan verileri bir iç içe geçmiş varsayalım sütun seyrek temsili ancak bir içiçe verileri eksik olan sütun rasgele eksik.
Size tüm sonuçlar verilerinizi belirtilen ve küme bir olasılıklar önlemek istediğiniz eminseniz, bayrağı sütununda modelleme not_null ayarlamanız gerekir araştırma yapısı.
Karar ağacı modeller eksik değerleri özel işlenmesi
Microsoft karar ağaçlar algoritması olasılıklar için diğer algoritmalar farklı biçimde eksik değerleri hesaplar.Yalnızca 1 toplam sayıda servis talebi eklemek yerine, karar ağaçlar algoritması eksik durumları için biraz farklı bir formül kullanarak ayarlar.
Karar ağacı modeli olasılık eksik durumu aşağıdaki gibi hesaplanır:
StateProbability (NodePriorProbability) = * (StateSupport + 1) / (NodeSupport + TotalStates)
Üstelik, sql Server 2008 Analysis Services'da karar ağaçlar algoritması eğitim sırasında dışarıda birçok durumlara neden olabilir modeli filtreler varlığını dengelemek algoritması yardımcı olacak ek bir düzeltme sağlar.
De SQL Server 2008, ilde eğitim sırasında var, ancak yalnızca belirli bir düğüme 0 desteğine sahip olacağını, standart ayarlama yapılır.Ancak, algoritma bir durum hiçbir zaman eğitim sırasında ortaya çıkarsa, olasılık 0 tam olarak ayarlar.Bu ayarlama yalnızca eksik durumuna, aynı zamanda eğitim veri var, ancak sonucu olarak modeli filtre 0 desteğine sahip Devletler için geçerlidir.
Bu ek ayarlama sonuçlar aşağıdaki formülde:
StateProbability = 0.0 bu durum Eğitimi'nde 0 desteği varsaküme
else StateProbability = (NodePriorProbability) * (StateSupport + 1) / (NodeSupport + TotalStatesWithNonZeroSupport)
Bu ayarlama net etkisi ağaç kararlılığını korumaktır.