Karşılıklı doğrulama (- Analysis Services veri madenciliği)
Çapraz doğrulama standardı olan araç analizi, ve geliştirmek ve veri madenciliği modelleri ince ayar size yardım için önemli bir özelliktir.Bir araştırma yapısı ve modeli geçerliliğini olmadığından emin olmak için ilgili veri madenciliği modelleri oluşturduktan sonra çapraz doğrulama kullanın.Çapraz doğrulama aşağıdaki uygulamaları içerir:
Belli bir sağlamlık doğrulanıyor araştırma modeli.
Birden çok modelleri tek bir değerlendirme deyim.
Birden çok modelleri oluşturma ve sonra İstatistikler dayalı en iyi modeli tanımlar.
Bu bölümde sağlanan çapraz doğrulama özelliklerinin nasıl kullanılacağı açıklanır SQL Server 2008 ve nasıl yorumlanacağı sonuçlar belirli bir modeli veya veri küme için karşılıklı doğrulama. Çapraz doğrulama küme saklı yordamlar. olarak yürütebilmesi içinAyrıca çapraz doğrulama gelen veri Mining tasarımcısında, Business Intelligence Development Studio.
Çapraz doğrulama işlemine genel bakış
Çapraz doğrulama iki aşamasını, eğitim ve üretimi sonucu oluşur.Bu aşamalar aşağıdaki adımları içerir:
Hedef bir araştırma yapısı seçme.
Test etmek istediğiniz modelleri belirtme.
İçine yapısı veri bölümlemek hatları sayısını belirtme.
Analysis Services oluşturur ve hatları gibi çok sayıda modelleri eğitir.
Sonuçlar üretmek için eğitimli modelleri sınama parametreleri belirtmeniz gerekir.
Belirtme kaynak sınama veri.(Bu özellik yalnızca saklı yordamlar kullandığınızda kullanılabilir.)
Öngörülebilir öznitelik, öngörülen değeri ve doğruluk eşik belirtme.
Sonra Analysis Services işlevi bir küme , doğruluk ölçüler her modeli her kat için.Doğruluk ölçüleri için de dönmek veri küme bir bütün olarak.
Karşılıklı doğrulama veri madenciliği Tasarımcısı'nda kullanma
Kullanarak çapraz doğrulama gerçekleştirirseniz Çapraz doğrulama sekme Business Intelligence Development Studio Mining doğruluğu grafik görünümünde eğitim ve doğruluk yapılandırabilirsiniz sonuçlar tek formunda parametreleri.Bunu kolaylaştırır küme yukarı ve sonuçlar görüntüleyin.Yapabilirsiniz ölçü ilgili bir tek araştırma yapısı ve sonuçlar bir html raporu içinde hemen görüntülemek tüm veri madenciliği modelleri doğruluğunu.
Rapor biçimini ve çapraz doğrulama tarafından sağlanan doğruluk Ölçümler hakkında daha fazla bilgi için bkz: Karşılıklı doğrulama raporu (Analysis Services - veri madenciliği).
Business Intelligence Development Studio'daki çapraz doğrulama parametrelerini yapılandırma hakkında daha fazla bilgi için bkz: Karşılıklı doğrulama sekmesi (madenciliği doğruluğu Grafiği görünümü).
Saklı yordamları kullanarak çapraz doğrulama
İleri düzey kullanıcılar için çapraz doğrulama da dört kullanılabilir sistem saklı yordamları.Saklı yordamlar, sql Server Management Studio'yu veya herhangi bir yönetilen kod uygulama örnek Analysis Services 2008 olarak bağlanarak çalıştırabilirsiniz.
Saklı yordamlar göre gruplandırılır araştırma modeli türü.İlk çifti yordamlar yalnızca modelleri Kümeleme ile birlikte çalışır.Yordamların ikinci çifti, diğer veri madenciliği modelleri ile çalışır.
Not
Çapraz doğrulama anahtarı zaman sütun ya da bir tuş sırasını sütun içeren modeli ile kullanılamaz.
Her tür araştırma modeli için iki saklı yordamlar vardır.İlk yordamı veri küme içinde belirttiğiniz sayıda bölümleri oluşturur ve her bölüm için doğruluğu sonuçlar döndürür.Her ölçüm için Analysis Services ortalama ve standart sapma bölümler için hesaplar.
İkinci saklı yordam olan bölüm veri küme, ancak doğruluk sonuçlar için belirtilen veri küme bir bütün olarak.Araştırma yapısı ve kendi modelleri zaten bölümlenmiş işlenen ve ikinci saklı yordam olan de kullanabilirsiniz.
Veri bölümleme ve bölümleri ölçülerini oluştur
SystemGetCrossValidationResults (- Analysis Services veri madenciliği)
SystemGetClusterCrossValidationResults (- Analysis Services veri madenciliği)
Üretmek için tüm ölçümleriveri küme
SystemGetAccuracyResults (- Analysis Services veri madenciliği)
SystemGetClusterAccuracyResults (- Analysis Services veri madenciliği)
Çapraz doğrulama yapılandırma
Şeklini özelleştirebilirsiniz, çapraz doğrulama cross-sections, sınama modelleri ve Öngörüler için doğruluğu çubuğu sayısını denetlemek için çalışır.Çapraz doğrulama saklı yordamlar kullanırsanız, modelleri doğrulamak için kullanılan veri küme de belirtebilirsiniz.Seçimler bu çeşitlilikte kolayca kümesi sonra karşılaştırıldığında incelendi ve gereken farklı sonuçlar üretebilir anlamına gelir.
Bu bölüm, çapraz doğrulama uygun şekilde yapılandırmanıza yardımcı olacak bilgiler sağlar.
Bölüm sayısını ayarlama
Bölüm sayısı belirttiğinizde, kaç geçici modelleri oluşturulan belirler.Her bölüm için bir Kesiti veri sınama küme olarak kullanmak için bayrak ve yeni bir model değil bölümünde kalan verileri üzerinde eğitim tarafından oluşturulur.Analysis Services tarafından oluşturulup modelleri belirtilen sayıda test kadar bu işlem tekrarlanır.Çapraz doğrulama için kullanılabilir olacak şekilde belirtilen veri tüm bölümleri arasında eşit olarak dağıtılır.
Üç hatları belirtilmezse, diyagramdaki örnek veri kullanımı gösterilmiştir.
Diyagramdaki bir senaryoda, araştırma yapısı içeren bir gizleme verisi sınama, ancak test veri küme için kullanılan küme çapraz doğrulama için gelen başlatılmamış.Sonucunda, tüm verileri eğitim verileri kümesi, yüzde 70'inin veri madenciliği yapısında çapraz doğrulama için kullanılır.Çapraz doğrulama raporu her bölümünde kullanılan servis taleplerini toplam sayısını gösterir.
Çapraz doğrulama sırasında genel durumlarda kullanılacağını belirten tarafından kullanılan veri miktarını da belirtebilirsiniz.Servis taleplerini tüm hatları eşit olarak dağıtılır.
Araştırma yapısı yapabilirsiniz en büyük değer olan sql Server Analysis Services örnek içinde saklanır, küme hatları sayısı 256 veya servis talebi sayısı için hangisi az ise.oturum araştırma yapısı kullanıyorsanız, hatları sayısı 10'dur.
Not
Hatları, sayısını artırmak gibi saat bir model oluşturulan ve gerekir her kat için test çünkü çapraz doğrulama artar buna göre gerçekleştirmek için gerekli.Hatları sayısı çok yüksek ise, performans sorunları yaşayabilirsiniz.
Sınama verileri tanımlama
Doğruluk, hesaplamak saklı yordamları çalıştırdığınızda, SystemGetAccuracyResults (- Analysis Services veri madenciliği) veya SystemGetClusterAccuracyResults (- Analysis Services veri madenciliği), sizin belirlediğiniz kaynak çapraz doğrulama sırasında aşağıdaki seçeneklerden birini kullanarak test etmek için kullanılan veri:
Eğitim verileri kullanın.
Varolan bir sınama veri küme içerir.
Yalnızca sınama veri küme kullanın.
Her model için varolan filtreleri uygulayın.
Herhangi bir bileşimini Eğitim küme ve modeli filtreleri sınama ayarlayın.
İçin bir değer sağlayarak sınama veri küme oluşumunu kontrol DataSet parametresi.
If you perform cross-validation by using the Cross-Validation report in theData Mining Designer, you cannot change the data set that is used.Varsayılan olarak, her model için eğitim durumlarda kullanılır.Filtre, filtre modeli ile ilişkili ise, uygulanır.
Filtre uygulanmış veri madenciliği modelleri, çapraz doğrulama
Birden çok veri madenciliği modelleri test etme ve modelleri filtreler vardır, her modeli ayrı olarak filtre uygulanır.Bir modeli için bir filtre ekleyin veya çapraz doğrulama sırasında bir model için filtreyi değiştirin.
Bir yapı ile ilişkili olan tüm veri madenciliği modelleri varsayılanları tarafından çapraz doğrulama sınamaları için bazı modelleri bir filtre varsa ve diğerlerinin desteklemediği tutarsız sonuçlar alabilirsiniz.Yalnızca aynı filtreye sahip modelleri karşılaştırmak emin olmak için saklı yordamları kullanın ve veri madenciliği modelleri listesini belirtin.Veya, yalnızca araştırma yapısı ile tutarlı bir veri küme, tüm modeller için kullanıldığından emin olmak için filtre küme sınayın.
Doğruluk eşik ayarlama
Durumu eşik sağlar küme Öngörüler için doğruluğu bar.Her durum için model olarak adlandırılan bir olasılık, hesaplar Olasılık tahmin, öngörülen durumu doğru olduğunu.Predict olasılık doğruluğu çubuğu aşarsa, tahmin doğru olarak sayılır; Aksi takdirde, tahmin olarak yanlış sayılır.Bu değer ayarlayarak kontrol Durumu eşik 0.0 ile 1.0, burada 1 sayılar daha yakın bir güçlü Öngörüler güven düzey belirtmek ve sayılarla yaklaştırın 0 belirtmek doğru olması olasılığını tahmin arasında bir sayı.Durumu eşik için varsayılan değer öngörülen en yüksek olasılık durumuyla hedef değeri olarak kabul edilir, yani null ' dır.
Not
Yapabilirsiniz küme değeri 0.0, ancak, anlamsız, çünkü her tahmini olarak sayılan düzeltmek, olasılık sıfır bile olanlar.Çok yanlışlıkla dikkatli değil küme Durumu eşik ondan.
Örneğin, [Bike alıcı] sütun tahmin üç modeli var ve tahmin etmek istediğiniz değeri 1 ' dir anlamı "Evet, satın." Üç model ile Öngörüler 0,05 0,15 ve 0,8, olasılıklar tahmin döndürür.Varsa, küme durumu eşik 0,10, iki Öngörüler için doğru olarak sayılan.Varsa, küme durumu eşik 0,5, tek bir modele doğru bir öngörü iade olarak sayılır.Varsayılan değer kullanırsanız, null, en olası tahmin doğru olarak sayılır.Bu durum, tüm üç Öngörüler doğru olarak sayılması.
Çapraz doğrulama için kullanılan ölçüler
Farklı doğruluk ölçülerini varsa araştırma modeli belirli türden, öngörülebilir özniteliği ve öngörülebilir öznitelik değeri veri türünü bağlı olarak üretilir.Bu bölümde, başvuru için asıl ölçüler tanımlar.Rapor türüne göre gruplanmış, her model için döndürülen doğruluk ölçülerini listesi için bkz: Karşılıklı doğrulama raporu (Analysis Services - veri madenciliği).
Ölçü |
Geçerli Oldukları |
Uygulama |
---|---|---|
Sınıflandırma: doğru pozitif, yanlış pozitif, doğru negatif, yanlış negatif |
Kesikli öznitelik, belirtilen değer |
Satır veya bölümdeki değerler predict durumu eşik değerinden daha büyük olasılıktır öngörülen durumu eşleşen hedef durumu burada ve say. |
Sınıflandırma: PASS/fail |
Kesikli öznitelik, belirtilen hedef |
Satır veya değer bölümünde öngörülen durumu eşleşen hedef durumu predict olasılık değeri 0'dan büyük burada ve say. |
Yükselt |
Kesikli öznitelik.Hedef değer belirtilebilir ancak gerekli değildir. |
Tüm satırlar için ortalama günlük olasılığını nerede her durum için günlük olasılığını şöyle hesaplanır hedef öznitelik değerleri ile Log(ActualProbability/MarginalProbability).Ortalamasını hesaplamak için toplamı günlük olasılığını hedef öznitelik eksik değerlere sahip satırlar hariç giriş DataSet'teki satır numarasına göre bölünür.Lift negatif veya pozitif değer olabilir.Pozitif bir değer rasgele tahmin outperforms etkili bir modeli anlamına gelir. |
Günlük puan |
Kesikli öznitelik.Hedef değer belirtilebilir ancak gerekli değildir. |
Gerçek bir olasılık toplanır, sonra hedef öznitelik eksik değerlere sahip satırlar hariç giriş DataSet'teki satır numarasına göre bölünmüş ve her durum için günlüğü.Olasılık bir ondalık kesir temsil edilen günlük puanlar her zaman negatif sayılar olduklarından. |
Servis talebi olasılığını |
Küme |
Tüm durumlarda, hedef öznitelik eksik değerlere sahip satırlar hariç olmak üzere, bölüm durumlarda sayıya bölünür için küme olasılığını toplamı scores. |
Ortalama mutlak hata |
Sürekli öznitelik |
Eksik değerleri olan durumlar hariç olmak üzere, bölüm durumlarda sayıya bölünür, bölümdeki tüm servis talepleri için mutlak hata toplamı. |
Kök ortalama kare hata |
Sürekli öznitelik |
Ortalama kare kökünü bölüm için hata kare. |
Kök ortalama kare hata |
Kesikli öznitelik.Hedef değer belirtilebilir ancak gerekli değildir. |
Hedef öznitelik eksik değerlere sahip satırlar hariç olmak üzere, bölüm durumlarda sayıya bölünür olasılık puan'ın tamamlayıcısı karelerinin ortalamasının kare kökü. |
Kök ortalama kare hata |
Kesikli öznitelik, belirtilen hedef. |
Hedef öznitelik değerleri eksik olan durumlar hariç olmak üzere, bölüm durumlarda sayıya bölünür olasılık puan'ın tamamlayıcısı karelerinin ortalamasının kare kökü. |