Aracılığıyla paylaş


çapraz doğrulama (Analysis Services - veri madenciliği)

çapraz doğrulama analizi, standart bir araçtır ve geliştirin ve veri madenciliği modelleri ince ayar yardımcı olacak önemli bir özelliğidir.Oluşturduğunuz sonra çapraz doğrulama kullandığınız bir araştırma yapısı ve madenciliği modelleri model geçerliliğini belirlemek için ilgili.çapraz doğrulama aşağıdaki uygulamaları içerir:

  • Belirli çıkarma modelinin sağlamlık doğrulanıyor.

  • Birden fazla modeli bir tek ekstresinden değerlendiriliyor.

  • Birden fazla modeli oluşturma ve ardından istatistikler'i temel alan bir en iyi model tanımlama.

Bu bölümde sağlanan çapraz doğrulama özelliklerinin nasıl kullanılacağını açıklar. SQL Server 2008 ve geçici-belirli bir modeli veya veri doğrulama sonuçlar yorumlama küme. Çapraz doğrulama olarak çalıştırabilirsiniz bir küme, saklı yordamlar.Business Intelligence Development Studio içinde çapraz doğrulama veri madenciliği Tasarımcısı'ndan da kullanabilirsiniz.

çapraz doğrulama Işlemine genel bakış

çapraz doğrulama Eğitim ve sonuç oluşturma iki aşamasını oluşur.Bu aşamada, aşağıdaki adımları içerir:

  • Bir Hedef araştırma yapısı seçme.

  • Modelleri belirlemek, sınamak istediğiniz.

  • Içine veri yapısını partition folds sayısını belirleme.

  • Analysis Services oluşturur ve folds kadar çok modelleri eğitir.

  • Sonuçlar üretmek için , eğitimli modelleri sınama parametreleri belirtmeniz gerekir.

  • Belirtme kaynak sınama verileri.(Bu özellik yalnızca, depolanan yordamlar kullandığınızda kullanılabilir.)

  • Öngörülebilir öznitelik, öngörülen değeri ve doğruluğu eşik belirtme.

  • Sonra Analysis Services işlevi bir küme, doğruluk ölçümler için her modelindeki her kat.Ayrıca, verilerin doğruluğunu ölçülerine dönebilirsiniz küme bir bütün olarak.

Kullanarak çapraz doğrulama veri madenciliği Tasarımcısı

Business Intelligence Development Studio içinde mining doğruluğu Grafiği görünümünün karşılıklı doğrulama sekmesini kullanarak çapraz doğrulama gerçekleştirmek, tek bir formda eğitim ve doğru sonuçlar parametreleri de yapılandırabilirsiniz.Bu daha kolay hale küme ayarlayın ve sonuçlar görüntüleyin.Tek bir ilişkili tüm madenciliği modelleri doğruluğunu ölçebilirsiniz araştırma yapısı ve hemen sonuçlar bir HTML raporunda görüntüleyin.

Rapor biçimini ve çapraz doğrulama tarafından sağlanan doğruluk ölçümler hakkında daha fazla bilgi için bkz: çapraz doğrulama Rapor (Analysis Services - veri madenciliği).

Business Intelligence Development Studio içinde çapraz doğrulama parametrelerini yapılandırma hakkında daha fazla bilgi için bkz: çapraz doğrulama Sekmesini (madenciliği doğruluğu Grafiği görünümü).

Kullanarak çapraz doğrulama yordamlar depolanan

Ileri düzey kullanıcılar için dört Sistem saklı yordamları gibi çapraz doğrulama da kullanılabilir.Saklı yordamlar bağlanarak çalıştırabilirsiniz bir örnek Analysis Services 2008'in SQL Server Management Studio'yu veya herhangi kod uygulama yönetilir.

Saklı yordamlar araştırma modeli türüne göre gruplandırılmıştır.Ilk çiftini yordamlar yalnızca modelleri kümeleme ile çalışır.Yordamlar, ikinci çiftine diğer madenciliği modelleri ile çalışır.

Not

çapraz doğrulama KEY saat sütun ya da bir ANAHTAR SEQUENCE sütun içeren herhangi bir model ile kullanılamaz.

araştırma modeli her tür için iki saklı yordamlar vardır.Ilk yordamı verileri belirtmek gibi bir çok bölüm oluşturur küme ve her bölüm için doğruluk sonuçlar döndürüyor.Her ölçüm için Analysis Services, ortalama ve standart sapma bölümleri için hesaplar.

Ikinci saklı yordam veri bölümü küme, ancak belirtilen verilerin doğruluğunu sonuçlar oluşturur küme bir bütün olarak.araştırma yapısı ve alt modelleri zaten bölümlenmiş işlenen ve varsa, ikinci saklı yordam kullanabilirsiniz.

Veri bölümü ve bölümleri için ölçümleri oluşturun.

SystemGetCrossValidationResults (Analysis Services - veri madenciliği)

SystemGetClusterCrossValidationResults (Analysis Services - veri madenciliği)

Tüm veri için ölçütleri oluşturmak küme

SystemGetAccuracyResults (Analysis Services - veri madenciliği)

SystemGetClusterAccuracyResults (Analysis Services - veri madenciliği)

Yapılandırma çapraz doğrulama

Şeklini özelleştirebilirsiniz cross-sections ve sınanır modeller için Öngörüler doğruluk çubuğu sayısını denetlemek için bu çapraz doğrulama çalışır.Çapraz doğrulama saklı yordamlar kullanıyorsanız, verileri de belirtebilirsiniz küme modeller doğrulamak için kullanılır.Bu seçenek çok kolayca birçok kümeleri, daha sonra karşılaştırıldığında incelendi ve gereken farklı sonuçlar üretebileceği anlamına gelir.

Bu bölüm, çapraz doğrulama uygun şekilde yapılandırmanıza yardımcı olacak bilgiler sağlar.

Bölüm sayısı ayarlama

Bölüm sayısı belirttiğinizde, kaç geçici modelleri oluşturulan belirler.Her bölüm için verileri bir Kesitin sınama olarak bayraklı küme, ve yeni bir modeli, eğitim bölümündeki kalan veriler tarafından oluşturulur.Bu işlem, Analysis Services oluşturulan ve modelleri belirtilen sayıda test kadar yinelenir.Belirttiğiniz kullanılabilir olacak şekilde verileri çapraz doğrulama tüm bölümleri arasında eşit olarak dağıtılmıştır.

Diyagramı örnekte, üç folds belirtilmezse veri kullanımını göstermektedir.

How cross-validation segments data

Diyagramın senaryosunda gizleme verisi araştırma yapısı içeren küme sınama, ancak sınama verileri için kullanılan küme geçici doğrulamasını dahil edilmemiştir.Eğitim verideki tüm verileri bir sonucu olarak küme, yüzde 70'veri madenciliği yapısındaki geçici doğrulama için kullanılır.Çapraz doğrulama raporu her bölümünde kullanılır durumda toplam sayısını gösterir.

Kullanılacak genel bir servis talebi sayısını belirleyerek çapraz doğrulama sırasında kullanılan veri miktarı da belirtebilirsiniz.Servis taleplerini, tüm folds arasında eşit şekilde dağıtılır.

araştırma yapısını gerçekleştirebileceğiniz en büyük değer olan SQL Server Analysis Services örneğini depolanan küme folds sayısı 256 veya servis talebi sayısı için hangisi az ise.Bir oturum araştırma yapısı kullanıyorsanız, folds sayısı 10'dur.

Not

Folds sayısı arttıkça, çapraz doğrulama artar buna göre bir modeli gerekir oluşturulur ve her biri için bir test gerçekleştirmek için gereken zamanın doğru katlayın.Folds sayısı çok yüksek olduğunda performans sorunları yaşayabilirsiniz.

Sınama verileri tanımlama

Doğruluk, hesaplama saklı yordamları çalıştırdığınızda SystemGetAccuracyResults (Analysis Services - veri madenciliği) veya SystemGetClusterAccuracyResults (Analysis Services - veri madenciliği), çapraz doğrulama sırasında aşağıdaki seçeneklerden birini bileşimlerini kullanarak sınamak için kullanılan veri kaynağını belirtebilirsiniz:

  • Eğitim verileri kullanın.

  • Varolan veri sınama dahil küme.

  • Yalnızca sınama verileri küme.

  • Varolan süzgeçler, her model için uygulanır.

  • Herhangi bir bileşimini eğitim küme, sınama küme ve modeli süzgeçleri.

Sınama verileri oluşumunu kontrol küme için bir değer sağlayarak DataSet parametre.

If you perform cross-validation by using the Cross-Validation report in theData Mining Designer, you cannot change the data set that is used.Varsayılan olarak, her model için eğitim durumlarda kullanılır.Süzgeç bir modeliyle ilişkiliyse, filtre uygulanır.

Karşılıklı doğrulama, filtre uygulanmış madenciliği modelleri

Her model, birden çok madenciliği modelleri sınamakta olduğunuz ve modeller süzgeçleri olması durumunda, ayrı ayrı süzülür.Bir model için bir süzgeç ekleyin veya bir model için süzgeç çapraz doğrulama sırasında değiştirme edemiyor.

çapraz doğrulama varsayılan olarak, bir yapı ile ilişkili tüm madenciliği modelleri sınar, çünkü bazı modelleri bir süzgeciniz ve diğerlerinin desteklemediği tutarsız sonuçlar alabilirsiniz.Yalnızca sahibin meşru olarak aynı süzgeciniz modelleri karşılaştırma emin olmak için , saklı yordamlar kullanın ve madenciliği modelleri listesini belirtmek gerekir.Veya, yalnızca araştırma yapısı sınama küme, tutarlı bir emin olmak için süzgeç ile küme verilerin tüm modeller için kullanılır.

Doğruluğu eşik ayarlama

Durumu eşik Öngörüler için doğruluk çubuğu sağlar.Her durumda, modeli adı verilen bir olasılık, hesaplar Olasılık tahminTahmini durum doğru olduğunu. Doğruluk çubuğu predict olasılık aşıyor, tahmin doğru olarak; sayılır, yoksa tahmin olarak hatalı olarak sayılır.Bu ayarın değeri denetleme Durum eşiği arasında 0.0 ve 1.0, burada yakın numaraları 1 için'güçlü bir Öngörüler, güvenirlik düzeyini gösterir, sayı ve 0 yakın sayıya tahmin doğru olması olası olduğunu gösterir.Başka bir deyişle olasılığı yüksek olan Tahmini durumuna hedef değeri kabul edilir ve NULL durumu eşik için varsayılan değerdir.

Not

Yapabilecekleriniz küme değeri 0.0, ancak anlamsız için her tahmini olarak sayılan olduğundan, sıfır olasılık bile olanlar düzeltin.Çok yanlışlıkla dikkat değil küme Durum eşiği to 0.0.

Örneğin, üç sütun [Bike alıcı] tahmin modellerini sahip ve tahmin etmek istediğiniz değer 1 ' dir anlamı "Evet, satın." Üç model ile Öngörüler değerler 0, 05, 0,15 ve 0.8 tahmin döndürür. Varsa, küme durumu eşik için iki Öngörüler 0,10 sayılan olarak doğru.Varsa, küme durumu eşik 0,5, yalnızca bir model için doğru bir tahmin döndürdü olarak sayılır.Varsayılan değer kullanırsanız, null, en olası tahmin olarak doğru sayılır.Bu durumda, tüm üç Öngörüler olarak doğru sayılması.

Karşılıklı doğrulama içinde kullanılan ölçümleri

Farklı doğruluk ölçümleri, varsa, belirli türde bir araştırma modeli, öngörülebilir özniteliği ve öngörülebilir bir öznitelik değerini, veri türüne bağlı olarak oluşturulur.Bu bölüm, başvuru için bir asıl ölçütleri tanımlar.Doğruluğu listesi için rapordaki her bir model için döndürülen ölçülerine türüne göre gruplandırılmış, bkz: çapraz doğrulama Rapor (Analysis Services - veri madenciliği).

Ölçü

Geçerli Oldukları

Uygulama

Sınıflandırması: gerçek pozitif, yanlış pozitif, doğru negatif, yanlış negatif

Ayrı bir öznitelik değeri belirtildi

Bölüm durumlarda sayısı burada durumu eşik daha büyük olasılıktır ve hedef durumu tahmini durumu eşleşen tahmin etmek.

Sınıflandırması: PASS/başarısız.

Ayrı öznitelik, belirtilen hedef

Tahmini durumu eşleşme durumu hedef ve burada olasılık tahmin bölüm durumlarda sayısı 0'dan büyüktür.

Kaldırın

Ayrı öznitelik.Hedef değer belirtilebilir, ancak gerekli değildir.

Günlük olasılığını.Birden çok Öngörüler için günlük Skor gerçek olasılığının günlük toplamıdır.

Günlük Skoru

Ayrı öznitelik.Hedef değer belirtilebilir, ancak gerekli değildir.

Giriş verilerinin durumda olasılığını küme olasılığını oranı için her öngörü ile.Birden çok Öngörüler için günlük Skor günlük likelihoods toplamıdır.

Eksik durumu dahil edilmez.

durum olasılığını

Küme

Küme olasılığını toplamı, her bir servis bölümündeki durum sayısı bölü için scores.

Mutlak hata anlamına gelir.

Sürekli öznitelik

Servis talebi sayısı bölünmüş bir bölüme mutlak hata toplamı.

Ortalama kare kökü hata

Sürekli öznitelik

Ortalama kare kökünü bölüm için hata kare.

Hata Kök ortalama kare

Ayrı öznitelik.Hedef değer belirtilebilir, ancak gerekli değildir.

Bölüm, servis talebi sayısı bölü olasılık skor, tamamlayıcı karelerinin ortalamaya karekökü.

Hata Kök ortalama kare

Ayrı özniteliği, belirtilen hedef.

Bölüm, servis talebi sayısı bölü olasılık skor, tamamlayıcı karelerinin ortalamaya karekökü.