Karşılıklı doğrulama raporu (Analysis Services - veri madenciliği)
Çapraz doğrulama cross-sections bir araştırma yapısı bölümlemek ve inventory eğitmek ve verilerin her Kesiti karşı modelleri test sağlar.You specify several partitions to divide the data into, and each partition is used in turn as the test data, while the remaining data is used to train a new model.Analysis Services then generates a set of standard accuracy metrics for each model.Her Kesiti için oluşturulan modelleri için ölçümleri karşılaştırarak, nasıl güvenilir araştırma modeli tam veri küme için iyi bir fikir edinebilirsiniz.
Not
Çapraz doğrulama anahtarı zaman veya tuş sırasını içeren herhangi bir modeli ile kullanılamaz sütun.
İçinde sunulan bilgiler bu bölümde açıklanır Çapraz doğrulama , açık rapor Mining doğruluğu grafik sekmesini veri Mining Tasarımcısı.Rapor oluşturma hakkında daha fazla bilgi için bkz: Karşılıklı doğrulama sekmesi (madenciliği doğruluğu Grafiği görünümü).
Çapraz doğrulama raporu oluşturma
Bir araştırma yapısı ile ilişkili veri madenciliği modelleri geçici olarak doğrulamak için ya da kullandığınız Çapraz doğrulama sekmesini madenciliği doğruluğu görünümünün veri madenciliği Tasarımcısı veya çapraz doğrulama saklı yordamlar aşağıdaki seçenekleri yapılandırmak için:
Hatları sayısını belirtin.
Durumlarda çapraz doğrulama için kullanılacak maksimum sayısını belirtin.Bu numara, Katlama numarasına göre bölünür.
Belirtmek tahmin edilebilir sütun.İsteğe bağlı olarak tahmin edilebilir durumu belirtin.
Not
Kümeleme modelleri araştırma yapınız varsa belirtmek #Cluster seçmek yerine bir tahmin edilebilir sütun.Rapor modelleri kümeleme için sonuçlar döndürür.
- İsteğe bağlı olarak, küme nasıl öngörü doğruluğunu kısmını kontrol parametreleri.
Karşılıklı doğrulama veri kümesi seçme
Kullandığınızda, Çapraz doğrulama sekmesinde Mining doğruluğu grafik görmek, çapraz doğrulama sırasında kullanılan veri türü ve miktarı kontrol etmek için iki yol vardır: servis taleplerinin sayısını sınırlayabilir ve hatları sayısını belirtebilirsiniz.Varsayılan olarak, çapraz doğrulama , Business Intelligence Development Studio kullandığı eğitim servis taleplerini her modeli.Filtre, filtre modeli ile ilişkili ise, uygulanır.
The Fold Count value specifies the number of cross-sections of the data set to create.Her kat sınama veri küme kullanılır ve yeni bir modeli eğitmek için kullanılan veri içinde kalan hatları.En az 2 değeri kullanılırsa, bu nedenle, yarı veri küme sınama ve eğitim diğer yarısı için kullanılabilir.
Araştırma yapısı içinde depolanmış, bir örnek , Analysis Services, bir geçici veya oturum yapısı oluşturulur ancak kullanabileceğiniz hatları sayısı 10'dur.Araştırma yapısı örnek saklanıp saklanmadığını Analysis Services, daha fazla hatları daha var. servis taleplerini oluşturamıyorServis talebi sayısı sayısından daha az ise, küme testinizde Katlama sayısı için kullanılır.
Not
Hatları, sayısını artırmak gibi saat bir model oluşturulan ve gerekir her kat için test çünkü çapraz doğrulama artar, gerçekleştirmek için gerekli.Hatları sayısı çok yüksek ise, performans sorunları yaşayabilirsiniz.
The Max Cases value specifies the total number of cases, across all folds, that can be used for cross-validation.Bu nedenle, herhangi bir belirli Katlanmış durumda sayısı eşittir Max durumlarda değeri bölünmüş olarak Count Katlama değer.Varsayılan değer tüm Araştırma yapısı durumlarda kullanılır yani 0 ' dır.
Saklı yordamları kullanarak çapraz doğrulama gerçekleştirirseniz, değerlerini sağlamanız FoldCount ve MaxCases Özellikler olarak parametreleri için saklı yordam.
Not
Çapraz doğrulama saklı yordamlar kullanırsanız, test etmek için kullanılan veri küme tanımlamak için DataSet parametresini de ayarlayabilirsiniz.Veri küme seçenekleri yalnızca eğitim küme, test ve Eğitim küme içerir ve eğitim ve test, birleşimleri küme ile araştırma modeli filtreler.Daha fazla bilgi için bkz: SystemGetCrossValidationResults (- Analysis Services veri madenciliği).
Doğrulamak için modeller ve sütunları seçme
Kullandığınızda, Çapraz doğrulama sekmesini veri Mining Tasarımcısı'nda önce seçmeniz gerekir tahmin edilebilir sütun listesi.Genellikle, bir araştırma yapısı aynı olan tüm kullanmak pek çok veri madenciliği modelleri destekleyebilir tahmin edilebilir sütun.Karşılıklı doğrulama, yalnızca aynı modelleri çalıştırdığınızda tahmin edilebilir sütun rapora dahil edilebilir.
Öngörülebilir öznitelik seçmek için tıklatın Hedef öznitelik ve sütun listeden.Hedef öznitelik iç içe sütun veya iç içe geçmiş bir tablo sütununda, aşağıdaki biçimi kullanarak iç içe sütun adını yazın <İç içe geçmiş tablo adı>(anahtar).<İç içe sütun>.İç içe geçmiş tablo kullanılan tek anahtar sütunu sütun, kullanabilirsiniz <İç içe geçmiş tablo adı>(key).
Notsaklı yordamlar kullanırsanız, sınama modeller üzerinde daha fazla denetim uygulamaktadır.Daha fazla bilgi için bkz: SystemGetCrossValidationResults (- Analysis Services veri madenciliği).
Öngörülebilir öznitelik seçtikten sonra Analysis Services otomatik olarak test eder tüm modellerini kullanan aynı öngörülebilir öznitelik.
Hedef öznitelik seçtikten sonra ayrık değerler içeriyorsa, tahmin edilebilir sütun, isteğe bağlı olarak bir hedef durumu yazabilirsiniz, varsa belirli bir değer tahmin etmek istediğiniz.
Hedef durumu seçimi, döndürülen ölçüleri etkiler.Hedef belirtirseniz, öznitelik— başka bir deyişle, bir sütun adı — ve modeli üzerinde en olası durumu kendi tahmin modeli değerlendirilen varsayılan olarak tahmin etmek istediğiniz belirli bir değer seçin.
Çapraz-kümeleme modeli doğrulama varsa hiç tahmin edilebilir sütun; Bunun yerine, seçtiğiniz #Cluster öngörülebilir öznitelikleri listesinden Hedef özniteliği liste kutusu.After you have selected Cluster, other options that are not relevant to clustering models, such as Target State, are disabled.Analysis Services will test all clustering models that are associated with the mining structure.
Doğruluk eşik ayarlama
Ölçmek için standart kontrol edebilirsiniz tahmin için bir değer ayarlayarak doğruluğu Hedef eşiği.Bir eşik doğruluğu çubuğu türünü temsil eder.Her tahmini olasılık Tahmin edilebileceği doğru değer atanır.Bu nedenle, varsa, küme Hedef eşiği yakın değer 1, size, gerek olasılık için iyi bir öngörü sayılması için oldukça yüksek olması belirli bir öngörü.Bunun tersi olarak, varsa, küme Hedef eşiği ile daha düşük bir olasılık değerleri 0, hatta Öngörüler yakın "iyi" sayılan Öngörüler.
Çünkü önerilen eşik değer yoktur herhangi bir olasılık tahmin verilerinizi ve türüne bağlıdır tahmin yapmakta olan.Farklı olasılık düzeylerinde bir verileriniz için uygun doğruluğu çubuğu belirlemek için bazı Öngörüler gözden geçirmelidir.Bu önemli bir adımdır çünkü değeri, sizin küme için Hedef eşiği modeli ölçülen doğruluğu üzerinde güçlü bir etkiye sahiptir.
Örneğin, olasılıklar, 0,05 0,15 ve 0,8 ile hedef durumu tahmin üç model yapınız içerdiğini varsayın.Varsa, küme 0,5, yalnızca bir tahmin için Eşik doğru olacak şekilde hesaplanır.Varsa, küme Hedef eşiği 0,10 için iki Öngörüler doğru olacak şekilde sayılır.
Zaman Hedef eşiği olan küme için null, varsayılan değer olduğu, en olası durumu kullanılan olarak hedef.Örnekte, yalnızca bildirilmiş tüm üç model doğru Öngörüler yoktur.Bu nedenle, modellerini karşılaştırdığınızda, her çapraz doğrulama için kullanılan eşik düşünmelisiniz örnek.Ortalama değerler için belirli bir modeli tüm durumlarda çapraz doğrulama raporu verilen ölçüleri ortalama olasılığını ve kök ortalama kare hata kullanarak da değerlendirebilirsiniz.
Karşılıklı doğrulama sekmesini kullanılırken sınırlamaları
Çapraz doğrulama raporu kullanarak çapraz doğrulama gerçekleştirirseniz Business Intelligence Development Studio, orada bazı sınırlamalar test modelleri ve parametreleri kullanabilirsiniz küme.
Varsayılan olarak, seçilen araştırma yapısı ile ilişkili tüm arası geçerliliği modelleridir.Modeli veya modelleri listesi belirtemezsiniz.
Çapraz doğrulama desteklenmez esas alan modeller için Microsoft Zaman Serisi algoritması veya Microsoft sırası kümeleme algoritması.
Raporu oluşturulamaz, araştırma yapısı tarafından çapraz doğrulama test modelleri içermiyor.
Modelleri Kümeleme ve kümeleme araştırma yapısı içeriyorsa ve seçin #Cluster seçeneği, sonuçlar her iki modelleri türdeki aynı raporda görüntülenir olsa öznitelik, durumu ve eşik ayarları kümeleme modelleri için uygun olmayabilir.
Bazı parametre değerlerini kısıtlanır.Örneğin, çok sayıda model oluşturmada yavaş görüntülemek için raporu neden olabilir çünkü hatları sayısı 10 dan fazla ise bir uyarı görüntülenir.
Gelişmiş ayarları belirtmek istiyorsanız, çapraz doğrulama saklı yordamları kullanmanız gerekir.Daha fazla bilgi için bkz: Veri madenciliği depolanan yordamlar (Analysis Services - veri madenciliği).
Çapraz doğrulama sonuçlarını
Belirtilen parametreler ve tıklattıktan sonra yenileme, çapraz doğrulama sonuçlarını sonuçlar kılavuzda görüntülenir.Bu bölümde her içeriğini açıklayan sütun sonuçlar kılavuzunda.
Veri hatları sayısı ve her kat veri miktarı hakkında bazı temel bilgilere ek olarak Analysis Services görüntüler bir küme her modeli hakkında ölçüler kategorilere göre türü.Aşağıdaki tablo testleri ve ölçümler, ölçüsü ne anlama geldiğini bir açıklama listeler.
Sınama türü |
Ölçümleri ve açıklamaları |
---|---|
Kümeleme |
Servis talebi olasılığınıNasıl büyük bir olasılıkla, iş göstergesi bir durum belirli bir kümeye ait.
|
Sınıflandırma |
Doğru olumluBu koşullara uyan servis taleplerinin sayısı:
Yanlış pozitifBu koşullara uyan servis taleplerinin sayısı:
Doğru negatifBu koşullara uyan servis taleplerinin sayısı:
Yanlış negatifBu koşullara uyan servis taleplerinin sayısı:
|
Sınıflandırma |
PASS/FailBu koşullara uyan servis taleplerinin sayısı:
|
Olasılığını |
YükseltTest durumlarda Marjinal olasılık için gerçek tahmin olasılık oranı.Bu ölçü, model kullanıldığında, ne kadar olasılığını artırır gösterir.
Kök ortalama kare hataKarekökü ortalama hata tüm bölüm durumlarda eksik değerlere sahip satırlar hariç olmak üzere, bölüm durumlarda sayıya bölünür.
Günlük puanHer servis talebi için gerçek olasılık logaritması toplanır ve satýr sayýsýný bölünüp veri küme, mossing değerleri içeren satırları hariç.Olasılık bir ondalık kesir temsil edilen günlük puanlar her zaman negatif sayılar olduklarından.Bir puan daha yakın 0 daha iyi tahmin anlamına gelir.
|
Tahmin |
Kök ortalama kare hataKare kök ortalama kare hataları toplamı olarak ifade edilen gerçek değeri için öngörülen değeri ortalama hata oluştu.
Ortalama mutlak hataMutlak hataları toplamı ortalaması ifade edilen gerçek değeri için öngörülen değeri ortalama hata oluştu.
Günlük puanGünlük olasılığını Skor tahmin için: her servis talebi için gerçek olasılık logaritmasını toplanır ve satýr sayýsýný bölünüp veri küme, mossing değerleri içeren satırları hariç.Olasılık bir ondalık kesir temsil edilen günlük puanlar her zaman negatif sayılar olduklarından.Bir puan daha yakın 0 daha iyi tahmin anlamına gelir.Ham puanlar çok düzensiz veya çarpıtılmış dağıtımları olabilir ama bir günlük puan ile yüzde benzer.
|
Toplamalar Toplam ölçüleri sağlamak varyans bir göstergesi sonuçlar her bölüm için. |
OrtalamaBelirli bir ölçü birimi için bölüm değerlerin ortalaması.
Standart sapmaBir modeli tüm bölümler arasında belirli bir ölçü birimi için ortalama sapma ortalaması.
|
Not
Her hedef özniteliği için bu doğruluk ölçüleri hesaplanır ve her öznitelik için belirtin veya hedef değerini atlarsanız.Bazı kayıtlar eksik değeri olarak adlandırılan özel bir durum olduğu hedef öznitelik için herhangi bir değer olabilir.Değerleri eksik satırları, belirli hedef öznitelik için doğruluğunu ölçü birimi hesaplarken dikkate alınır.Ayrıca, hedef öznitelik, ancak diğer öznitelikleri eksik değerleri varsa, puanlar her öznitelik için ayrı ayrı hesaplanır olduğundan, bu hedef özelliğin puanını etkilemez.