Aracılığıyla paylaş


Veri madenciliği modelleri doğrulanıyor (Analysis Services - veri madenciliği)

Doğrulama gerçek veri madenciliği modelleriniz'ne kadar iyi gerçekleştirmek değerlendiriliyor işlemidir.Bir üretim ortamına dağıtmadan önce kendi kalite ve özelliklerini anlayarak, madenciliği modelleri doğrulamak önemlidir.

Bir veri araştırma modeli özelliklerinin ve kalite değerlendirme için çeşitli yaklaşımlar vardır.Ilk veri veya modelinde sorunları olup olmadığını belirlemek için istatistiksel geçerlilik çeşitli ölçülerin kullanımını içerir.Ikinci olarak, eğitim ve Öngörüler doğruluğunu sınanacak kümeleri sınama verileri ayrı.Son olarak, iş uzmanlarından sonuçlarını gözden geçirmek isteyebilir veri madenciliği keşfedilen desenleri hedeflenen iş senaryosunda anlamı olup olmadığını anlamak için model.Bu yöntemlerin tümü veri madenciliği yöntemi yararlıdır ve oluşturmak, sınamak ve belirli bir soruna yanıt vermek için modelleri iyileştirmek oluşturmayı kullanılır.

This section introduces some basic concepts related to model quality, and introduces the strategies for model validation that are provided in Microsoft SQL Server 2008 Analysis Services.Modeli doğrulaması, büyük veri madenciliği işlemine nasıl uyguladığı konusuna genel bir bakış için bkz: Veri madenciliği Projects (Analysis Services - veri madenciliği).

Veri madenciliği modelleri ölçme ölçütleri

Doğrulama için pek çok yöntem bir veri araştırma modeli değil yanıt iş soruları doğrudan, ancak bir geliştirme ya da iş karar size yol göstermesi için kullanılacak ölçütleri girin.Model yeterince, iyi açıklayan kapsamlı bir kural yok veya ne zaman yeterli veri yok.

Farklı bir veri madenciliği genellikle kullanışlılığı doğruluğu ve güvenilirliği, kategorilere ayrılır.

Kullanışlılığı doğruluğu ve güvenilirliği

Doğruluğu karşılıklı olarak ne kadar iyi model bir sonucu sağlanmadı verilerde öznitelikleri ile ilişkilendirir bir ölçüsüdür.Doğruluk, çeşitli ölçülerin vardır, ancak tüm ölçülerin doğruluğu, kullanılan veriler bağımlıdır.Gerçekte, değerleri, yaklaşık ya da eksik olabilir veya verileri birden çok işlem tarafından değiştirilmiş olabilir.Özellikle karakteristiklerini oldukça Tekdüzen veridir, özellikle aşamasını incelenmesi ve geliştirme'de, belirli bir miktarda veri, hata olarak kabul karar verebilirsiniz.Örneğin, bile bu mağazaya sürekli olarak yanlış hesaplama yöntem kullanılır. geçmişteki satışlara göre belirli bir mağazaya satışlarını tahmin eder bir modeli kesinlikle ilişkili ve çok doğru olabilir.Bu nedenle, ölçümlerin doğruluğunu, güvenilirlik değerlendirmeler tarafından dengelenmelidir.

Güvenilirlik biçimini assesses, bir veri araştırma modeli, farklı veri kümeleri üzerinde gerçekleştirir.A veri madenciliği Öngörüler aynı türde oluşturur ya da desenler sağlanan sınama verileri ne olursa olsun aynı genel tür bulur güvenilir modelidir.Örneğin, yanlış hesap kullanılan deposu için oluşturma modeli yöntem de diğer bir depoları generalize ve bu nedenle güvenilir olmaması.

Kullanışlılığı olup modeli yararlı bilgiler sağlar. açıklayan çeşitli ölçümler'i içerir.Örneğin, bir veri madenciliği correlates satış konumla depolamanız modeli doğru ve güvenilir, ancak şimdi aynı konumda daha fazla depoları ekleyerek sonucunda generalize edemiyor çünkü yararlı olabilir.Ayrıca, bu, belirli konumlar, daha fazla satış neden olan temel iş soruyu yanıtlamak değil.Çapraz korelasyon verilerde bağlı olduğu için başarılı görünen gerçekte bir modeli, anlamsız olduğunu bulabilirsiniz.

Microsoft veri madenciliği Framework

NET DM tanımlama, geliştirme ve veri madenciliği proje uygulama adımlarını açıklamaktadır iyi bilinen bir yöntemi ' dir.Ancak, NET DM belirli bir kapsam ve bir proje zamanlama kılavuzunda sağlamayan bir kavramsal çerçevedir.Daha iyi, belirli içinde veri madenciliği ilgilenen ancak planlama başlamak nereye bilmiyorsanız iş kullanıcıların gereksinimlerine ve .NET uygulama geliştirmenizi nitelikli olabilir, ancak veri madenciliği'için yeni olan geliştiriciler gereksinimlerini karşılayabilmek için Microsoft Değerlendirme için kapsamlı bir sistemi içeren bir veri madenciliği proje uygulamak için bir yöntem geliştirmiştir.

Daha fazla bilgi için bkz: Microsoft veri madenciliği kaynaklar sayfa.

SQL Server Analysis Services araştırma modeli doğrulaması olarak giderme yaklaşımları

SQL Server 2008 tüm aşamaları geliştirme yöntemleri mining veri destekleyen bir veri madenciliği çözümleri doğrulanması için birden çok yaklaşımlar destekler.

Eğitim ve kümeleri sınama için bölümleme veri

Eğitim ve kümeleri sınama verileri bölümleme değerlendirme için veri hazırlama kurulan bir tekniktir.Bazı verileri eğitim veri bölümünü küme sınama ve kalan verilerin kullanıldığı için eğitim için ayrılmıştır.Model tamamlandıktan sonra model Öngörüler karşı sınama yapmak için kullanılan küme.Çünkü eğitim verilerde küme rasgele olan eğitim için kullanılan aynı verileri seçilir, sınama gelen türetme yapıp yapmayacağınızı doğruluğu, ölçüler veri tutarsızlıkları tarafından etkilenebilir ve bu nedenle modelinin özelliklerini daha iyi yansıtması daha düşüktür.

Daha fazla bilgi için bkz:Veri eğitimi ve kümeleri sınama bölümleme (Analysis Services - veri madenciliği).

çapraz doğrulama Madenciliği modelleri,

Cross-validation lets you partition a dataset into many smaller cross-sections, and create multiple models on the cross-sections to test the validity of the complete data set.Analysis Services then generates detailed accuracy metrics for each partition.Bu bilgileri kullanarak, belirli bir modeli kalitesini veya için belirli bir en iyi modelleri tanımlamak küme veri.

Daha fazla bilgi için bkz:çapraz doğrulama (Analysis Services - veri madenciliği).

araştırma modeli doğruluğu grafik oluşturma

Microsoft SQL Server Analysis Services Tahmin doğruluk grafik, karşı yeni veya varolan bir veri modeli sınama veya grafiklerde ve raporlarda bulunan birden çok modelleri karşılaştırma yardımcı olacak araçları sağlar.

C Grafik kaldırın. rasgele bir tahmin karşılaştırmak için bir veri araştırma modeli kullanarak aldığınız geliştirme görselleştiren bir yöntemdir.Aynı zamanda oluşturma Kar grafikler mali kazanç veya maliyetleri madenciliği modelinin kullanılması ile ilişkilendiren ve dağılım grafiğini çizer. regresyon modeller için.C sınıflandırma matrisi içine iyi ve hatalı tahminler için sıralama yöntem olan bir tablo böylece, hızlı ve kolay bir şekilde nasıl doğru bir şekilde hedef değer modeli tahmin eder ölçmek.

Daha fazla bilgi için Model doğruluğu grafik araçlar (Analysis Services - veri madenciliği).

Aynı kaynak verisine farklı birleşimlerini alıştırması ve çeşitli şekillerde modelleri de süzebilirsiniz.Daha fazla bilgi için bkz:araştırma modeli doğruluğu ölçme (Analysis Services - veri madenciliği).

Tarama ve modeli içeriği ve servis taleplerini sorgulama

Analysis Services veri madenciliği görüntüleyenler için tarama ve model exploring kümesi sağlar.Yardımcı sorgularını modelini daha iyi anlamak ve beklenmeyen bir sorun, bu yaklaşım veya verileri bulmak için içerik de oluşturabilirsiniz.Veri madenciliği Uzantıları (DMX) kullanarak içerik bir sorgu oluşturduğunuzda, araştırma modeli tarafından belirlenen desen hakkındaki istatistiksel bilgileri alın veya modeli tarafından bulunan belirli bir desen destekleyen bir servis talebi almak.Siz de aracılığıyla bulmak modelinde bulunan ayrıntılı bilgileri göstermek veya desenleri verilerde bulunan üzerinde bir işlem yapması için temel madenciliği yapısında, ayrıntı için ayrıntısına inebilir.

Sorgu modeli içeriği nasıl hakkında daha fazla bilgi için bkz: Veri madenciliği modelleri sorgulama (Analysis Services - veri madenciliği).

Modeli içeriği gözatma hakkında daha fazla bilgi için bkz: veri araştırma modeli görüntüleme.

Modeli içeriği için özel algoritmalar yorumlama hakkında daha fazla bilgi için bkz: Veri madenciliği algoritmaları (Analysis Services - veri madenciliği).