Veri eğitimi ve kümeleri sınama bölümleme (Analysis Services - veri madenciliği)
Eğitim ve kümeleri sınama verileri ayırma, veri madenciliği modelleri değerlendirirken, önemli bir parçasıdır.Typically, when you partition a data set into a training set and testing set, most of the data is used for training, and a smaller portion of the data is used for testing.Analysis Services randomly samples the data to help ensure that the testing and training partitions are similar.Eğitim ve sınamak için benzer verileri kullanarak, veri tutarsızlıkları etkilerini en aza indirmek ve daha iyi özelliklere modelinin anlamak.
Bir model Eğitimi'ni kullanarak işlendiğini sonra küme, sınama karşı Öngörüler yaparak Modeli test küme.Çünkü sınama verileri küme zaten bilinen modelinin tahmin doğru olup olmadığını belirlemek kolay bir işlemdir, tahmin etmek istediğiniz öznitelik değerlerini içerir.
Genellikle, araştırma modeli öngörü doğruluğunu göre ölçülür kaldırın veya sınıflandırmaya doğruluk.Lift grafikler ve diğer doğruluk grafikler hakkında daha fazla bilgi için bkz: Model doğruluğu grafik araçlar (Analysis Services - veri madenciliği).
Veri madenciliği yapıları için bölümleri oluşturma
Içinde SQL Server 2008, veri düzeyinde partition araştırma yapısı. Bölüm boyutunu ve her bölümün verileri ile ilgili bilgileri yapısı ile birlikte depolanır ve o yapısını esas alan tüm modeller eğitim ve sınamak için bölümleri kullanabilirsiniz.
Bir bölümü tanımlamak bir araştırma yapısı aşağıdaki yöntemlerle:
araştırma yapısı oluşturduğunuzda, araştırma yapısı bölümlemek için veri madenciliği Sihirbazı'nı kullanarak.
Yapı özelliklerinde değişiklik araştırma yapısı veri madenciliği Tasarımcı sekmesi.
Oluşturma ve yapıları çözümlemesi Management Objects (ÇYN) veya XML veri tanımlama dili (DDL) kullanarak program aracılığıyla değiştirme.
Bölüm için veri madenciliği Sihirbazı'nı kullanarak bir araştırma yapısı
araştırma yapısı veri kaynaklarını tanımladıktan sonra varsayılan olarak, yüzde 70'eğitim ve sınama için yüzde 30 bölümlere verileri veri madenciliği sihirbaz bölünecektir.Bu genellikle, veri madenciliği, ancak ile kullanılan bir oranı Analysis Services Bu oran gereksinimlerinize yanıt verecek şekilde değiştirebilirsiniz.
Sihirbaz için de yapılandırabilirsiniz küme sınırını eğitim durumda veya servis talepleri bir belirtilen en fazla sayıda servis talebi kadar en fazla yüzde izin vermek için sınırları birleştirebilirsiniz.En fazla yüzde servis talepleri hem de durumlarda en fazla sayısını belirtin Analysis Services iki sınır daha küçük bir sınama boyutu kullanır küme. Örneğin, yüzde 30 gizleme sınama servis taleplerini ve en yüksek boyutu sınamasının sınama durumlarda, 1000'olarak belirtirseniz, küme 1000 durumda hiçbir zaman aşamaz.Bu, sınama boyutunu emin olmak istiyorsanız, bu özellik işinize yarayabilir küme modeli için daha çok eğitim veri eklenen bile tutarlı olarak kalır.
Aynı veri kaynağı görünümü farklı madenciliği yapıları için kullanın ve kabaca ayný þekilde tüm madenciliği yapıları ve bunların modelleri için verileri bölümlendirilir olmak istiyorsanız, rasgele örnekleme başlatmak için kullanılan çekirdek belirtmeniz gerekir.Bir değer için belirttiğiniz HoldoutSeed, Analysis Services örnekleme başlamak için bu değeri kullanırsınız. Aksi halde, örnekleme bir karma algoritma araştırma yapısı adına çekirdek değeri oluşturmak için kullanır.
Not
Madenciliği yapısının bir kopyasını kullanarak oluşturduğunuz, EXPORT ve IMPORT verme işlemi, yeni bir KIMLIK oluşturur ancak aynı adı kullanan deyimleri, yeni araştırma yapısı aynı bölüm tanımı vardır. Ancak, bölümleri her araştırma yapısı için oluşturulan iki madenciliği yapıları veri kaynağının aynı kullanın, ancak farklı adlara sahip farklı olacaktır.
Yapı özellikleri değiştirme
Oluşturduğunuz ve bir araştırma yapısı işlemek ve daha sonra bir sınama bölümü eklemek istediğiniz karar, madenciliği yapısının özelliklerini değiştirebilirsiniz.Veri bölümlendirilir şeklini değiştirmek için , aşağıdaki özellikleri düzenleyin:
Özellik |
Açıklama |
---|---|
HoldoutMaxCases |
Sınama sırasında eklemek, servis talebi sayısı üst sınırını belirtir küme. |
HoldoutMaxPercent |
Sınama sırasında eklemek, servis talebi sayısını belirtir küme tüm verilerin bir yüzdesi olarak küme.Veri içermeyen için küme, 0 belirtirsiniz. |
HoldoutSeed |
Veri bölümleri için rasgele seçerken temel kullanmak için bir tamsayı değeri belirtir.Bu değer, eğitim durumlarda sayısını etkilemez küme; bunun yerine, bölüm yinelenebilen sağlar. |
Ekler veya bir bölümü varolan bir yapısını değiştirirseniz, yapısını ve ilişkili tüm modeller reprocess gerekir.Ayrıca, modeli, verileri farklı bir altkümesine eğitim almış neden olan bir bölüm eklemek için model farklı sonuçlar görebilirsiniz.
gizleme programsal olarak belirtme
DMX ifadeleri, ÇYN veya XML DDL kullanılarak bölümlenmiş veri araştırma yapısı oluşturabilirsiniz.
dmx veri madenciliği Uzantıları (DMX) dilinde OLUşTURMA araştırma yapısı ifadesi bir WITH gizleme yan tümcesini içerecek şekilde genişletildi.Sözdizimi ve YAPıSıNı, CREATE deyim örnekleri için bkz: OLUŞTURMA araştırma yapısı (dmx).
Not
ALTER araştırma yapısı deyim gizleme parametreleri kullanımını desteklemiyor.
assl Oluşturabileceğiniz hem de yeni bölümlendirilmiş madenciliği yapıları ve kullanarak, varolan veri madenciliği yapıları için bölüm eklemeAnalysis Services komut dosyası kullanan kullanan dosyası kullanan dili (ASSL). Daha fazla bilgi için bkz:MiningStructure öğesi (ASSL).
ÇYN Ayrıca, görüntülemek ve bölümleri, ÇYN kullanarak değiştirebilirsiniz.Daha fazla bilgi için bkz:ÇYN kavramlar ve nesne modeli.
Veri madenciliği şema satır kümesi kümesi sorgulayarak, varolan bir araştırma yapısı bölümleri hakkındaki bilgileri görüntüleyebilirsiniz.DISCOVER call satır kümesi sağlayarak bunu yapabilirsiniz veya DMX sorgu kullanabilirsiniz.Daha fazla bilgi için bkz: Veri madenciliği Schema Satır kümeleri veya Veri madenciliği Schema Satır kümeleri sorgulama (Analysis Services - veri madenciliği).
Bölüm bilgilerini kullanma
Varolan bölümleri alıştırması ve sonra yeni modelleri sınamak için kullanın böylece varsayılan olarak, eğitim ve test bölümleri hakkında tüm bilgileri, önbelleğe alınır.Ayrıca, verilerin alt kümelerini modelinde değerlendirebilir, önbelleğe alınmış gizleme bölümleri için uygulanacak süzgeçleri tanımlayabilirsiniz.Daha fazla bilgi için bkz:Süzgeçleri için madenciliği modelleri oluşturma (Analysis Services - veri madenciliği).
Servis taleplerini bölüm ayrılır şekilde gizleme ve sağladığınız verileri yapılandırdığınız gelmekte bağlıdır.Her bölümün durumlarda sayısını veya eğitim ve test kümelerinde dahil servis talebi ayrıntılarını bulmak istiyorsanız, DMX bir sorgu oluşturarak modeli yapısına sorgulayabilirsiniz.Örneğin, aşağıdaki sorgu eğitim, kullanılan servis taleplerini döndürür küme modelinin.
SELECT * from <structure>.CASES WHERE IsTrainingCase()
Yalnızca sınama servis taleplerini almak ve ek olarak bir sütun sınama talepleriyle süzmek için araştırma yapısı, aşağıdaki sözdizimini kullanın:
SELECT * from <structure>.CASES WHERE IsTestCase() AND <structure column name> = '<value>'
gizleme kullanımını sınırlama
gizleme, kullanılacak MiningStructureCacheMode madenciliği yapısının özellik olmalıdır küme için varsayılan değer KeepTrainingCases. Değiştirme, CacheMode özellik ClearAfterProcessingve sonra da araştırma yapısı reprocess, bu bölümü kaybolacaktır.
saat serisi modellerde, bölümleri kullanamazsınız.Bir bölüm oluşturun ve belirtmek için bu nedenle, bölümleme dışıdır Microsoft saat serisi algoritması model oluşturmak için kullanılabilir. araştırma yapısı durum veya iç içe geçmiş tablo düzey anahtar saat sütun içeriyorsa, bölümleme de devre dışı bırakılır.
Yanlışlıkla tam kullanılacak birimleri yeniden yapılandırabilirsiniz küme, sınama ve veri eğitim için kullanın.However, Analysis Services will raise an error so that you can correct the problem.Analysis Services also warns you when the structure is processed if more than 50 percent of the data has been held out for testing.
Çoğu durumda, eğitim ve veri sınama arasında iyi bir denge gizleme varsayılan değer 30 sağlar.Ne kadar büyük veri belirlemek için basit bir yolu küme yeterli bir eğitim vermeniz olmalıdır veya ne kadar küçük eğitim küme fazla uygunluk önlemek için olması gerekir.Bir model yerleşik sonra veri kümesinde belirli bir modeli göre değerlendirmek için çapraz doğrulama kullanabilirsiniz.Daha fazla bilgi için bkz:çapraz doğrulama (Analysis Services - veri madenciliği).
Ek olarak, salt okunur özellik, yukarıdaki tabloda listelenen özellikleri HoldoutActualSize, XML DDL ÇYN de sağlanır. Yapısı işlenen sonra gerçek bir bölümün boyutunu doğru olarak kadar belirlenemez olduğundan, ancak, değeri almadan önce modeli işlendiğini olup olmadığını denetlemelisiniz HoldoutActualSize özellik.