Veri madenciliği kavramları (- Analysis Services veri madenciliği)
Veri madenciliği mekanizmasına büyük veri kümelerinin bilgilerinden keşfetme işlemidir.Veri madenciliği ve veri mevcut eğilimlerini türetmek için matematiksel çözümleme kullanır.Genellikle, bu desenleri ilişkileri çok karmaşık veya çok fazla veri olduğundan tarafından geleneksel veri tanımaya bulunamazsa.
Bu desenleri ve eğilimleri toplanan ve olması olarak tanımlanan bir veri araştırma modeli.Modeller mining belirli iş senaryoları için gibi uygulanabilir:
Satış tahmini
Postalar doğru belirli müşterileri hedefleyen
Hangi ürünleri birlikte satılan yüksektir belirleme
Müşterilerin alışveriş sepetine ürün ekleme sırada sıraları bulma
Bir araştırma modeli oluşturma veriler hakkında sorular sorarak gelen her şeyi içeren daha büyük bir işlemin parçası olan ve çalışma ortamına modeli dağıtmak için bu soruları yanıtlamak için bir model oluşturma.Bu işlem, aşağıdaki altı temel adımları kullanarak tanımlanabilir:
Sorunu tanımlama
Verileri Hazırlama
Veri keşfetme
Bina modeller
Keşfetmek ve modeller doğrulanıyor
Dağıtma ve modeller güncelleştiriliyor
The following diagram describes the relationships between each step in the process, and the technologies in Microsoft SQL Server that you can use to complete each step.
Şemada gösterilen süreci döngüsel olsa da, her adım mutlaka doğrudan bir sonraki adıma yol açmaz.Veri oluşturma araştırma modeli dinamik ve yinelemeli bir işlemdir.Veri Araştır sonra verilerin uygun veri madenciliği modelleri oluşturmak yetersiz olduğunu ve, bu nedenle daha fazla veri için aramak olduğunu görebilirsiniz.Alternatif olarak, çeşitli modeller oluşturmak ve sonra modelleri yeterince tanımlamış olduğunuz sorun yanıt yok olduğunu ve bu nedenle sorunu tanımlamak gerekir fark ettiniz.Daha fazla veri kullanılabilir oldu çünkü bunlar dağıtılan sonra modelleri güncelleştirmeniz gerekebilir.İşlemdeki her adım iyi bir model oluşturmak için birçok kez yinelenmesi gerekir.
SQL Server 2008oluşturma ve veri madenciliği modelleri olarak adlandırılan, verilerle çalışmak için tümleşik bir ortam sağlar Business Intelligence Development Studio.Bu ortam, veri madenciliği algoritmaları ve kolayca çeşitli projeleri için kapsamlı bir çözüm oluşturmak araçlar içerir.Kullanma hakkında daha fazla bilgi için BI Development Studio, bkz: Business Intelligence Development Studio kullanarak uygulama ve geliştirme.
Veri madenciliği çözümü oluşturduktan sonra korumak ve kullanarak göz SQL Server Management Studio.Daha fazla bilgi için bkz: Veri madenciliği yapıları ve modeller yönetme.
Nasıl gösteren bir örnek için SQL Server , Araçlar için bir iş senaryosu uygulanabilir Bkz: Temel veri madenciliği öğreticisi.
Sorunu tanımlama
Aşağıdaki çizimde vurgulanmış olarak veri madenciliği işleminde ilk adım, açıkça problemini tanımlamak ve soruna bir yanıt sağlamak için yollar düşünün sağlamaktır.
Bu adım, iş gereksinimlerini tanımlama, çözümleme içerir kapsam modeli değerlendirilen ölçümleri tanımlama ve veri madenciliği proje için belirli hedefler tanımlama sorun.Bu görevleri aşağıdaki gibi sorular içine çevirir:
Ne aradığınız?Ne tür bir ilişki bulmak çalışıyorsunuz?
Sorunu çözmeye çalıştığınız İlkeleri'ni veya iş süreçleri yansıtan mu?
Verilerden Öngörüler yapmak istiyorsunuz araştırma modeli, veya sadece ilginç desenleri ve ilişkileri?
Hangi öznitelik 'ın dataset, tahmin etmek denemek istiyor musunuz?
Sütunları nasıl ilişkilendirilir?Birden çok tablo varsa, tabloların nasıl ilişkilendirildiğini?
Verileri nasıl dağıtılır?Veri Mevsimlik mi?Verileri doğru olarak iş süreçlerini temsil etmiyor?
Bu soruları yanıtlamak için ile ilgili mevcut verilerin iş kullanıcılarının gereksinimlerini araştırmak için veri kullanılabilirliği incelemesi gerçekleştir olabilir.Veriler kullanıcıların gereksinimlerini desteklemiyorsa, projeyi yeniden tanımlamak zorunda kalabilirsiniz.
Ayrıca, modelin sonuçlar Incorporated için kullanılan anahtar performans göstergeleri (KPI), yolları üzerinde düşünmeniz gerekecek ölçü iş ilerleme.
Verileri Hazırlama
Aşağıdaki çizimde vurgulanmış olarak veri madenciliği işlemi ikinci adımda birleştirmek ve içinde tanımlanan verilerini temizlemek için ise tanımlama sorunu adım.
Verileri bir şirket üzerinde dağılmış olabilir ve farklı biçimlerde depolanmış veya yanlış veya eksik girdiler gibi tutarsızlıkları içerebilir.Örneğin, ürün piyasada sunulan önce bir müşteri bir ürün satın aldığınız veya müşteri dükkanları mağazadan düzenli olarak 2.000 mil her evde bulunan verileri gösterebilir.
Veri temizleme hemen hemen bozuk veri kaldırıyor değil, ancak verilerin bağıntıları gizli bulma hakkında en doğru olan veri kaynakları tanımlayan ve hangi sütunların belirlenmesi için en uygun analiz edilir.Örneğin, sevk tarih veya sipariş tarih kullanmalısınız?En iyi satış etkileyen, miktar, toplam fiyat veya indirimli fiyatı mı?Tamamlanmamış veriler, yanlış veri ve ayrı görünen, ancak aslında kesinlikle ilişkili, giriş etkileyen sonuçlar modelinin değil beklediğiniz şekilde.Bu nedenle, veri madenciliği modelleri oluşturmaya başlamadan önce bu sorunları tanımlamak ve onları nasıl çözeceksiniz belirlemek.
Tipik olarak çok büyük bir dataset ile çalışıyorsanız ve her işlem üzerinden benzeyemez.Bu nedenle, otomasyon, çeşit gibi kullanmak zorunda Integration Servicesiçin verileri keşfedin ve bulmak tutarsızlıkları.Microsoft Integration Services contains all the tools that you need to complete this step, including transforms to automate data cleaning and consolidation.Daha fazla bilgi için bkz: Business Intelligence Development Studio Tümleştirme Hizmetleri.
Veri kaynakları gibi bunların her ikisi de kullanabilirsiniz, ancak veri madenciliği için kullandığınız veri bir çevrimiçi analitik işleme (olap) küp veya hatta ilişkisel bir veritabanında depolanması gerekmez olduğunu dikkate almak önemlidir.Herhangi bir kaynak olarak tanımlanan veri kullanarak veri madenciliği de geliştirebilir bir Analysis Services veri kaynağı.Bunlar, metin dosyaları, Excel çalışma kitapları veya diğer dış sağlayıcılar verileri içerebilir.Daha fazla bilgi için bkz: Veri kaynakları (Analysis Services) tanımlama.
Veri keşfetme
Üçüncü adımda veri madenciliği işlemi aşağıdaki çizimde vurgulanmış olarak hazırlanan veri keşfedin dir.
Veri madenciliği modelleri oluşturduğunuzda, uygun kararlar için anlamanız gerekir.Ortalama ve standart sapmalar hesaplama ve veri Dağıtım sırasında bakan minimum ve maksimum değerleri, hesaplama tanımaya teknikler içerir.Örneğin, en yüksek, en düşük ve ortalama değerleri veri müşteriler veya iş süreçleri temsilcisi olduğu ve bu nedenle daha dengeli verileri elde etmek veya gerekir beklentilerinizi temeli olan varsayımlar gözden geçirerek belirlemek.Standart sapmalar ve diğer dağıtım değerleri kararlılık ve doğruluğu hakkında yararlı bilgiler sağlayabilir sonuçlar.Daha fazla veri ekleme modeli geliştirmenize yardımcı, büyük bir standart sapma gösterebilir.Kesinlikle bir standart dağıtımından değişiklik gösterdiği veri eğilmiş, veya gerçek yaşamdan sorunun doğru bir resmini gösterir, ancak veri modeline uyma zorlaştırır.
Problemini kendi anlayış ışığında, veri araştırma tarafından dataset kullanarak verileri içerir ve sonra sorunlarını düzeltme için bir strateji insanlara veya işletmenizin tipik davranışları daha derin bir anlayış kazanmak, karar verebilirsiniz.
Veri kaynağı Görünüm Tasarımcısı'nda BI Development Studio birkaç veri keşfedin için kullanabileceğiniz araçlar içerirDaha fazla bilgi için bkz: Veri kaynağı görünümleri (Analysis Services) tasarlama veya Veri kaynağı görünümünde (Analysis Services) veri keşfetme.
Ayrıca, oluşturduğunuzda bir model Analysis Services bulunan modelde, hangi, sorgulama kullanmak üzere raporları veya verilerin istatistiksel özetlerini'otomatik olarak oluştururdaha fazla analiz. Daha fazla bilgi için bkz: Veri madenciliği modelleri sorgulama (- Analysis Services veri madenciliği).
Bina modeller
Dördüncü veri madenciliği işlemi aşağıdaki çizimde vurgulanmış olarak araştırma modeli veya modelleri oluşturmak için adımıdır.İçinde kazanılan bilgi kullanacağı Araştırma verileri tanımlamak ve modelleri oluşturmak için adım.
Bir araştırma yapısı oluşturarak kullanmak istediğiniz verileri tanımlayın.Araştırma yapısını tanımlayan kaynak veri, ancak onu işleyecek kadar herhangi bir veri içermiyor.Araştırma yapısı işlediğinizde Analysis Services toplamları ve analiz için kullanılabilecek diğer istatistiksel bilgileri oluştururBu bilgiler, yapısına dayalı bir araştırma modeli tarafından kullanılabilir.Veri madenciliği modelleri araştırma yapıları nasıl ilişkilendirildiğini hakkında daha fazla bilgi için bkz: Mantıksal Architecture (Analysis Services - veri madenciliği).
Model işlenmeden önce bir veri araştırma modeli giriş tahmin etmek öznitelik ve Parametreler algoritması verileri işleme yöntemini bildirmek için kullanılan sütunları belirten bir kapsayıcıdır.Model işleme olarak da adlandırılır Eğitim.Eğitim desenleri ayıklamak için veri yapısı içindeki belirli bir matematiksel algoritma uygulama işlemini ifade eder.The patterns that you find in the training process depend on the selection of training data, the algorithm you chose, and how you have configured the algorithm.SQL Server 2008 contains many different algorithms, each suited to a different type of task, and each creating a different type of model.sql Server 2008'de sağlanan algoritmalar listesi için bkz: Veri madenciliği algoritmaları (Analysis Services - veri madenciliği).
Her algoritma ayarlamak için parametreler kullanabilirsiniz ve farklı sonuçlar oluşturma verilerin yalnızca alt küme küme küme kümesini kullanmak için eğitim veri filtre uygulayabilirsiniz.Veri modeli üzerinden geçirmek sonra araştırma modeli özetleri ve sorgulanan veya tahmin için kullanılan desenleri nesnesi içerir.
Veri Mining Sihirbazı'nda kullanarak yeni bir modeli tanımlayabilirsiniz BI Development Studio, ya da kullanarak veri Mining Extensions (dmx) dili.Veri Mining Sihirbazı'nı kullanma hakkında daha fazla bilgi için bkz: Veri madenciliği Sihirbazı (- Analysis Services veri madenciliği).dmx kullanma hakkında daha fazla bilgi için bkz: Veri Araştırma Uzantıları (DMX) Başvurusu.
Veriler değiştiğinde, hem araştırma yapısı hem de araştırma modeli güncelleştirmeniz gerekir olduğunu unutmamak gerekir.İşleyerek, bir araştırma yapısı güncelleştirdiğinizde, Analysis Services buralarda kaynak, yoksa yeni veriler de dahil olmak üzere kaynak dinamik olarak güncelleştirilir ve yeniden doldurur araştırma yapısı.Yapısına göre model varsa, yeni veriler üzerinde retrained yani yapısına göre model güncelleştirmeyi seçebilirsiniz veya modelleri olduğu gibi bırakabilirsiniz.Daha fazla bilgi için bkz: Veri madenciliği nesneleri işleniyor.
Keşfetmek ve modeller doğrulanıyor
Beşinci veri madenciliği işlemi aşağıdaki çizimde vurgulanmış olarak veri madenciliği modelleri inşa ettik ve bunların etkinliğini test keşfetmek için adımıdır.
Önce dağıtmak bir modeli üretim ortamına modeli ne kadar iyi yapar sınamak istediğiniz.Ayrıca, bir model oluştururken, genellikle birden çok modelleri ile farklı yapılandırmaları oluşturmak ve tüm modelleri, sorununuzu ve verileriniz için en iyi sonuçlar verir görmek için sınayın.
Analysis Services Eğitim ve böylece performansı tüm modeller üzerinde aynı verileri doğru olarak değerlendirmek DataSet'ler test içine verilerinizi yardımcı Araçlar ayırın sağlar.Model oluşturmak için eğitim dataset ve tahmin sorgular oluşturarak modeli doğruluğunu sınamak için test dataset kullanarak.sql Server 2008 Analysis Services'da bölümleme bu otomatik olarak yapılabilir while building araştırma modeli.Daha fazla bilgi için bkz: Veri madenciliği modelleri doğrulama (- Analysis Services veri madenciliği).
Algoritmaları veri Mining tasarımcısında görüntüleyicileri kullanarak keşfedin desenleri ve eğilimleri keşfetmek BI Development Studio.Daha fazla bilgi için bkz: Veri madenciliği Model görüntüleme.Ne kadar iyi Tasarımcı yükseltme grafiği ve sınıflandırma matrisi gibi araçları kullanarak modeller Öngörüler oluşturma sınama da yapabilirsiniz.Model verilerinizi özel veya genel inferences yapmak için kullanılabilir olup olmadığını doğrulamak üzere popülasyon, istatistiksel olarak adlandırılan tekniği kullanabilirsiniz Çapraz doğrulama otomatik olarak veri alt kümeleri oluşturmak ve karşı her alt küme modeli test etmek için.Daha fazla bilgi için bkz: Veri madenciliği modelleri doğrulama (- Analysis Services veri madenciliği).
Oluşturduğunuz modelleri hiçbiri Bina modeller adımı gerçekleştirmek de, işlemdeki bir önceki adıma dönmek ve sorunu yeniden tanımlamak veya özgün DataSet'teki veriyi reinvestigate gerekebilir.
Dağıtma ve modeller güncelleştiriliyor
Aşağıdaki çizimde vurgulanmış olarak veri madenciliği işleminde son adım dağıtmak en iyi bir üretim ortamı için yapılan modelleri.
Bir üretim ortamında veri madenciliği modelleri var sonra gereksinimlerinize göre birçok görevi gerçekleştirebilirsiniz.Gerçekleştirebileceğiniz görevlerden bazıları şunlardır:
Use the models to create predictions, which you can then use to make business decisions.SQL Server provides the DMX language that you can use to create prediction queries, and Prediction Query Builder to help you build the queries.Daha fazla bilgi için bkz: Veri Araştırma Uzantıları (DMX) Başvurusu.
İstatistikler, kuralları veya formülleri modelinden almak için içerik sorgu oluşturun.Daha fazla bilgi için bkz: Veri madenciliği modelleri sorgulama (- Analysis Services veri madenciliği).
Veri madenciliği işlevselliği doğrudan bir uygulama içine gömün.Çözümleme Yönetim Nesneleri (içeren ÇYN), dahil edebilirsiniz bir küme nesnelerin uygulamanızı oluşturmak için kullanabileceğiniz, alter işlemek ve araştırma yapıları ve veri madenciliği modelleri silin.Alternatif olarak, gönderme XML for Analysis (xmla) iletileri doğrudan örnekne Analysis Services. Daha fazla bilgi için bkz: Geliştirme (Analysis Services - veri madenciliği).
Use Integration Services , bir araştırma modeli için kullanılan akıllıca, birden çok tablo halinde gelen verileri ayrı bir paket oluşturmak içinÖrneğin, bir veritabanı ile Potansiyel müşterilerin sürekli olarak güncelleştirilmektedir, bir araştırma modeli ile birlikte kullanabilirsiniz Integration Services kim satın bir ürün olası müşteriler ve müşterilerin kim değil satın büyük olasılıkla gelen verileri bölmek içinürün. Daha fazla bilgi için bkz: Integration Services'ın tipik kullanımları.
Kullanıcıların doğrudan varolan bir araştırma modeli karşı sorgu olanak sağlayan bir rapor oluşturun.Daha fazla bilgi için bkz: Reporting Services Business Intelligence Development Studio (ssrs) içinde.
İnceleme ve analiz sonra modellerini güncelleyin.Herhangi bir güncelleştirmeyi modelleri yeniden işleme gerektirir.Daha fazla bilgi için bkz: Yapıları ve modeller işleme (- Analysis Services veri madenciliği).
Modeller, kuruluşa daha fazla veri gelir ve çözüm verimliliğini artırmak için sabit bir değişiklik yapmadan dağıtım stratejisinin bir parçası olmalıdır gibi dinamik olarak güncelleştirin.Daha fazla bilgi için bkz. Veri madenciliği yapıları ve modeller yönetme