Aracılığıyla paylaş


Veri temizliği

Veri temizliği, bir veri kaynağındaki veri kalitesi analizi, el ile onaylama/öneriler sistem tarafından reddedilen ve böylece veri değişiklikleri yapma işlemidir. İçinde veri temizliği Data Quality Services(dqs) nasıl bir Bilgi Bankası bilgi veri uyan analiz eden bir bilgisayar destekli işlem içerir ve gözden geçirin ve bilgisayar destekli işlemini değiştirmek veri steward sağlayan etkileşimli bir işlem sonuçları tam olarak yapılması gereken istediğiniz veri temizliği sağlamak için.

Veri steward, veri Tümleştirme Hizmetleri paketleme sürecinde temizlik de gerçekleştirebilirsiniz. Bu durumda, veri steward kullanmak istiyorsunuz Integration Services'daki DQS Temizleme bileşeni, otomatik olarak gerçekleştirir kullanarak varolan bir Bilgi Bankası veri temizliği. Daha fazla bilgi için, bkz. dqs temizlik dönüşümü.

Veri temizleme özelliği dqs aşağıdaki faydaları vardır:

  • Eksik veya yanlış veri, veri kaynağınızdaki (Excel dosyası veya SQL Server veritabanı) tanımlayan ve düzeltir veya geçersiz veriler hakkında uyarır.

  • Verileri temizlemek için iki adımlı işlem sağlar: bilgisayar destekli ve interaktif. Bilgisayar destekli süreç bilgisi otomatik olarak veri işlem ve değişiklik ve düzeltmeleri önermek için bir dqs Bilgi Bankası'ndaki kullanır. Sonraki adım, etkileşimli, onaylama, reddetme veya bilgisayar destekli temizlik sırasında dqs tarafından önerilen değişiklikleri değiştirmek veri steward sağlar.

  • Standartlaştıran ve müşteri verilerini etki alanı değerleri, etki alanı kuralları ve başvuru veri kullanarak zenginleştirir. Örneğin, "Sokak" "Aziz" değiştirerek vadeli kullanım standartlaştırmak, veri eksik elemanları "1 Microsoft way Redmond 98006" için "1 Microsoft Way, Redmond, wa 98006" değiştirerek doldurarak zenginleştirmek.

  • Kullanıcının veri gidin ve hatalar arasında çok büyük bir veri kümesini incelemek için basit, sezgisel ve tutarlı bir sihirbaz benzeri arabirimi sağlar.

Aşağıdaki resimde veri temizliği dqs nasıl yapıldığını gösterir:

DQS'de Veri Temizleme İşlemi

Bu Konuda

  • Bilgisayar destekli temizlik

  • Etkileşimli temizlik

  • Önde gelen değer düzeltme

  • Temizlenmiş veri buluşuyor

Bilgisayar destekli temizlik

Temizlik işlemi dqs veri Bilgi Bankası temizlendiği için verileri için geçerlidir ve veri değişiklikleri önerir. Veri steward, onu ya da onu değerlendirmek ve değişiklikleri düzeltmek etkinleştirme önerilen her değişiklik erişimi vardır. Veri temizleme gerçekleştirmek için veri steward aşağıdaki gibi çalışır:

  1. Veri kalite proje oluşturma, Bilgi Bankası karşı istediğiniz analiz ve kaynak verileriniz temiz ve seçin temizliği etkinliği. Birden çok veri kalitesi projeleri aynı Bilgi Bankası kullanabilirsiniz.

  2. Veritabanı tablo/görünüm veya temizlendiği için kaynak verileri içeren bir Excel dosyasını belirtin. Veritabanı veya Excel dosyası aynı bilgi keşfi için kullanılan olabilir ya da farklı veritabanı veya Excel dosyası olabilir.

    [!NOT]

    Bilgi bulma ve temizlik faaliyetleri aynı veri kaynağına seçerseniz, verileri herhangi bir değişiklik olacak. Bilgi bulma örnek veriler üzerinde çalıştırmak ve daha sonra kaynak verileriniz karşı bilgi keşif faaliyeti sırasında inşa bilgi temiz önerilir.

  3. Uygun etki alanı/bileşik etki knowledge Base temizlendiği için veri alanları eşleştirin. Kompozit etki alanı göster, eşleme bileşik etki alanındaki tek etki alanı bileşik ile etki alanı arasındaki ve değil olur. Ayrıca, verileri eşlenmiş alan temizlik bileşik etki ve değil tek tek bileşik etki alanlarında belirtilen kurallara göre yapılır. Kompozit etki alanları hakkında daha fazla bilgi için bkz: dqs bilgi bankalarını ve etki alanları.

  4. Bilgisayar destekli Temizlik işlemi tıklayarak çalıştırın Start üzerinde temiz sayfa.

Temizlik işlemi verileri bilinen veri etki değerleri veri örneği en iyi eşleşmeyi bulur. İşlem veri kalite bilgi tüm kaynak veriler, farklı örnek verileri yüzdesi üzerinde çalışan bilgi bulma işlemi uygulanır.

Veri kalite bilgi'de bilgisayar destekli işlemi görüntüler Data Quality İstemcisietkileşimli Temizlik işlemi için kullanılacak. Sözdizimi hatası kurallarına bağlılık dışında dqs başvurusu verileri ve Gelişmiş algoritmalar kullanarak verileri kategorilere ayırmak için de kullanır güven düzeyi. dqs kesin düzeltme veya öneri için ne ölçüde güven düzeyini gösterir. Güvenirlik düzeyini aşağıdaki eşik değerlere dayanmaktadır.

  • Bir Otomatik Düzeltme eşik değeri üzerinde dqs değişiklik önermek ve yapmak o sürece veri steward reddeder. Otomatik düzeltme eşik değeri belirttiğiniz Genel ayarları sekmesinde yapılandırma ekran. Daha fazla bilgi için, bkz. Temizlik ve eşleştirme için eşik değerleri yapılandırma.

  • Bir auto-öneri eşik değer, otomatik düzeltme eşiğin üzerinde dqs bir değişiklik önermek ve veri steward onaylarsa yapmak. Otomatik öneri eşik değeri belirttiğiniz Genel ayarları sekmesinde yapılandırma ekran. Daha fazla bilgi için, bkz. Temizlik ve eşleştirme için eşik değerleri yapılandırma.

Bir güven düzeyi otomatik öneri eşik değerin altında olan herhangi bir değer bir değişiklik veri steward belirtmediği sürece dqs tarafından olduğu gibi bırakılır.

Başa Dön bağlantısıyla kullanılan ok simgesi[Top]

Etkileşimli temizlik

Bilgisayar destekli Temizlik işlemi dayalı, dqs veri steward verileri değiştirme hakkında bir karar vermek için gereksinim duydukları bilgileri sağlar. dqs verileri aşağıdaki beş sekme altında sınıflandırılır:

  • Önerilen: bir güven düzeyi daha yüksek olan önerileri bulunan hangi dqs değerleri auto-öneri eşik ama daha düşük değer Otomatik Düzeltme eşik değer. Bu değerler, inceleme ve onaylama veya reddetme uygun olarak.

  • Yeni: hangi dqs (öneri) yeterli bilgiye sahip değildir ve bu nedenle başka bir sekmeye eşleştirilemez geçerli değerleri. Ayrıca, bu sekme Ayrıca güven düzeyine sahip değerleri içeren daha az auto-öneri eşik değer olarak geçerli işaretlenmesi, ancak yeterince yüksek.

  • Geçersiz: etki alanındaki Bilgi Bankası ya da başarısız bir etki alanı kural ya da başvuru veri değerleri geçersiz işaretlenen değerleri. Bu sekme ayrıca etkileşimli Temizlik işlemi sırasında diğer dört sekmeden herhangi bir kullanıcı tarafından reddedilen değerler içerir.

  • Düzeltilmiş: otomatik temizlik sırasında dqs tarafından giderilen değerler işlemek dqs yukarıdaki güven düzeyiyle değeri için bir düzeltme bulundu Otomatik Düzeltme eşik değer. Bu sekme ayrıca değerler için belirtilen kullanıcı doğru bir değer içerecek Doğru için etkileşimli temizlik sırasında sütun ve radyo düğmesini tıklatarak onaylı onaylama diğer dört sekmeden herhangi bir sütun.

  • Doğru: değerleri doğru bulunmadı. Örneğin, bir etki alanı değeri değeri eşleştirdi. Gerekirse, bu sekmenin altındaki değerleri reddetme veya alternatif bir sözcüğü belirterek dqs temizlik kılabilirsiniz Doğru için sütun ve radyo düğmesini tıklatarak kabul sütun. Bu sekme Ayrıca radyo düğmesini tıklatarak etkileşimli temizlik sırasında kullanıcı tarafından onaylanan değerlerini içerecek onaylama sütununda Yeni veya Geçersiz sekmesi.

[!NOT]

İçinde Önerilen, Corrected, ve doğru sekmeleri, bir etki alanının önde gelen değeri dqs görüntüler de varsa, Doğru için sütun karşı etki alanı değeri.

Veri steward kullanır Data Quality İstemcisidqs önerdi değişiklikleri görmek ve bunları uygulamak ya da değil karar. O dqs-has designated as doğru vardır aslında değerleri düzeltmek olduğunu doğrulayabilirsiniz. O zaten yüksek güven düzeyiyle, dqs tarafından yapılan değişiklikler yapılması gerektiğini doğrulayabilir. O auto-önerilen değişiklikleri onaylamak karar verebilirsiniz. Ve adil-dibi takdirde bir değişiklik yapmak istedikleri o değiştirilmedi, değerleri inceleyebilirsiniz bilgisayar destekli işlem tarafından bulunamadı.

dqs veri steward temizlik bilgisayar destekli veri sonuçları ile yaptığı değişiklikleri birleştirir. Bu değişiklikler, proje ile kalır; Ancak, onlar için Bilgi Bankası eklenmez. Veri temizliği sırasında ilişkili Bilgi Bankası, salt okunurdur.

Temizlik işlemi verileri tamamlandığında, işlenen verileri SQL Server veritabanı, .csv dosyası veya Excel dosyası yeni bir tablo vermek seçebilirsiniz. Kaynak veriler üzerinde temizlik yapılır, orijinal haliyle korunur. Veri steward ayrı temizlenmiş verileri gerçek kaynak verileri düzeltmek için kullanabilirsiniz.

Aşağıdaki çizimde veri temizliği nasıl yapılır görüntüler kullanarak Data Quality İstemcisiUygulama:

Data Quality İstemcisi'nde Veri Temizleme

Başa Dön bağlantısıyla kullanılan ok simgesi[Top]

Önde gelen değer düzeltme

Değer düzeltme lider eşanlamlıları sahip etki değerleri için geçerlidir ve kullanıcı eş değer değeri tutarlı gösterimi yerine diğer önde gelen değeri olarak kullanmak istiyor. Örneğin, "New York", "nyc" ve "büyük elma" eş anlamlı olan ve kullanıcı "New York" yerine "nyc" ve "Büyük elma" önde gelen değeri olarak kullanmak istiyor. dqs önde gelen değer düzeltme size verilerinizi standartlaştırmak için Temizlik işlemi sırasında destekler. Yalnızca etki alanı etkinleştirilirse oluşturulduğu için aynı zaman önde gelen değer düzeltme yapılır. Eğer sürece değeri düzeltme'önde gelen tüm etki alanları varsayılan olarak etkin Önde gelen değerleri kullanma kutuyu etki alanı oluşturulurken. Bu onay kutusu hakkında daha fazla bilgi için bkz: Etki alanı özelliklerini ayarlama.

Başa Dön bağlantısıyla kullanılan ok simgesi[Top]

Temizlenmiş veri buluşuyor

Etki alanları için tanımlanan çıktı biçimini temel alan standartlaştırılmış biçimde temizlenmiş verileri dışa aktarmayı seçebilirsiniz. Bir etki alanı oluştururken, veri alanındaki çıkış olduğunda uygulanacak biçimlendirmeyi seçebilirsiniz. Çıkış biçimleri için bir etki alanı belirtme hakkında daha fazla bilgi için bkz: Formatında çıktı listelemek Etki alanı özelliklerini ayarlama.

Tarih temizlenmiş veri verilirken Ver sayfa seçerek standartlaştırılmış biçimde verilmesine temizlenmiş veri isteyip istemediğinizi belirttiğiniz temizlik veri kalite proje sihirbazında Standartlaştırmak çıktı onay kutusunu. Varsayılan olarak, temizlenmiş verileri standart formatına dışa aktarılır, yani onay kutusu seçilidir. Temizlenmiş veri verme hakkında daha fazla bilgi için bkz: dqs (iç) bilgi kullanarak veri temiz.

Başa Dön bağlantısıyla kullanılan ok simgesi[Top]

ilişkili Görevler

Görev Açıklaması

Konu

Temizlik etkinliği için eşik değerlerinin nasıl yapılandırılacağını açıklar.

Temizlik ve eşleştirme için eşik değerleri yapılandırma

Bilgi dqs içinde inşa kullanarak veri temiz açıklar.

dqs (iç) bilgi kullanarak veri temiz

Başvuru veri hizmeti bilgisinden kullanarak veri temiz açıklar.

Başvuru veri (dış) bilgi kullanarak veri temiz

Bileşik bir etki temiz açıklar.

Bileşik bir etki alanındaki veri temiz

Ayrıca bkz.

Kavramlar

Veri kalitesi projeleri (dqs)

Veri eşleştirme