Aracılığıyla paylaş


Veri Temizleme

Şunlar için geçerlidir: SQL Server

Önemli

Sql Server 2025'te (17.x) Veri Kalitesi Hizmetleri (DQS) kaldırılmıştır . SQL Server 2022 (16.x) ve önceki sürümlerde DQS'yi desteklemeye devam ediyoruz.

Veri temizleme, bir veri kaynağındaki verilerin kalitesini analiz etme, önerileri sistem tarafından el ile onaylama/reddetme ve böylece verilerde değişiklik yapma işlemidir. Veri Kalitesi Hizmetleri'nde (DQS) veri temizleme, verilerin bir bilgi bankasındaki bilgilere nasıl uyduğunu analiz eden bilgisayar destekli bir işlem ve veri temizleme işleminin tam olarak yapmak istedikleri gibi olmasını sağlamak için veri temsilcisinin bilgisayar destekli işlem sonuçlarını gözden geçirmesine ve değiştirmesine olanak tanıyan etkileşimli bir işlem içerir.

Veri temsilcisi, Integration Services paketleme işleminde veri temizleme de gerçekleştirebilir. Bu durumda veri temsilcisi, mevcut bir bilgi bankasını kullanarak veri temizlemeyi otomatik olarak gerçekleştiren Integration Services'daki DQS Temizleme bileşenini kullanır. Daha fazla bilgi için bkz. DQS Temizleme Dönüşümü.

DQS'deki veri temizleme özelliği aşağıdaki avantajlara sahiptir:

  • Veri kaynağınızdaki eksik veya yanlış verileri (Excel dosyası veya SQL Server veritabanı) tanımlar ve ardından geçersiz veriler hakkında sizi düzeltir veya uyarır.

  • Verileri temizlemek için iki adımlı işlem sağlar: bilgisayar destekli ve etkileşimli. Bilgisayar destekli işlem, verileri otomatik olarak işlemek ve değiştirme/düzeltme önermek için DQS bilgi bankasındaki bilgileri kullanır. Sonraki adım olan etkileşimli, veri temsilcisinin bilgisayar destekli temizleme sırasında DQS tarafından önerilen değişiklikleri onaylamasına, reddetmesine veya değiştirmesine olanak tanır.

  • Etki alanı değerlerini, etki alanı kurallarını ve başvuru verilerini kullanarak müşteri verilerini standartlaştırır ve zenginleştirir. Örneğin, "St." değerini "Street" olarak değiştirerek terim kullanımını standart hale getirmek, "1 Microsoft way Redmond 98006" değerini "1 Microsoft Way, Redmond, WA 98006" olarak değiştirerek eksik öğeleri doldurarak verileri zenginleştirin.

  • Çok büyük bir veri kümesi arasında verilerde gezinmek ve hataları incelemek için kullanıcıya basit, sezgisel ve tutarlı bir sihirbaz benzeri arabirim sağlar.

Aşağıdaki çizimde DQS'de veri temizlemenin nasıl yapıldığı gösterilmektedir:

DQS'de Veri Temizleme İşlemi

Bilgisayar Destekli Temizleme

DQS veri temizleme işlemi, bilgi bankasını temizlenecek verilere uygular ve verilerde değişiklikler önerir. Veri temsilcisi, önerilen her değişikliğe erişebilir ve bu sayede değişiklikleri değerlendirip düzeltebilirsiniz. Veri temizleme gerçekleştirmek için veri temsilcisi aşağıdaki gibi devam eder:

  1. Veri kalitesi projesi oluşturun, kaynak verilerinizi analiz etmek ve temizlemek istediğiniz bir bilgi bankası seçin ve Temizleme etkinliğini seçin. Birden çok veri kalitesi projesi aynı bilgi bankasını kullanabilir.

  2. Temizlenecek kaynak verileri içeren veritabanı tablosunu/görünümünü veya Excel dosyasını belirtin. Veritabanı veya Excel dosyası, bilgi bulma için kullanılan dosyayla aynı olabileceği gibi, farklı bir veritabanı veya Excel dosyası da olabilir.

    Not

    Bilgi bulma ve temizleme etkinlikleri için aynı veri kaynağını seçerseniz verilerde hiçbir değişiklik olmaz. Örnek veriler üzerinde bilgi bulma çalıştırmanız ve daha sonra kaynak verilerinizi bilgi bulma etkinliği sırasında oluşturulan bilgilere göre temizlemeniz önerilir.

  3. Temizlenecek veri alanlarını bilgi bankasındaki uygun etki alanları/bileşik etki alanlarıyla eşleyin. Bir alanı bileşik etki alanına eşlerseniz, eşleme bileşik etki alanındaki tek tek etki alanlarıyla değil, alan ile bileşik etki alanı arasında gerçekleşir. Ayrıca, eşlenen alan için veri temizleme işlemi bileşik etki alanındaki tek tek etki alanları için değil bileşik etki alanı için belirtilen kurallara göre yapılır. Bileşik etki alanları hakkında daha fazla bilgi için bkz. DQS Bilgi Bankaları ve Etki Alanları.

  4. Temizleme sayfasında Başlat'e tıklayarak bilgisayar destekli temizleme işlemini çalıştırın.

Veri temizleme işlemi, bir veri örneğinin bilinen veri etki alanı değerleriyle en iyi eşleşmesini bulur. Bu işlem, örnek verilerin bir yüzdesi üzerinde çalışan bilgi bulma işleminden farklı olarak tüm kaynak verilere veri kalitesi bilgisi uygular.

Bilgisayar destekli işlem, etkileşimli temizleme işlemi için kullanılacak Veri Kalitesi İstemcisi'nde veri kalitesi bilgilerini görüntüler. DQS, söz dizimi hata kurallarına bağlı kalmanın dışında başvuru verilerini ve gelişmiş algoritmaları kullanarakgüvenilirlik düzeyini kullanarak verileri kategorilere ayırır. Güvenilirlik düzeyi, düzeltme veya öneri için DQS'nin kesinliğini gösterir. Güvenilirlik düzeyi aşağıdaki eşik değerlerini temel alır:

  • üzerinde bir otomatik düzeltme eşiği değeri vardır ki, DQS bu eşik üzerinde bir değişikliği önerir ve veri temsilcisi bunu reddetmezse gerçekleştirir. Otomatik düzeltme eşiği değerini, Yapılandırma ekranındaki Genel Ayarlar sekmesinde belirtebilirsiniz. Daha fazla bilgi için bkz. Temizleme ve Eşleştirmeiçin Eşik Değerlerini Yapılandırma .

  • otomatik öneri eşiği, otomatik düzeltme eşiğinin altında kalan ve DQS'nin değişiklik önereceği değeridir; veri temsilcisi onaylarsa değişiklik gerçekleştirilir. Otomatik öneri eşiği değerini, Yapılandırma ekranındaki Genel Ayarlar sekmesinde belirtebilirsiniz. Daha fazla bilgi için bkz. Temizleme ve Eşleştirmeiçin Eşik Değerlerini Yapılandırma .

Otomatik öneri eşik değerinin altında güvenilirlik düzeyine sahip olan tüm değerler, veri temsilcisi bir değişiklik belirtmediği sürece DQS tarafından olduğu gibi bırakılır.

Etkileşimli Temizleme

Bilgisayar destekli temizleme işlemine bağlı olarak DQS, veri temsilcisine verileri değiştirme konusunda karar vermesi için gereken bilgileri sağlar. DQS, verileri aşağıdaki beş sekme altında kategorilere ayırır:

  • Önerilen: DQS'nin, otomatik öneri eşiği değerinden daha yüksek ancak otomatik düzeltme eşiği değerinden düşük öneriler bulduğu değerler. Bu değerleri gözden geçirmeli ve uygun şekilde onaylamalı veya reddetmelisiniz.

  • Yeni: DQS'nin yeterli bilgiye (öneri) sahip olmadığı ve bu nedenle başka bir sekmeyle eşlenemediği geçerli değerler. Ayrıca bu sekme, otomatik öneri eşiği değerinden daha düşük güvenilirlik düzeyine sahip ancak geçerli olarak işaretlenecek kadar yüksek değerler de içerir.

  • Geçersiz: Bilgi bankasındaki etki alanında geçersiz olarak işaretlenmiş değerler veya bir etki alanı kuralı veya başvuru verisinde başarısız olan değerler. Bu sekme, etkileşimli temizleme işlemi sırasında diğer dört sekmeden herhangi birinde kullanıcı tarafından reddedilen değerleri de içerir.

  • Düzeltildi: DQS otomatik temizleme işlemi sırasında güven düzeyi otomatik düzeltme eşiği değerinin üzerinde olan bir düzeltme bularak düzelttiği değerler. Bu sekme ayrıca kullanıcının etkileşimli temizleme sırasında Doğru sütununda doğru bir değer belirttiği ve ardından diğer dört sekmeden herhangi birinde Onayla sütunundaki radyo düğmesine tıklayarak onayladığı değerleri içerir.

  • Doğru: Doğru bulunan değerler. Örneğin, değer bir etki alanı değeriyle eşleşmiş. Gerekirse, bu sekmenin altındaki değerleri reddederek veya Doğru Kıl sütununda alternatif bir sözcük belirleyerek ve ardından Kabul Et sütunundaki radyo düğmesine tıklayarak DQS temizlemeyi geçersiz kılabilirsiniz. Bu sekme, yeni veya Geçersiz sekmesindeki Onayla sütunundaki radyo düğmesine tıklayarak etkileşimli temizleme sırasında kullanıcı tarafından onaylanan değerler de içerir.

Not

önerilenDüzeltildive Doğru sekmelerini DQS, etki alanının öndeki değerini varsa, Doğru sütununda ilgili etki alanı değerine göre görüntüler.

Veri temsilcisi, DQS'nin önerdiği değişiklikleri görmek ve bunların uygulanıp uygulanmayacağına karar vermek için Veri Kalitesi İstemcisi'ni kullanır. DQS'nin doğru olarak belirlediği değerlerin aslında doğru olduğunu doğrulayabilirler. DQS tarafından yapılan değişikliklerin yüksek güvenilirlik düzeyiyle yapılması gerektiğini doğrulayabilirler. İşlemci, otomatik olarak önerilen değişiklikleri onaylamaya karar verebilir. Ayrıca, bilgisayar destekli işlem tarafından bulunmayan bir değişiklik yapmak istemeleri durumunda değiştirilmemiş değerleri gözden geçirebilirler.

DQS, veri temsilcisinin yaptığı tüm değişiklikleri bilgisayar destekli veri temizlemenin sonuçlarıyla birleştirir. Bu değişiklikler projede kalacak; ancak, bilgi bankasına eklenmez. Veri temizleme sırasında ilişkili bilgi tabanı salt okunurdur.

Veri temizleme işlemi tamamlandığında, işlenen verileri SQL Server veritabanında, .csv dosyasında veya Excel dosyasındaki yeni bir tabloya dışarı aktarmayı seçebilirsiniz. Temizlemenin gerçekleştirildiği kaynak veriler özgün durumunda tutulur. Veri temsilcisi, gerçek kaynak verileri düzeltmek için ayrı temizlenmiş verileri kullanabilir.

Aşağıdaki çizimde Veri Kalitesi İstemcisi uygulaması kullanılarak veri temizlemenin nasıl yapıldığı gösterilmektedir:

Veri Kalitesi İstemcisinde Veri Temizleme

Baştaki Değer Düzeltmesi

Baştaki değer düzeltmesi, eş anlamlıları olan etki alanı değerleri için geçerlidir ve kullanıcı, değerin tutarlı gösterimi için diğerleri yerine eş anlamlı değerlerden birini öndeki değer olarak kullanmak ister. Örneğin, "New York", "NYC" ve "büyük elma" eş anlamlıdır ve kullanıcı "NYC" ve "Big Apple" yerine "New York" değerini önde gelen değer olarak kullanmak ister. DQS, verilerinizi standartlaştırmanıza yardımcı olmak için temizleme işlemi sırasında önde gelen değer düzeltmesini destekler. Baştaki değer düzeltmesi yalnızca etki alanı oluşturulduğunda aynı şekilde etkinleştirildiyse yapılır. Varsayılan olarak, etki alanı oluştururken Baştaki Değerleri Kullan onay kutusunu temizlemediğiniz sürece tüm etki alanları öndeki değer düzeltmesi için etkinleştirilir. Bu onay kutusu hakkında daha fazla bilgi için bkz. Etki Alanı Özelliklerini Ayarlama.

Temizlenen Verileri Standartlaştırma

Temizlenen verilerin etki alanları için tanımlanan çıkış biçimine göre standartlaştırılmış biçimde dışarı aktarılıp dışarı aktarılmayacağını seçebilirsiniz. Etki alanı oluştururken, etki alanındaki veri değerleri çıktılandığında uygulanacak biçimlendirmeyi seçebilirsiniz. Etki alanı için çıkış biçimlerini belirtme hakkında daha fazla bilgi için, etki alanı özelliklerini ayarlamaÇıktıyı Olarak Biçimlendir listesine bakın.

Veri temizleme kalite projesi sihirbazının Dışarı Aktar sayfasından temizlenmiş verileri dışarı aktarırken, Çıktı Standartlaştır onay kutusunu seçerek verilerin standartlaştırılmış biçimde dışarı aktarılmasını isteyip istemediğinizi belirtirsiniz. Varsayılan olarak, temizlenen veriler standart biçimde dışarı aktarılır; yani onay kutusu seçilidir. Temizlenen verileri dışarı aktarma hakkında daha fazla bilgi için bkz. DQS Kullanarak Verileri Temizleme (İç) Bilgi.

Görev Açıklaması Konu
Temizleme etkinliği için eşik değerlerinin nasıl yapılandırıldığı açıklanır. Temizleme ve Eşleştirme için Eşik Değerlerini Yapılandırma
DQS'de yerleşik olarak bulunan bilgileri kullanarak verilerin nasıl temizleneceğini açıklar. DQS (dahili) bilgisi kullanılarak verileri temizleme
Başvuru veri hizmetindeki bilgileri kullanarak verilerin nasıl temiz yapılacağını açıklar. Referans Verilerini Kullanarak Veri Temizleme Dış Bilgi
Bileşik alan adının nasıl temizleneceğini açıklar. Bileşik Alanda Verileri Temizle

Ayrıca Bkz.

Veri Kalitesi Projeleri (DQS)
Veri Eşleştirme