Aracılığıyla paylaş


Veri kalitesi

Veri kalitesi, bulut ölçeğinde analizin yönetim işlevidir. Veri yönetimi giriş bölgesinde bulunur ve idarenin temel bir parçasıdır.

Veri kalitesiyle ilgili dikkat edilmesi gerekenler

Veri kalitesi, veri ürünlerini oluşturan ve tüketen her bireyin sorumluluğundadır. Oluşturucular genel ve etki alanı kurallarına uymalı, tüketiciler ise bir geri bildirim döngüsü aracılığıyla veri tutarsızlıklarını sahip olan veri etki alanına bildirmelidir.

Veri kalitesi, panoya sağlanan tüm verileri etkilediğinden, kuruluşun en üstünden başlamalıdır. Yönetim kurulu, kendilerine sağlanan verilerin kalitesiyle ilgili içgörülere sahip olmalıdır.

Ancak proaktif olmak için yine de düzeltme gerektiren veri demetlerini temizleyebilecek veri kalitesi uzmanlarına sahip olmanız gerekir. Bu çalışmayı merkezi bir ekime göndermekten kaçının ve bunun yerine verileri temizlemek için belirli veri bilgileriyle veri etki alanını hedefle.

Veri kalitesi ölçümleri

Veri kalitesi ölçümleri, veri ürünlerinizin kalitesini değerlendirmek ve artırmak için önemlidir. Küresel ve etki alanı düzeyinde kalite ölçümlerinize karar vermeniz gerekir. En azından aşağıdaki ölçümleri öneririz.

Ölçümler Ölçüm tanımları
Tamlık = null olmayanların toplamı + boş olmayanların toplamı Veri kullanılabilirliğini, veri kümesindeki boş olmayan alanları ve değiştirilen varsayılan değerleri ölçer. Örneğin, bir kayıtta doğum verileri olarak 01/01/1900 varsa, alanın hiç doldurulmamış olma olasılığı yüksektir.
Benzersizlik = Yinelenen olmayan değerlerin yüzdesi Tablodaki satır sayısıyla karşılaştırıldığında, belirli bir sütundaki ayrı değerleri ölçer. Örneğin, beş satırlı bir tabloda dört ayrı renk değeri (kırmızı, mavi, sarı ve yeşil) verildiğinde, bu alan %80 (veya 4/5) benzersizdir.
Tutarlılık = desenlere sahip verilerin yüzdesi Belirli bir sütundaki uyumluluğu beklenen veri türüne veya biçimine göre ölçer. Örneğin, biçimlendirilmiş e-posta adreslerini içeren bir e-posta alanı veya sayısal değerler içeren bir ad alanı.
Geçerlilik= başvuru eşleştirme yüzdesi Etki alanı başvuru kümesiyle başarılı veri eşleştirmesini ölçer. Örneğin, işlem kayıtları sistemindeki bir ülke/bölge alanı (taksonomi değerleriyle uyumlu) göz önünde bulundurulduğunda, "A'nın ABD'si" değeri geçerli değildir.
Doğruluk= değişmeyen değerlerin yüzdesi Hedeflenen değerlerin birden çok sistem arasında başarılı bir şekilde yeniden üretilmesini ölçer. Örneğin, bir faturada orijinal siparişten farklı bir SKU ve genişletilmiş fiyat belirtiliyorsa, fatura satırı öğesi yanlıştır.
Bağlantı = iyi tümleştirilmiş verilerin yüzdesi Başka bir sistemdeki eşlikçi başvuru ayrıntılarıyla başarılı ilişkilendirmeyi ölçer. Örneğin, bir fatura yanlış bir SKU veya ürün açıklaması listelediyse, fatura satırı öğesi bağlantılandırılamaz.

Veri profili oluşturma

Veri profili oluşturma, veri kataloğunda kayıtlı olan veri ürünlerini inceler ve bu veriler hakkındaki istatistikleri ve bilgileri toplar. Zaman içinde veri kalitesi hakkında özet ve eğilim görünümleri sağlamak için bu verileri veri ürününe göre meta veri deponuzda depolayın.

Veri profilleri, kullanıcıların aşağıdakiler dahil olmak üzere veri ürünleriyle ilgili soruları yanıtlamalarına yardımcı olur:

  • İş sorunumu çözmek için kullanılabilir mi?
  • Veriler belirli standartlara veya desenlere uygun mu?
  • Veri kaynağının anomalilerinden bazıları nelerdir?
  • Bu verileri uygulamamla tümleştirmenin olası zorlukları nelerdir?

Kullanıcılar, veri marketlerindeki bir raporlama panosunu kullanarak veri ürün profilini görüntüleyebilir.

Bu tür öğeleri şu şekilde raporlayabilirsiniz:

  • Tamlık: Boş veya null olmayan verilerin yüzdesini gösterir
  • Benzersizlik: Yinelenmemiş verilerin yüzdesini gösterir
  • Tutarlılık: Veri bütünlüğünün korunduğu verileri gösterir

Veri kalitesi önerileri

Veri kalitesini uygulamak için hem insan hem de hesaplama gücünü aşağıdaki gibi kullanmanız gerekir:

  • Algoritmalar, kurallar, veri profili oluşturma ve ölçümler içeren çözümleri kullanın.

  • İşlem katmanından geçen çok sayıda hata nedeniyle algoritmayı eğitmeye yönelik bir gereksinim olduğunda adım adım ilerleyebilen etki alanı uzmanlarını kullanın.

  • Erken doğrulayın. Geleneksel çözümler, herhangi bir veri kalitesi uygulanmadan önce verileri ayıkladı, dönüştürdü ve yükledi. Bu zamana kadar, veri ürünü zaten kullanılmakta ve hatalar aşağı akış veri ürünlerine ortaya çıkmış durumdadır. Bunun yerine, veriler kaynaktan alındıkça, kaynakların yakınında ve aşağı akış tüketicileri veri ürünlerini kullanmadan önce veri kalitesi denetimleri uygulayın. Veri gölünden toplu veri alımı varsa ham veriden zenginleştirilmişe veri taşırken bu denetimleri yapın.

    Veri alımı sırasında veri kalitesini uygulama diyagramı.

  • Veriler zenginleştirilmiş katmana taşınmadan önce, şeması ve sütunları veri kataloğunda kayıtlı meta verilerle karşılaştırılır.

  • Veriler hata içeriyorsa yük durdurulur ve veri uygulaması ekibi hatadan haberdar olur.

  • Şema ve sütun denetimleri geçerse, veriler uyumlu veri türleriyle zenginleştirilmiş katmanlara yüklenir.

  • Zenginleştirilmiş katmana geçmeden önce, veri kalitesi işlemi algoritmalara ve kurallara karşı uyumluluğu denetler.

İpucu

Veri kalitesi kurallarını hem genel hem de etki alanı düzeyinde tanımlayın. Bunu yapmak, işletmenin oluşturulan her veri ürünü için kendi standartlarını tanımlamasına ve veri etki alanlarının kendi etki alanlarıyla ilgili ek kurallar oluşturmasına olanak tanır.

Veri kalitesi çözümleri

Şubat 2022 itibarıyla Microsoft, veri kalitesi çözümü sağlamak için iş ortaklarına, açık kaynak çözümlerine ve özel çözümlere bağımlıdır. Informatica, Talend, CluedIn ve Ataccama One gibi iş ortaklarını değerlendirmeniz teşvik edilir.

Açık kaynak çözümleri için işletmeler veri işlem hatlarına Büyük Beklentiler aracını uygulamışlardır.

Veri kalitesi özeti

Veri kalitesini düzeltmek, bir işletme için ciddi sonuçlar doğurabilir. İş birimlerinin veri ürünlerini farklı şekillerde yorumlamasına yol açabilir. Bu yanlış yorum, daha düşük veri kalitesine sahip veri ürünlerine ilişkin iş temelleri kararlarına pahalıya mal olabilir. Eksik özniteliklere sahip veri ürünlerinin düzeltilmesi pahalı bir görev olabilir ve dönem sayısındaki verilerin tam olarak yeniden yüklenmesini gerektirebilir.

Veri kalitesini erken doğrulayın ve düşük veri kalitesini proaktif olarak ele almak için işlemler yerleştirin. Örneğin, bir veri ürünü belirli bir tamlık miktarı elde edene kadar üretime bırakılamaz.

Araçları ücretsiz bir seçenek olarak kullanabilirsiniz, ancak beklentiler (kurallar), veri ölçümleri, profil oluşturma ve küresel ve etki alanı tabanlı beklentileri uygulayabilmeniz için beklentilerin güvenliğini sağlama özelliğini içerdiğinden emin olun.

Sonraki adımlar