Aracılığıyla paylaş


Veri Kalitesi

Veri kalitesi, bulut ölçeğinde analizin yönetim işlevidir. Veri yönetimi giriş bölgesinde bulunur ve idarenin temel bir parçasıdır.

Veri kalitesiyle ilgili dikkat edilmesi gerekenler

Veri kalitesi, veri ürünleri oluşturan ve kullanan her bireyin sorumluluğundadır. Oluşturucular genel ve etki alanı kurallarına bağlı kalmalı, tüketicilerin ise veri tutarsızlıklarını bir geri bildirim döngüsü aracılığıyla sahip olan veri etki alanına bildirmesi gerekir.

Veri kalitesi, panoya sağlanan tüm verileri etkilediğinden, kuruluşun en üstünden başlamalıdır. Kurul, kendilerine sağlanan verilerin kalitesi hakkında içgörülere sahip olmalıdır.

Ancak proaktif olmak için yine de düzeltme gerektiren veri demetlerini temizleyebilecek veri kalitesi uzmanlarına sahip olmanız gerekir. Bu işi merkezi bir ekibe göndermekten kaçının ve bunun yerine, belirli veri bilgisine sahip kişilerin veri etki alanını hedef alarak verileri temizlemelerini sağlayın.

Veri kalitesi ölçümleri

Veri kalitesi ölçümleri, veri ürünlerinizin kalitesini değerlendirmek ve artırmak için önemlidir. Küresel ve etki alanı düzeyinde kalite ölçümlerinize karar vermeniz gerekir. En azından aşağıdaki ölçümleri öneririz:

Ölçümler Ölçüm Tanımları
Tamlık = null olmayanlar + boş olmayanların toplamı Veri kullanılabilirliğini, veri kümesindeki boş olmayan alanları ve değiştirilen varsayılan değerleri ölçer. Örneğin, bir kayıt doğum tarihi olarak 01.01.1900'i içeriyorsa, alanın hiç doldurulmama olasılığı yüksektir.
Benzersizlik = yinelenen olmayan değerlerin yüzdesi Tablodaki satır sayısıyla karşılaştırıldığında, belirli bir sütundaki ayrı değerleri ölçer. Örneğin, beş satırlı bir tabloda dört ayrı renk değeri (kırmızı, mavi, sarı ve yeşil) verildiğinde, bu alan %80 (veya 4/5) benzersizdir.
Tutarlılık = desenlere sahip verilerin yüzdesi Belirli bir sütundaki uyumluluğu beklenen veri türüne veya biçimine göre ölçer. Örneğin, biçimlendirilmiş e-posta adreslerini içeren bir e-posta alanı veya sayısal değerler içeren bir ad alanı.
Geçerlilik = referans eşleştirmenin % Etki alanı başvuru kümesiyle eşleşen başarılı verileri ölçer. Örneğin, işlem kayıtları sistemindeki bir ülke/bölge alanı (taksonomi değerleriyle uyumlu) göz önünde bulundurulduğunda, "ABD of A" değeri geçerli değildir.
Doğruluk = değiştirilmemiş değerlerin % Hedeflenen değerlerin birden çok sistemde başarılı bir şekilde çoğaltılması için ölçümler. Örneğin, bir faturada özgün siparişten farklı bir SKU ve genişletilmiş fiyat belirtiliyorsa, fatura satırı öğesi yanlıştır.
Bağlantı = iyi tümleştirilmiş verilerin yüzdesi Başka bir sistemdeki eşlikçi başvuru ayrıntılarıyla başarılı ilişkilendirmeyi ölçer. Örneğin, bir fatura yanlış bir SKU veya ürün açıklaması listelediyse, fatura satırı öğesi bağlantılandırılamaz.

Veri profili oluşturma

Veri profili oluşturma, veri kataloğuna kayıtlı olan veri ürünlerini inceler ve bu veriler hakkındaki istatistikleri ve bilgileri toplar. Zaman içinde veri kalitesi hakkında özet ve eğilim görünümleri sağlamak için bu verileri veri ürününe karşı meta veri deponuzda depolayın.

Veri profilleri, kullanıcıların aşağıdakiler dahil olmak üzere veri ürünleriyle ilgili soruları yanıtlamalarına yardımcı olur:

  • İş sorunumu çözmek için kullanılabilir mi?
  • Veriler belirli standartlara veya desenlere uygun mu?
  • Veri kaynağının anomalilerinden bazıları nelerdir?
  • Bu verileri uygulamamla tümleştirmenin olası zorlukları nelerdir?

Kullanıcılar, veri marketlerinde bir raporlama panosu kullanarak veri ürün profilini görüntüleyebilir.

Bu tür öğelere şu şekilde rapor vekleyebilirsiniz:

  • Tamlık: Boş veya null olmayan veri yüzdesini gösterir.
  • Benzersizlik: Yinelenmemiş verilerin yüzdesini gösterir.
  • Tutarlılık: Veri bütünlüğünün korunduğu verileri gösterir.

Veri kalitesi önerileri

Veri kalitesini uygulamak için hem insan gücünü hem de hesaplama gücünü aşağıdaki gibi kullanmanız gerekir:

  • Algoritmalar, kurallar, veri profili oluşturma ve ölçümler içeren çözümleri kullanın.

  • İşlem katmanından geçen çok sayıda hata nedeniyle bir algoritmayı eğitmek gerektiğinde devreye giren etki alanı uzmanlarını kullanın.

  • Erken doğrulayın. Geleneksel çözümler verileri ayıkladıktan, dönüştürdükten ve yükledikten sonra veri kalitesi denetimleri uygular. Bu zamana kadar, veri ürünü zaten tüketiliyor ve hatalar aşağı akış veri ürünlerine karşı ortaya çıkar. Bunun yerine, veriler kaynaktan alındıkça, kaynakların yakınında ve aşağı akış tüketicileri veri ürünlerini kullanmadan önce veri kalitesi denetimleri uygulayın. Veri gölünden toplu veri alımı varsa ham verilerden zenginleştirilmiş verilere taşıdığınızda bu denetimleri yapın.

    Veri alımı sırasında veri kalitesini uygulama diyagramı.

  • Veriler zenginleştirilmiş katmana taşınmadan önce, şema ve sütunları veri kataloğunda kayıtlı meta veriler için denetleniyor.

  • Veriler hata içeriyorsa yük durdurulur ve veri uygulaması ekibine hata bildirilir.

  • Şema ve sütun denetimleri geçerse, veriler uyumlu veri türleriyle zenginleştirilmiş katmanlara yüklenir.

  • Zenginleştirilmiş katmana geçmeden önce, veri kalitesi işlemi algoritmalara ve kurallara karşı uyumluluğu denetler.

İpucu

Veri kalitesi kurallarını hem genel hem de etki alanı düzeyinde tanımlayın. Bunu yapmak, işletmenin oluşturulan her veri ürünü için standartlarını tanımlamasına olanak tanır ve veri etki alanlarının kendi etki alanlarıyla ilgili ek kurallar oluşturmasına olanak tanır.

Veri kalitesi çözümleri

Güvenilir yapay zeka odaklı içgörüler ve karar alma için kritik önem taşıyan veri kalitesini değerlendirmek ve yönetmek için çözüm olarak Microsoft Purview Veri Kalitesi değerlendirmenizi öneririz. İçerik:

  • Kod yok/düşük kod kuralları: İlk çalıştırma, yapay zeka tarafından oluşturulan kuralları kullanarak veri kalitesini değerlendirin.
  • Yapay zeka destekli veri profili oluşturma: Profil oluşturma için sütunlar önerir ve iyileştirme için insan müdahalesine izin verir.
  • Veri kalitesi puanlaması: Veri varlıkları, veri ürünleri ve idare etki alanları için puanlar sağlar.
  • Veri kalitesi uyarıları: Veri sahiplerine kalite sorunlarını bildirir.

Daha fazla bilgi için bkz . Veri Kalitesi nedir?

Kuruluşunuz verileri işlemek için Azure Databricks'i uygulamaya karar verirse, bu çözümün sunduğu veri kalitesi denetimlerini, test etme, izleme ve zorlamayı değerlendirmeniz gerekir. Beklentilerin kullanılması, veri kalitesi sorunlarını ilgili alt veri ürünlerini etkilemeden önce alma sırasında yakalayabilir. Daha fazla bilgi için bkz. Databricks ile veri kalitesi standartları oluşturma ve Veri Kalitesi Yönetimi.

Veri kalitesi çözümü için iş ortakları, açık kaynak ve özel seçenekler arasından da seçim yapabilirsiniz.

Veri kalitesi özeti

Veri kalitesini düzeltmek, bir işletme için ciddi sonuçlar doğurabilir. Bu, iş birimlerinin veri ürünlerini farklı şekillerde yorumlamasına neden olabilir. Kararlar daha düşük veri kalitesine sahip veri ürünlerine dayalıysa, bu yanlış yorum işletmeye pahalıya mal olabilir. Eksik özniteliklere sahip veri ürünlerinin düzeltilmesi pahalı bir görev olabilir ve birkaç dönemden itibaren verilerin tam olarak yeniden yüklenmesini gerektirebilir.

Veri kalitesini erken doğrulayın ve düşük veri kalitesini proaktif olarak ele almak için süreçleri devreye alın. Örneğin, bir veri ürünü belirli bir tamlığa ulaşana kadar üretime bırakılamaz.

Araçları ücretsiz bir seçenek olarak kullanabilirsiniz, ancak bunun beklentileri (kurallar), veri ölçümlerini, profil oluşturmayı ve küresel ve etki alanı tabanlı beklentileri uygulayabilmeniz için beklentilerin güvenliğini sağlama özelliğini içerdiğinden emin olun.

Sonraki adımlar