Gerçek dünya verilerini inceleme

Tamamlandı

Eğitim materyallerinde sunulan veriler genellikle son derece mükemmeldir ve öğrencilere değişkenler arasında net ilişkiler bulmayı göstermek için tasarlanmıştır. "Gerçek dünya" verileri biraz daha az basittir.

"Gerçek dünya" verilerinin karmaşıklığı nedeniyle, ham verileri kullanmadan önce sorunlar için incelememiz gerekir.

Bu nedenle, en iyi yöntem ham verileri incelemek ve kullanmadan önce işlemektir; bu da hataları veya sorunları genellikle hatalı veri noktalarını kaldırarak veya verileri daha kullanışlı bir biçimde değiştirerek azaltır.

Gerçek dünya veri sorunları

Gerçek dünya verileri, verilerin yardımcı programını ve sonuçları yorumlamamızı etkileyebilecek birçok farklı sorun içerebilir.

Gerçek dünyadaki verilerin çoğunun o sırada kaydedilmemiş faktörlerden etkilendiğini fark etmek önemlidir. Örneğin, motor boyutlarının yanı sıra yarış arabası parkur sürelerini içeren bir tablomuz olabilir; ancak hava durumu gibi yazılı olmayan çeşitli faktörler de büyük olasılıkla bir rol oynadı. Sorunluysa, veri kümesinin boyutunu artırarak bu faktörlerin etkisini genellikle azaltabiliriz.

Diğer durumlarda, beklenenin dışında olan ve "aykırı değerler" olarak da bilinen veri noktaları bazen analizlerden güvenli bir şekilde kaldırılabilir, ancak gerçek içgörüler sağlayan veri noktalarını kaldırmamaya dikkat etmeliyiz.

Gerçek dünyadaki verilerde yaygın olarak karşılaşılan bir diğer sorun da sapmadır. Yanlılık, temel alınan popülasyonu veya "gerçek dünyayı" yanlış tanıtacak şekilde bazı değer türlerini diğerlerinden daha sık seçme eğilimini ifade eder. Sapmalar bazen verilerin nereden geldiği hakkında temel bilgiler göz önünde bulundurularak veriler keşfedilerek tanımlanabilir.

Gerçek dünyadaki verilerde her zaman sorunlar olacaktır, ancak veri bilimciler genellikle bu sorunların üstesinden şu şekilde gelebilir:

  • Eksik değerler ve hatalı kaydedilmiş veriler denetleniyor.
  • Belirgin aykırı değerleri kaldırmayı göz önünde bulundurarak.
  • Analizlerini etkileyebilecek gerçek dünya faktörlerinin incelenmesi ve veri kümesi boyutunun bu faktörlerin etkisini azaltacak kadar büyük olup olmadığını belirleme.
  • Taraflı ham verileri denetleme ve varsa sapmayı düzeltme seçeneklerini göz önünde bulundurma.