İyi, kötü ve eksik veriler

Tamamlandı

Verilerin makine öğrenmesini şekillendirmesi, makine öğrenmesine tahmin gücü verir. Yan etki olarak, yalnızca az miktarda veri üzerinde eğitilen modeller gerçek dünyada nadiren iyi performans gösterir, çünkü az miktarda veri genellikle iyi gerçek dünya temsilleri işlevi görmez. Örneğin, dünyanın herhangi bir yerinden seçilen rastgele seçilmiş dört kişi, dünya üzerindeki ortalama kişiyi güvenilir bir şekilde temsil etmez. Buna karşılık, 1 milyar kişi seçersek verilerimiz büyük olasılıkla temsili hale gelir.

Ancak, diğer faktörlerin de önemi vardır. Büyük ve temsili veri örneklerine ihtiyacımız var.

  • Sıfır hata var
  • Tüm anahtar bilgilerini içerir

Titanik veri kümemizi içeren pratik bir alıştırmaya geçmeden önce bu endişeleri burada ele alacağız.

'Temsilci' - Bu ne anlama geliyor?

İstatistikçiler, kullanılabilir veri kaynaklarının analizlerine ve çalışmalarına gerçekten yardımcı olup olmadığını belirlemek için popülasyonlar ve örnekler olmak üzere iki temel kavramdan yararlanmaktadır.

Bir popülasyona, başka bir deyişle, akla gelebilecek her veri noktasına odaklanıyoruz. Titanik senaryomuz için, uçaktaki herkes için hangi faktörlerin hayatta kalmasına yol açtığını bilmek istiyoruz. Bu, resmi kayıtlarda listelenmeyen stowaways'leri içerir. İkinci bir örnek olarak, kişilik özellikleri ile bir geminin batma olasılığı arasındaki ilişkiyi araştırmak için, popülasyonumuz şimdiye kadar yaşamış tüm gemi kaptanlarını kapsar.

Örnek, toplam popülasyonun bir alt kümesi olarak kullanabileceğimiz verileri ifade eder. Titanic veri kümemiz için bu örnek yalnızca resmi yolcu listesinde listelenen kişileri kapsar. İkinci örneğimizde örnek, yerel marinamızda kişilik testi yapmaya ikna edebildiğimiz tüm gemi kaptanlarını kapsayabilir.

Örneğin popülasyonu doğru bir şekilde temsil edip etmediğini düşünmemiz gerekir. Titanik örneğimiz için örneğimiz o kadar büyük ki büyük olasılıkla popülasyonun iyi bir temsili olarak hizmet ediyor. Buna karşılık, ikinci örneğimizde, yerel marinamızda yalnızca gemi kaptanlarıyla yapılan konuşmalar büyük olasılıkla dünya genelinde bulabileceğimiz denizcilerin iyi bir çapraz bölümünü sunmaz. Yerel marinamızdan alınan veriler, yerel kaptanlar için iyi çalışan bir model oluşturabilir, ancak diğer ülkelerden/bölgelerden gelen kaptanları anlamamıza yardımcı olmaz.

Veri hatası nedir?

'Veri hataları' terimi yanlış verileri ifade eder. Modelin tutarlı olarak yanlış tahminlerde bulunması için yeterli veri hatası modelde dengesizlik oluşturabilir. Bu basit bir işlemdir: Hatalı veriler eklerseniz, kötü tahminler alırsınız.

Verilerdeki hatalar hayatın bir gerçeğidir ve bunları iki kategoride gruplandırabiliriz:

'Ölçüm hataları' terimi, veri toplama aşamasında düşük kaliteli ölçümlere sahip verileri ifade eder. Bu hatalar genellikle hafiftir ve ortadan kaldırılması zor veya imkansızdır.

'Veri girişi hataları' terimi, doğru bir şekilde toplanan verileri ifade eder, ancak daha sonra elektronik tabloya veya veri yönetimi kaynağına yanlış veya yanlış yerleştirilmiştir. Bazen, ölçüm hatalarını tespit etmekten daha kolay bir şekilde veri girişi hatalarını tespit edebiliriz. Örneğin, birini 1,8 metre yüksekliğinde ölçebilir, ancak ondalık basamakları atlayıp 18 metre yazabiliriz. Ağaç boyutunda bir kişi gerçekçi olmadığından hatayı kolayca görebiliriz.

Tam veriler nedir?

Tam bir veri kümesinde eksik veri yok. Eksik verilerin iki türü vardır. Bu veriler Dylan, Reece ve Tom'un boyunu ve ağırlığını gösterir:

Veri Akışı Adı Yükseklik (m) Weight (kg)
Fatih 1.8 75
Reece Kategori 82

Eksik bir örnek nedeniyle veriler eksik: Tom. Ayrıca Reece verileri Reece'in yüksekliğini göstermez.

İdeal olarak, her zaman tam verilerle çalışırız, ancak her zaman kullanabileceğimiz eksiksiz veriler yoktur. Eksik veriler için şunları yapabilirsiniz:

  • Tamamlanmamış verilerle çalışabilecek bir model seçin veya
  • Eksik verileri olan örnekleri (satırları) kaldırın ve kalan verilerle çalışın veya
  • Eksik verilerin yerine makul değerleri yapay olarak ekleyin

Çoğu zaman, eksik verileri işleyebilen bir model seçmek en iyi sonucu vermektedir ancak bu her zaman mümkün değildir. Eksik verilerin kaldırılması en kolay yaklaşımdır ve genellikle işe yarar. Ancak, verilerin kaldırılmasının bir örneğin popülasyonu yanlış tanıtmasına neden olmaması için dikkatli olmamız gerekir. Yapay olarak veri eklemek genellikle son çare yöntemidir.

Sonraki ünitede, tamamlanmamış verileri tanımlamak ve düzeltme eki uygulamak için Titanic veri kümemizle çalışacağız.