Veri kümelerinizi anlama

Makine öğrenmesi modelleri, eğitim verilerinde yakalanan geçmiş kararlardan ve eylemlerden "öğrenir". Sonuç olarak, gerçek dünya senaryolarındaki performansları eğitildikleri verilerden büyük ölçüde etkilenir. Bir veri kümesindeki özellik dağıtımı dengesiz olduğunda, modelin düşük temsil edilen bir gruba ait veri noktalarını yanlış tahmin etmesine veya uygunsuz bir ölçüm boyunca iyileştirilmesine neden olabilir.

Örneğin, bir model ev fiyatlarını tahmin etmek için bir yapay zeka sistemini eğitirken, eğitim kümesi ortanca fiyatlardan daha az olan yeni evlerin yüzde 75'ini temsil ediyor. Sonuç olarak, daha pahalı tarihi evlerin başarıyla tanımlanmasında çok daha az doğruydu. Düzeltme, eğitim verilerine eski ve pahalı evler eklemek ve özellikleri geçmiş değer hakkında içgörüler içerecek şekilde artırmaktı. Bu veri artırma, sonuçları geliştirdi.

Sorumlu yapay zeka panosunun veri analizi bileşeni, tahmin edilen ve gerçek sonuçlara, hata gruplarına ve belirli özelliklere göre veri kümelerini görselleştirmeye yardımcı olur. Fazla temsil ve yetersiz temsil sorunlarını belirlemenize ve verilerin veri kümesinde nasıl kümelendiğini görmenize yardımcı olur. Veri görselleştirmeleri toplu çizimlerden veya tek tek veri noktalarından oluşur.

Veri analizi ne zaman kullanılır?

Aşağıdakiler gerektiğinde veri analizini kullanın:

  • Verilerinizi farklı boyutlara (kohort olarak da bilinir) dilimleyen farklı filtreler seçerek veri kümesi istatistiklerinizi keşfedin.
  • Veri kümenizin farklı kohortlar ve özellik grupları arasında dağılımını anlayın.
  • Eşitlik, hata analizi ve nedensellik (diğer pano bileşenlerinden türetilen) ile ilgili bulgularınızın veri kümenizin dağılımının bir sonucu olup olmadığını belirleyin.
  • Gösterim sorunları, etiket kirliliği, özellik kirliliği, etiket yanlılığı ve benzer faktörlerden kaynaklanan hataları azaltmak için hangi alanlarda daha fazla veri toplayabileceğinize karar verin.

Sonraki adımlar