Aracılığıyla paylaş


Veri kümelerinizi anlama

Makine öğrenmesi modelleri, eğitim verilerinde yakalanan geçmiş kararlardan ve eylemlerden "öğrenir". Sonuç olarak, gerçek dünya senaryolarındaki performansları eğitilen verilerden büyük ölçüde etkilenir. Bir veri kümesindeki özellik dağıtımı çarpıtıldığında, modelin düşük temsil edilen bir gruba ait veri noktalarını yanlış tahmin etmesine veya uygunsuz bir ölçüm boyunca iyileştirilmesine neden olabilir.

Örneğin, bir model ev fiyatlarını tahmin etmek için bir yapay zeka sistemini eğitirken, eğitim kümesi ortanca fiyatlardan daha az olan yeni evlerin yüzde 75'ini temsil ediyor. Sonuç olarak, daha pahalı tarihi evlerin başarıyla tanımlanması çok daha az doğruydu. Düzeltme, eğitim verilerine eski ve pahalı evler eklemek ve geçmiş değer hakkında içgörüler içerecek şekilde özellikleri artırmaktı. Bu veri artırma iyileştirilmiş sonuçlar.

Sorumlu yapay zeka panosunun veri analizi bileşeni, veri kümelerini tahmin edilen ve gerçek sonuçlara, hata gruplarına ve belirli özelliklere göre görselleştirmeye yardımcı olur. Fazla temsil ve yetersiz tanıtma sorunlarını belirlemenize ve verilerin veri kümesinde nasıl kümelendiğini görmenize yardımcı olur. Veri görselleştirmeleri toplu çizimlerden veya tek tek veri noktalarından oluşur.

Veri analizi ne zaman kullanılır?

Aşağıdaki durumlarda veri analizini kullanın:

  • Verilerinizi farklı boyutlara (kohort olarak da bilinir) dilimleyen farklı filtreler seçerek veri kümesi istatistiklerinizi keşfedin.
  • Veri kümenizin farklı kohortlar ve özellik grupları arasında dağılımını anlayın.
  • Eşitlik, hata analizi ve nedensellik (diğer pano bileşenlerinden türetilen) ile ilgili bulgularınızın veri kümenizin dağılımından kaynaklanıp kaynaklanmadığını belirleyin.
  • Gösterim sorunları, etiket kirliliği, özellik kirliliği, etiket yanlılığı ve benzer faktörlerden kaynaklanan hataları azaltmak için hangi alanlarda daha fazla veri toplayacağınız konusunda karar verin.

Sonraki adımlar