Özet

Tamamlandı

Çok fazla yer kapladik. Şimdi bazı önemli iletileri gözden geçirelim.

Veriler nedir?

Veriler çeşitli kavramsal kategorilere ayrılır. En yaygın olanı şunlardır:

  • sürekli veriler (sayılar),
  • siparişi olmayan kategorik veriler,
  • sayı veya sıralı kategoriler olarak ele alınabilen sıralı veriler.

Bilgisayarlar verileri farklı türler olarak depolar ve genellikle veri türünü belirli veri türleriyle eşleştirmeye çalışırız. Örneğin, sürekli verileri depolamak için kayan noktalı sayılar en iyi şekilde çalışır çünkü kayan noktalı sayılar kesirlerin depolanmasına izin verir. Buna karşılık, kategorik veriler genellikle dizeler (metin) olarak gelir ve bilgisayarın bunları düzgün anlaması için tek etkin vektörlere dönüştürülmelidir.

İyi bir veri kümesi yapan nedir?

Bir veri kümesinin şu durumlarda yararlı olduğunu öğrendik:

  • ilgili bilgileri içerir,
  • tamamlandıysa,
  • popülasyonun iyi bir temsilidir (gerçek dünya).

Eksik verilerle ilgilenmemiz gerekiyorsa, eksik verilerin önemli sorunlara neden olmadığından emin olmak için adımlar atabiliriz. Bunu yaparken, verilerin artık temsili olmamasını sağlayacak değişiklikler gibi yeni sorunların kullanıma sunulmasından kaçınmamız gerekir.

Verileri düşünme

Veri görselleştirmenin bir modelde nelerin yararlı olabileceğini anlamak için nasıl yardımcı olabileceğini gösterdik. Farklı grafik türlerinin, renklerin vb. kullanımı eğlenceli olabilir ve karmaşık bilgileri çok daha sezgisel hale getirebilirsiniz.

Verilerimizi anlamanın modellerimiz hakkında daha iyi kararlar almamıza olanak sağlayacağını öğrendik. Son alıştırmada, Titanic'teki kabin sayısını keşfettikçe modelimizi geliştirdik ve bu bilgilerin bize nasıl yardımcı olduğunu değerlendirdik. Ancak genel olarak bunu basitleştirme yoluyla dokuz Deck etiketine dönüştürebileceğimizi bulduk.