Himpunan data pengujian dan pelatihan

Selesai

Data yang kita gunakan untuk melatih model sering disebut himpunan data pelatihan. Kita sudah melihat cara kerjanya. Frustrasinya, ketika kita menggunakan model di dunia nyata, setelah pelatihan kita tidak tahu pasti seberapa baik model kita akan bekerja. Ketidakpastian ini karena ada kemungkinan himpunan data pelatihan kita berbeda dengan data di dunia nyata.

Apa itu overfitting?

Model overfit jika berfungsi lebih baik pada data pelatihan daripada pada data lain. Nama ini mengacu pada fakta bahwa model telah sangat cocok sehingga menghafal detail set pelatihan daripada menemukan aturan luas yang akan berlaku untuk data lain. Overfitting adalah umum, tetapi tidak diinginkan. Pada akhirnya, kita hanya peduli seberapa baik fungsi model kita di data dunia nyata.

Bagaimana kita bisa menghindari overfitting?

Kita dapat menghindari overfitting beberapa cara. Cara paling sederhana adalah dengan memiliki model yang lebih sederhana, atau menggunakan himpunan data yang merupakan representasi yang lebih baik dari apa yang terlihat di dunia nyata. Untuk memahami metode ini, pertimbangkan skenario yang data dunia nyatanya terlihat seperti:

Diagram showing a plot graph of dog height and rescues.

Katakanlah kita mengumpulkan informasi tentang hanya lima anjing, dan menggunakannya sebagai himpunan data pelatihan kita agar sesuai dengan garis yang kompleks. Jika kita bisa melakukannya, kita bisa sangat cocok:

Diagram showing a complex line graph using only five dogs height and rescue information.

Namun, ketika ini digunakan di dunia nyata, kita akan menemukan prediksi yang ternyata salah:

Diagram showing real-world vs training data in a graph of dog height and rescues.

Jika kita memiliki himpunan data yang lebih representatif dan model yang lebih sederhana, garis yang cocok ternyata membuat prediksi yang lebih baik (meskipun tidak sempurna):

Diagram showing a representative dog height and rescue graph using real world and training data.

Cara gratis yang dapat kita hindari overfitting adalah menghentikan pelatihan setelah model mempelajari aturan umum, tetapi sebelum model overfit. Ini membutuhkan deteksi ketika kita mulai memfitnah model kita secara berlebihan. Kita dapat melakukan ini menggunakan himpunan data pengujian.

Apa itu himpunan data pengujian?

Himpunan data pengujian, juga disebut himpunan data validasi, adalah sekumpulan data yang mirip dengan himpunan data pelatihan. Bahkan, himpunan data pengujian biasanya dibuat dengan mengambil himpunan data besar dan memisahkannya. Satu bagian disebut himpunan data pelatihan, dan bagian lainnya disebut himpunan data pengujian.

Pekerjaan himpunan data pelatihan adalah melatih model; Kita sudah melihat pelatihan. Tugas himpunan data pengujian adalah memeriksa seberapa baik model bekerja; itu tidak berkontribusi pada pelatihan secara langsung.

Oke, tetapi apa intinya?

Titik himpunan data pengujian adalah dua kali lipat.

Pertama, jika performa pengujian berhenti meningkat selama pelatihan, kita dapat berhenti; tidak ada gunanya melanjutkan. Jika kita melanjutkan, kita akhirnya dapat mendorong model untuk mempelajari detail tentang himpunan data pelatihan yang tidak ada dalam himpunan data pengujian, yaitu overfitting.

Kedua, kita dapat menggunakan himpunan data pengujian setelah pelatihan. Ini memberi kita indikasi seberapa baik model akhir akan bekerja ketika melihat data "dunia nyata" yang belum pernah dilihat sebelumnya.

Apa artinya itu untuk fungsi biaya?

Ketika kita menggunakan himpunan data pelatihan dan pengujian, kita akhirnya menghitung dua fungsi biaya.

Fungsi biaya pertama adalah menggunakan himpunan data pelatihan, seperti yang pernah kita lihat sebelumnya. Fungsi biaya ini disalurkan ke pengoptimal dan digunakan untuk melatih model.

Fungsi biaya kedua dihitung menggunakan himpunan data pengujian. Kami menggunakan ini untuk memeriksa seberapa baik model mungkin bekerja di dunia nyata. Hasil dari fungsi biaya tidak digunakan untuk melatih model. Untuk menghitung ini, kita menjeda pelatihan, melihat seberapa baik performa model pada himpunan data pengujian, lalu melanjutkan pelatihan.