Nuansa serangkaian pengujian

Selesai

Serangkaian pengujian dianggap sebagai praktik terbaik untuk sebagian besar aspek pembelajaran mesin, meskipun bidangnya masih relatif baru, serta bagaimana tepatnya dan kapan sering diperdebatkan. Mari kita memeriksa beberapa hal untuk dipertimbangkan.

Serangkaian pengujian dapat menyesatkan

Meskipun serangkaian pengujian sangat membantu untuk mengidentifikasi pelatihan berlebihan, serangkaian pengujian tersebut dapat memberi kita keyakinan palsu. Secara khusus, serangkaian pengujian hanya berguna jika mencerminkan data yang kita harapkan untuk dilihat di dunia nyata. Misalnya, set pengujian kami sangat kecil, sehingga tidak akan mewakili berbagai data yang mungkin kita lihat di dunia nyata. Himpunan data pengujian juga hanya sebagus sumbernya. Jika himpunan data pengujian kami berasal dari sumber bias, metrik kami tidak akan mencerminkan bagaimana hal-hal akan bereaksi di dunia nyata.

Misalnya, kita mencoba menemukan hubungan antara jumlah penyelamatan dan usia anjing mulai berlatih. Jika serangkaian pengujian kita hanya tiga anjing, ada kemungkinan anjing-anjing ini bukan representasi yang baik dari berbagai macam anjing yang bekerja di dunia nyata. Juga, bayangkan bahwa kami mendapatkan set pengujian kami dari satu peternak yang tidak tahu cara bekerja dengan anak anjing. Model kita mungkin memprediksi anjing yang lebih tua yang terbaik untuk dilatih, dan kumpulan data pengujian kita akan mengonfirmasi hal ini, padahal sebenarnya pelatih lain mungkin memiliki kesuksesan besar dengan hewan yang lebih muda.

Serangkaian pengujian tidak gratis

Kita sudah melihat bahwa semakin banyak data pelatihan yang kita miliki, semakin kecil kemungkinan model kita akan overfit. Demikian pula, semakin besar serangkaian pengujian, semakin kita merasa dapat memercayai hasil pengujian kita. Namun, kami biasanya bekerja dengan jumlah data yang terbatas, dan titik data tidak dapat berada dalam pelatihan dan set pengujian. Artinya ketika kita mendapatkan serangkaian pengujian yang lebih besar, kita mendapatkan kumpulan data pelatihan yang lebih kecil dan sebaliknya. Persis berapa banyak data yang harus dikorbankan untuk muncul dalam himpunan data pengujian tergantung pada keadaan individual, dengan apa pun antara 10-50% yang relatif umum, tergantung pada volume data yang tersedia.

Melatih dan menguji bukan satu-satunya pendekatan

Perlu diingat bahwa pelatihan dan pengujian adalah umum, tetapi bukan satu-satunya pendekatan yang banyak digunakan. Dua alternatif yang lebih umum adalah pendekatan hold-out dan metode pendekatan statistik .

Pendekatan hold-out

Pendekatan hold-out seperti train-and-test, tetapi alih-alih membagi himpunan data menjadi dua, itu dibagi menjadi tiga: pelatihan, pengujian (juga dikenal sebagai validasi), dan hold-out. Himpunan data pelatihan dan pengujian seperti yang telah kami jelaskan sebelumnya. Himpunan data hold-out adalah jenis set pengujian yang hanya digunakan sekali, ketika kita siap untuk menyebarkan model kita untuk penggunaan dunia nyata. Dengan kata lain, itu tidak digunakan sampai kita selesai bereksperimen dengan berbagai jenis rejimen pelatihan, berbagai jenis model, dan sebagainya.

Pendekatan ini menerima fakta bahwa kita biasanya bereksperimen dengan model dan panduan pelatihan yang berbeda. Misalnya, kita cocok dengan model, menemukannya tidak berfungsi dengan baik dengan himpunan data pengujian, mengubah beberapa aspek model yang sedang dilatih, dan mencoba lagi sampai kita mendapatkan hasil yang baik. Ini berarti kita sengaja mengubah model kita agar bekerja untuk sekumpulan data tertentu, seperti yang dilakukan pelatihan normal dengan himpunan data pelatihan. Dengan melakukan ini, kita dapat berakhir dengan model yang pada dasarnya terlalu terlatih untuk bekerja pada himpunan data pengujian kita.

Ide dari himpunan data ketiga adalah bahwa kita juga dapat menguji ini. Pendekatan ini berarti membagi data dengan tiga cara, yang berarti kita mulai dengan data pelatihan yang lebih sedikit. Jika kita tidak memiliki banyak data untuk dikerjakan, pendekatan ini dapat mengurangi kemampuan kita untuk mendapatkan model yang baik.

Pendekatan statistik

Model yang lebih sederhana yang berasal dari statistik sering kali tidak memerlukan himpunan data pengujian. Sebaliknya, kita dapat menghitung derajat apa model overfit secara langsung sebagai signifikansi statistik: nilai p.

Metode statistik ini kuat, mapan, dan membentuk fondasi ilmu pengetahuan modern. Keuntungannya adalah bahwa set pelatihan tidak perlu dibagi, dan kita mendapatkan pemahaman yang jauh lebih tepat tentang seberapa percaya diri kita tentang model. Misalnya, nilai p 0,01 berarti ada kemungkinan yang sangat kecil bahwa model kita telah menemukan hubungan yang sebenarnya tidak ada di dunia nyata. Sebaliknya, nilai p 0,5 berarti bahwa meskipun model kita mungkin terlihat bagus dengan data pelatihan kita, itu tidak akan lebih baik daripada membalik koin di dunia nyata.

Kelemahan dari pendekatan ini adalah pendekatan ini hanya mudah diterapkan pada jenis model tertentu, seperti model regresi linier yang telah kita praktikkan. Untuk semuanya, kecuali model yang paling sederhana, perhitungan ini bisa sangat kompleks untuk dilakukan dengan benar, dan begitu juga di luar lingkup untuk kursus saat ini. Mereka juga menderita batasan yang sama mengenai pemilihan data; jika data pelatihan kami bias, nilai p kami akan menyesatkan.