Fungsi biaya vs metrik evaluasi

Selesai

Dalam beberapa unit terakhir, kita telah mulai melihat pemisahan dalam fungsi biaya, yang mengajarkan model, dan metrik evaluasi, yaitu bagaimana kita menilai model itu sendiri.

Semua fungsi biaya dapat menjadi metrik evaluasi

Semua fungsi biaya dapat menjadi metrik evaluasi, meskipun belum tentu intuitif. Kehilangan log, misalnya: nilai tidak intuitif.

Beberapa metrik evaluasi tidak boleh berupa fungsi biaya

  • Sulit bagi beberapa metrik evaluasi untuk menjadi fungsi biaya
  • Hal ini disebabkan oleh kendala praktis dan matematika
  • Terkadang hal-hal tidak mudah dihitung (misalnya, "bagaimana doggy sesuatu")
  • Fungsi biaya idealnya lancar. Misalnya, akurasi berguna, tetapi jika kita sedikit mengubah model kita, itu tidak akan menyadarinya. Mengingat bahwa pas adalah prosedur dengan banyak perubahan kecil, ini memberikan kesan bahwa perubahan tidak akan menyebabkan peningkatan.
  • Grafik fungsi biaya dengan banyak bit datar
  • Pembaruan pada kurva ROC dari sebelumnya. Ini membutuhkan perubahan ambang batas pada semua jenis nilai tetapi di akhir hari, model hanya akan memiliki satu (0,5)

Plot of cost against value of model parameter A.

Tidak semuanya buruk!

Memang kita bisa frustasi jika kita tidak dapat menemukan metrik favorit sebagai fungsi biaya. Namun, ada yang terbalik, yang terkait dengan fakta semua metrik adalah penyederhanaan dari apa yang ingin kita capai; tidak ada yang sempurna. Apa artinya ini adalah bahwa model kompleks sering "curang": mereka menemukan cara untuk mendapatkan biaya rendah tanpa benar-benar menemukan aturan umum yang menyelesaikan masalah kita. Memiliki metrik yang tidak bertindak sebagai fungsi biaya memberi kita "pemeriksaan kewarasan" bahwa model belum menemukan cara untuk menipu. Jika kita tahu model mengambil jalan pintas, kita dapat mempertimbangkan kembali strategi pelatihan kita.

Kami telah melihat "kecurangan" ini beberapa kali sekarang. Misalnya, ketika model sangat overfit data pelatihan, model pada dasarnya "menghafal" jawaban yang benar daripada menemukan aturan umum yang dapat kita terapkan dengan sukses ke data lain. Kami menggunakan himpunan data pengujian sebagai "pemeriksaan kewarasan" kami untuk menilai apakah model belum hanya melakukan ini. Kami juga telah melihat bahwa dengan data yang tidak seimbang, model terkadang hanya dapat belajar untuk selalu memberikan respons yang sama (seperti "false") tanpa melihat fitur, karena rata-rata ini benar dan memberikan kesalahan kecil.

Model kompleks juga menemukan jalan pintas dengan cara lain. Model kompleks terkadang terlalu cocok dengan fungsi biaya itu sendiri. Misalnya, bayangkan kita mencoba membangun model yang dapat menggambar anjing. Kita memiliki fungsi biaya yang memeriksa bahwa gambar berwarna coklat, menunjukkan tekstur berbulu, dan berisi objek tentang ukuran yang tepat. Dengan fungsi biaya ini, model kompleks dapat belajar membuat bola bulu coklat, bukan karena terlihat seperti anjing, tetapi karena memberikan biaya rendah dan mudah dibuat. Jika kita memiliki metrik eksternal yang menghitung jumlah kaki dan kepala (yang tidak dapat dengan mudah digunakan sebagai fungsi biaya karena metrik ini tidak lancar) kita akan melihat dengan cepat jika model kita curang, dan memikirkan kembali bagaimana kita melatihnya. Sebaliknya, jika metrik alternatif menghasilkan skor dengan baik, kita dapat meyakini bahwa model telah memahami gagasan tentang seperti apa tampilan anjing, bukan hanya menipu fungsi biaya untuk mendapatkan nilai rendah.