Membandingkan dan mengoptimalkan kurva ROC

Selesai

Kurva karakteristik operator penerima (ROC) memungkinkan kita membandingkan model satu sama lain dan menyetel model yang kita pilih. Mari kita bahas bagaimana dan mengapa ini dilakukan.

Menyetel model

Penggunaan yang paling jelas untuk kurva ROC adalah memilih ambang keputusan yang memberikan performa terbaik. Ingat bahwa model kita memberikan probabilitas, seperti 65% peluang bahwa sampel adalah pendaki. Ambang keputusan adalah titik di atas yang sampelnya ditetapkan benar (pendaki) atau di bawahnya yang ditetapkan false (pohon). Jika ambang keputusan kami adalah 50%, maka 65% akan ditetapkan ke "true" (pendaki). Namun, jika ambang keputusan kami adalah 70%, kemungkinan 65% akan terlalu kecil, dan ditetapkan ke "false" (pohon).

Kita telah melihat dalam latihan sebelumnya bahwa ketika kita membuat kurva ROC, kita hanya mengubah ambang keputusan dan menilai seberapa baik model bekerja. Ketika kita melakukan ini, kita dapat menemukan ambang yang memberikan hasil yang optimal.

Biasanya tidak ada satu ambang pun yang memberikan tingkat positif benar (TPR) terbaik dan tingkat positif palsu (FPR) yang lebih rendah. Ini berarti bahwa ambang batas optimal tergantung pada apa yang anda coba capai. Misalnya, dalam skenario kami, sangat penting untuk memiliki tingkat positif sejati yang tinggi, karena jika pendaki tidak diidentifikasi dan longsoran salju terjadi, tim tidak akan tahu untuk menyelamatkan mereka. Namun, ada trade-off: jika tingkat positif palsu terlalu tinggi, maka tim penyelamat mungkin berulang kali dikirim untuk menyelamatkan orang-orang yang tidak ada. Dalam situasi lain, tingkat positif palsu dianggap lebih penting. Misalnya, sains memiliki toleransi yang rendah untuk hasil positif palsu. Jika tingkat positif palsu eksperimen ilmiah lebih tinggi, akan ada banyak klaim kontradiktif, dan tidak mungkin untuk memahami apa yang nyata.

Membandingkan model dengan AUC

Anda dapat menggunakan kurva ROC untuk membandingkan model satu sama lain, seperti yang Anda bisa dengan fungsi biaya. Kurva ROC untuk model menunjukkan seberapa baik itu akan bekerja untuk berbagai ambang keputusan. Pada akhir hari, yang paling penting dalam model adalah bagaimana performanya di dunia nyata, di mana hanya ada satu ambang keputusan. Mengapa kemudian kita ingin membandingkan model menggunakan ambang batas yang tidak akan pernah kita gunakan? Ada dua jawaban untuk ini.

Pertama, membandingkan kurva ROC dengan cara tertentu seperti melakukan pengujian statistik yang memberi tahu kita tidak hanya satu model tersebut yang berperforma lebih baik pada serangkaian pengujian khusus ini, tetapi apakah model tersebut cenderung terus berperforma lebih baik nantinya. Ini di luar cakupan materi pembelajaran ini, tetapi perlu untuk diingat.

Kedua, kurva ROC menunjukkan, sampai tingkat tertentu, seberapa bergantung model tersebut untuk memiliki ambang yang sempurna. Misalnya, jika model kita hanya berfungsi dengan baik ketika kita memiliki ambang keputusan 0,9, tetapi sangat di atas atau di bawah nilai ini, itu bukan desain yang baik. Kita mungkin lebih suka bekerja dengan model yang bekerja cukup baik untuk berbagai ambang batas, mengetahui bahwa jika data dunia nyata yang kita temui sedikit berbeda dengan set pengujian kita, performa model kita tidak akan selalu runtuh.

Bagaimana cara membandingkan ROC?

Cara termudah untuk membandingkan ROC secara numerik adalah menggunakan area di bawah kurva (AUC). Secara harfiah, ini adalah area grafik yang berada di bawah kurva. Misalnya, model sempurna kita dari latihan terakhir memiliki AUC 1:

Diagram showing a receiver operator characteristic curve graph using area under the curve.

Sementara model kami yang tidak lebih baik daripada kemungkinan memiliki area sekitar 0,5:

Diagram showing a receiver operator characteristic curve graph with area under the curve at a sharp angle.

Semakin sempurna model, semakin besar area ini. Jika kita memiliki model dengan AUC besar, kita tahu model bekerja dengan baik untuk berbagai ambang, dan jadi, model mungkin memiliki arsitektur yang baik dan sudah dilatih dengan baik. Sebaliknya, model dengan AUC kecil (lebih dekat ke 0,5) tidak berfungsi dengan baik.