Apa yang dimaksud dengan model klasifikasi?

Selesai

Model klasifikasi digunakan untuk membuat keputusan atau menetapkan item ke dalam kategori. Tidak seperti modul regresi, yang menghasilkan angka kontinu, seperti tinggi atau berat, model klasifikasi menghasilkan Boolean—benar atau salah—atau keputusan kategoris, seperti 'apel', 'pisang', atau 'ceri'.

Ada banyak jenis model klasifikasi. Beberapa berfungsi mirip dengan model regresi klasik, sementara yang lain secara fundamental berbeda. Salah satu model terbaik untuk dipelajari pada awalnya disebut regresi logistik.

Apa yang dimaksud dengan regresi logistik?

Regresi logistik adalah jenis model klasifikasi yang berfungsi mirip dengan regresi linier. Perbedaan antara regresi ini dan linier adalah bentuk kurva. Meskipun regresi linear sederhana cocok dengan garis lurus ke data, model regresi logistik pas dengan kurva berbentuk s:

diagram showing a logistic regression example graph.

Regresi logistik lebih baik untuk memperkirakan hasil Boolean daripada regresi linier karena kurva logistik selalu menghasilkan nilai antara 0 (salah) dan 1 (benar). Apa pun di antara dua nilai ini dapat dianggap sebagai probabilitas.

Misalnya, kita mencoba memprediksi apakah longsoran salju mungkin terjadi hari ini. Jika model regresi logistik kami memberi kami nilai 0,3, maka diperkirakan ada 30% kemungkinan longsor.

Mengonversi output menjadi kategori

Karena regresi logistik memberi probabilitas ini, daripada nilai benar/salah yang sederhana, kami perlu mengambil langkah ekstra untuk mengonversi hasilnya ke kategori. Cara paling sederhana untuk melakukan konversi ini adalah dengan menerapkan ambang batas. Misalnya, dalam grafik berikut, ambang batas kita diatur ke 0,5. Ambang ini berarti bahwa nilai y di bawah 0,5 dikonversi ke false—kotak kiri bawah—dan nilai apa pun di atas 0,5 dikonversi ke true—kotak atas kanan.

diagram showing a logistic function graph.

Melihat grafik, kita dapat melihat bahwa ketika fitur di bawah 5, probabilitasnya kurang dari 0,5 dan dikonversi menjadi false. Nilai fitur di atas 5, berikan probabilitas lebih dari 0,5 dan dikonversi ke true.

Perlu diketahui bahwa regresi logistik tidak harus terbatas pada hasil benar/salah – ini juga dapat digunakan jika ada tiga atau lebih hasil potensial, seperti 'hujan', 'salju', atau 'cerah'. Jenis hasil ini membutuhkan pengaturan yang sedikit lebih kompleks, yang disebut regresi logistik multinomial. Meskipun kami tidak mempraktikkan regresi logistik multinomial selama beberapa latihan berikutnya, ada baiknya mempertimbangkan dalam situasi di mana Anda perlu membuat prediksi yang bukan biner.

Perlu juga dicatat bahwa regresi logistik dapat menggunakan lebih dari satu fitur input: lebih banyak lagi pada kasus ini segera.