Mengevaluasi model ML.NET Anda dengan metrik
Pahami metrik yang digunakan untuk mengevaluasi model ML.NET.
Metrik evaluasi khusus untuk jenis tugas pembelajaran mesin yang dilakukan model.
Misalnya, untuk tugas klasifikasi, model dievaluasi dengan mengukur seberapa baik kategori yang diprediksi cocok dengan kategori aktual. Dan untuk pengklusteran, evaluasi didasarkan pada seberapa dekat item terkluster satu sama lain, dan berapa banyak pemisahan yang ada di antara kluster.
Metrik evaluasi untuk Klasifikasi Biner
Metrik | Deskripsi | Mencari |
---|---|---|
Akurasi | Akurasi adalah proporsi prediksi yang benar dengan himpunan data pengujian. Ini adalah rasio jumlah prediksi yang benar dengan jumlah total sampel input. Ini berfungsi dengan baik jika ada jumlah sampel serupa milik setiap kelas. | Semakin dekat ke 1.00, semakin baik. Tetapi tepat 1.00 menunjukkan masalah (umumnya: label/kebocoran target, terlalu pas, atau pengujian dengan data pelatihan). Ketika data pengujian tidak seimbang (di mana sebagian besar instans termasuk dalam salah satu kelas), himpunan data kecil, atau skor mendekati 0,00 atau 1,00, maka akurasi tidak benar-benar menangkap efektivitas pengklasifikasi dan Anda perlu memeriksa metrik tambahan. |
AUC | aucROC atau Area di bawah kurva mengukur area di bawah kurva yang dibuat dengan menyapu tingkat positif sejati vs. tingkat positif palsu. | Semakin dekat ke 1.00, semakin baik. Seharusnya lebih besar dari 0,50 agar model dapat diterima. Model dengan AUC 0,50 atau kurang tidak berharga. |
AUCPR | aucPR atau Area di bawah kurva kurva Presisi-Pengenalan: Ukuran prediksi yang berguna ketika kelas tidak seimbang (himpunan data yang sangat condong). | Semakin dekat ke 1.00, semakin baik. Skor tinggi mendekati 1,00 menunjukkan bahwa pengklasifikasi mengembalikan hasil yang akurat (presisi tinggi), dan mengembalikan sebagian besar dari semua hasil positif (pengenalan tinggi). |
Skor F1 | Skor F1 juga dikenal sebagai F-score seimbang atau F-measure. Ini adalah rata-rata harmonis dari presisi dan pengenalan. Skor F1 sangat membantu ketika Anda ingin mencari keseimbangan antara Presisi dan Pengenalan. | Semakin dekat ke 1.00, semakin baik. Skor F1 mencapai nilai terbaiknya pada 1,00 dan skor terburuk di 0,00. Ini memberi tahu Anda betapa tepatnya penggollong Anda. |
Untuk detail lebih lanjut tentang metrik klasifikasi biner, baca artikel berikut:
- Akurasi, Presisi, Pengenalan, atau F1?
- Kelas Metrik Klasifikasi Biner
- Hubungan Antara Kurva Presisi-Pengenalan dan ROC
Metrik evaluasi untuk Klasifikasi Multi-kelas dan klasifikasi teks
Metrik | Deskripsi | Mencari |
---|---|---|
Akurasi Mikro | Akurasi rata-rata mikro mengagregasi kontribusi semua kelas untuk menghitung metrik rata-rata. Ini adalah sebagian kecil dari instans yang diprediksi dengan benar. Rata-rata mikro tidak memperhitungkan keanggotaan kelas. Pada dasarnya, setiap pasangan kelas sampel berkontribusi sama pada metrik akurasi. | Semakin dekat ke 1.00, semakin baik. Dalam tugas klasifikasi multi-kelas, akurasi mikro lebih disukai daripada akurasi makro jika Anda menduga mungkin ada ketidakseimbangan kelas (yaitu Anda mungkin memiliki lebih banyak contoh satu kelas daripada kelas lainnya). |
Akurasi Makro | Akurasi rata-rata makro adalah akurasi rata-rata di tingkat kelas. Akurasi untuk setiap kelas dihitung dan akurasi makro adalah rata-rata akurasi ini. Pada dasarnya, setiap kelas berkontribusi sama pada metrik akurasi. Kelas minoritas diberikan bobot yang sama dengan kelas yang lebih besar. Metrik rata-rata makro memberikan bobot yang sama untuk setiap kelas, tidak peduli berapa banyak instans dari kelas tersebut yang dikandung himpunan data. | Semakin dekat ke 1.00, semakin baik. Ini menghitung metrik secara independen untuk setiap kelas dan kemudian mengambil rata-rata (karenanya memperlakukan semua kelas secara merata) |
Kehilangan log | Kehilangan logaritmik mengukur performa model klasifikasi di mana input prediksi adalah nilai probabilitas antara 0,00 dan 1,00. Kehilangan log meningkat saat probabilitas yang diprediksi berbeda dari label aktual. | Semakin dekat ke 0,00, semakin baik. Model yang sempurna akan kehilangan log 0,00. Tujuan dari model pembelajaran mesin kami adalah untuk meminimalkan nilai ini. |
Pengurangan Log-Loss | Pengurangan kerugian logaritma dapat ditafsirkan sebagai keuntungan pengklasifikasi atas prediksi acak. | Berkisar dari -inf dan 1,00, di mana 1,00 adalah prediksi sempurna dan 0,00 menunjukkan prediksi rata-rata. Misalnya, jika nilainya sama dengan 0,20, nilai dapat ditafsirkan sebagai "probabilitas prediksi yang benar adalah 20% lebih baik daripada tebakan acak" |
Akurasi mikro umumnya lebih selaras dengan kebutuhan bisnis prediksi ML. Jika Anda ingin memilih satu metrik untuk memilih kualitas tugas klasifikasi multikelas, biasanya harus akurasi mikro.
Misalnya, untuk tugas klasifikasi tiket dukungan: (memetakan tiket masuk ke tim dukungan)
- Akurasi mikro—seberapa sering tiket masuk diklasifikasikan ke tim yang tepat?
- Akurasi makro—untuk tim rata-rata, seberapa sering tiket masuk benar untuk tim mereka?
Akurasi makro membebani tim kecil dalam contoh ini; tim kecil yang hanya mendapatkan 10 tiket per tahun dihitung sebanyak tim besar dengan tiket 10k per tahun. Akurasi mikro dalam hal ini berkorelasi lebih baik dengan kebutuhan bisnis, "berapa banyak waktu/uang yang dapat dihemat perusahaan dengan mengotomatiskan proses perutean tiket saya".
Untuk detail lebih lanjut tentang metrik klasifikasi multi-kelas, baca artikel berikut:
- Mikro dan Makro-rata Presisi, Pengenalan, dan F-Score
- Klasifikasi Multikelas dengan Himpunan Data yang Tidak Seimbang
Metrik evaluasi untuk Regresi dan Rekomendasi
Baik tugas regresi maupun rekomendasi memprediksi angka. Dalam kasus regresi, jumlahnya dapat menjadi properti output apa pun yang dipengaruhi oleh properti input. Untuk rekomendasi, angka biasanya merupakan nilai peringkat (antara 1 dan 5 misalnya), atau rekomendasi ya/tidak (masing-masing diwakili oleh 1 dan 0).
Metrik | Deskripsi | Mencari |
---|---|---|
R-Kuadrat | R-kuadrat (R2), atau Koefisien penentuan mewakili kekuatan prediktif model sebagai nilai antara -inf dan 1,00. 1,00 berarti ada kecocokan yang sempurna, dan kecocokan bisa sangat buruk sehingga skornya bisa negatif. Skor 0,00 berarti model menebak nilai yang diharapkan untuk label. Nilai R2 negatif menunjukkan kecocokan tidak mengikuti tren data dan model berkinerja lebih buruk daripada tebakan acak. Ini hanya dimungkinkan dengan model regresi non-linier atau regresi linier yang dibatasi. R2 mengukur seberapa dekat nilai data pengujian aktual dengan nilai yang diprediksi. | Semakin dekat ke 1,00, kualitas yang lebih baik. Namun, terkadang nilai R-kuadrat rendah (seperti 0,50) dapat sepenuhnya normal atau cukup baik untuk skenario Anda dan nilai R-kuadrat tinggi tidak selalu baik dan mencurigakan. |
Absolute-loss | Absolute-loss atau Mean absolute error (MAE) mengukur seberapa dekat prediksi dengan hasil aktual. Ini adalah rata-rata semua kesalahan model, di mana kesalahan model adalah jarak absolut antara nilai label yang diprediksi dan nilai label yang benar. Kesalahan prediksi ini dihitung untuk setiap catatan himpunan data pengujian. Terakhir, nilai rata-rata dihitung untuk semua kesalahan absolut yang direkam. | Semakin dekat ke 0,00, semakin baik kualitasnya. Kesalahan absolut rata-rata menggunakan skala yang sama dengan data yang diukur (tidak dinormalisasi ke rentang tertentu). Absolute-loss, Squared-loss, dan RMS-loss hanya dapat digunakan untuk membuat perbandingan antara model untuk himpunan data atau himpunan data yang sama dengan distribusi nilai label yang sama. |
Kehilangan kuadrat | Squared-loss atau Mean Squared Error (MSE), juga disebut Mean Squared Deviation (MSD), memberi tahu Anda seberapa dekat garis regresi dengan sekumpulan nilai data pengujian dengan mengambil jarak dari titik ke garis regresi (jarak ini adalah kesalahan E) dan menyamakannya. Squaring memberikan lebih banyak beban untuk perbedaan yang lebih besar. | Nilainya selalu non-negatif, dan nilai yang lebih dekat ke 0,00 lebih baik. Tergantung pada data Anda, mungkin tidak mungkin untuk mendapatkan nilai yang sangat kecil untuk kesalahan kuadrat rata-rata. |
RMS-loss | RMS-loss atau Root Mean Squared Error (RMSE) (juga disebut Root Mean Square Deviation, RMSD), mengukur perbedaan antara nilai yang diprediksi oleh model dan nilai yang diamati dari lingkungan yang sedang dimodelkan. RMS-loss adalah akar kuadrat dari Squared-loss dan memiliki unit yang sama dengan label, mirip dengan absolute-loss meskipun memberikan lebih banyak berat untuk perbedaan yang lebih besar. Kesalahan kuadrat rata-rata akar umumnya digunakan dalam analisis klimatologi, prakiraan, dan regresi untuk memverifikasi hasil eksperimental. | Nilainya selalu non-negatif, dan nilai yang lebih dekat ke 0,00 lebih baik. RMSD adalah ukuran akurasi, untuk membandingkan kesalahan prakiraan model yang berbeda untuk himpunan data tertentu dan bukan antar himpunan data, karena bergantung pada skala. |
Untuk detail lebih lanjut tentang metrik regresi, baca artikel berikut:
- Analisis Regresi: Bagaimana Cara Menafsirkan R-kuadrat dan Menilai Kebaikan yang Sesuai?
- Cara Menafsirkan R-kuadrat dalam Analisis Regresi
- Definisi R-Kuadrat
- Koefisien Penentuan dan Asumsi Model Regresi Linier
- Definisi Kesalahan Kuadrat Rata-rata
- Apa itu Kesalahan Kuadrat Rata-Rata dan Kesalahan Kuadrat Rata-Rata Akar?
Metrik evaluasi untuk Pengklusteran
Metrik | Deskripsi | Mencari |
---|---|---|
Jarak Rata-rata | Rata-rata jarak antara titik data dan pusat kluster yang ditetapkan. Jarak rata-rata adalah ukuran kedekatan titik data dengan sentroid kluster. Ini adalah ukuran seberapa ketat kluster. | Nilai yang lebih dekat dengan 0 lebih baik. Semakin dekat ke nol jarak rata-rata, semakin banyak data yang diklusterkan. Namun, perhatikan bahwa metrik ini akan berkurang jika jumlah kluster ditingkatkan, dan dalam kasus ekstrem (di mana setiap titik data yang berbeda adalah klusternya sendiri) itu akan sama dengan nol. |
Indeks Bouldin Davies | Rasio rata-rata jarak dalam kluster ke jarak antar-kluster. Semakin ketat kluster, dan semakin jauh bagian dari kluster, semakin rendah nilai ini. | Nilai yang lebih dekat dengan 0 lebih baik. Kluster yang lebih jauh dan kurang tersebar akan menghasilkan skor yang lebih baik. |
Informasi Timah yang Dinormalisasi | Dapat digunakan ketika data pelatihan yang digunakan untuk melatih model pengklusteran juga dilengkapi dengan label kebenaran dasar (yaitu, pengklusteran yang diawasi). Metrik Informasi Timah yang Dinormalisasi mengukur apakah poin data serupa ditetapkan ke kluster yang sama dan titik data yang berbeda ditetapkan ke kluster yang berbeda. Informasi bersama yang dinormalisasi adalah nilai antara 0 dan 1. | Nilai yang lebih dekat ke 1 lebih baik. |
Metrik evaluasi untuk Peringkat
Metrik | Deskripsi | Mencari |
---|---|---|
Keuntungan Kumulatif Diskon | Keuntungan kumulatif diskon (DCG) adalah ukuran kualitas peringkat. Ini berasal dari dua asumsi. Satu: Item yang sangat relevan lebih berguna ketika muncul lebih tinggi dalam urutan peringkat. Dua: Kegunaan melacak relevansi yaitu, semakin tinggi relevansinya, semakin berguna item. Perolehan kumulatif diskon dihitung untuk posisi tertentu dalam urutan peringkat. Ini menjumlahkan penilaian relevansi yang dibagi dengan logaritma indeks peringkat hingga posisi yang diminati. Ini dihitung menggunakan $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ Penilaian relevansi diberikan ke algoritma pelatihan peringkat sebagai label kebenaran dasar. Satu nilai DCG disediakan untuk setiap posisi dalam tabel peringkat, oleh karena itu nama Keuntungan Kumulatif Diskon. | Nilai yang lebih tinggi lebih baik. |
Keuntungan Kumulatif Diskon yang Dinormalisasi | Menormalkan DCG memungkinkan metrik dibandingkan untuk daftar peringkat dengan panjang yang berbeda. | Nilai yang lebih dekat ke 1 lebih baik. |
Metrik evaluasi untuk Deteksi Anomali
Metrik | Deskripsi | Mencari |
---|---|---|
Area di bawah Kurva ROC | Area di bawah kurva operator penerima mengukur seberapa baik model memisahkan titik data anomali dan biasa. | Nilai yang lebih dekat ke 1 lebih baik. Hanya nilai yang lebih besar dari 0,5 yang menunjukkan efektivitas model. Nilai 0,5 atau di bawahnya menunjukkan bahwa model tidak lebih baik daripada mengalokasikan input secara acak ke kategori anomali dan biasa. |
Tingkat deteksi pada jumlah positif palsu | Tingkat deteksi pada jumlah positif palsu adalah rasio jumlah anomali yang diidentifikasi dengan benar terhadap jumlah total anomali dalam set pengujian, yang diindeks oleh setiap positif palsu. Artinya, ada nilai untuk tingkat deteksi pada jumlah positif palsu untuk setiap item positif palsu. | Nilai yang lebih dekat ke 1 lebih baik. Jika tidak ada positif palsu, maka nilai ini adalah 1. |
Metrik evaluasi untuk kesamaan kalimat
Metrik | Deskripsi | Mencari |
---|---|---|
Korelasi Pearson | Korelasi Pearson, juga dikenal sebagai koefisien korelasi, mengukur dependensi atau hubungan antara dua set data. | Nilai absolut yang lebih dekat dengan 1 paling mirip. Metrik ini berkisar dari -1 hingga 1. Nilai absolut 1 menyiratkan bahwa himpunan data identik. Nilai 0 menyiratkan tidak ada hubungan antara dua set data. |