Evaluasi Model

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
Pelajari selengkapnya tentang Azure Machine Learning.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Mengevaluasi hasil model klasifikasi atau regresi dengan metrik standar

Kategori: Pembelajaran Mesin / Evaluasi

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul seret dan letakkan serupa tersedia di perancang Azure Machine Learning.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Evaluasi Model di Pembelajaran Mesin Studio (klasik) untuk mengukur akurasi model terlatih. Anda menyediakan himpunan data yang berisi skor yang dihasilkan dari model, dan modul Model Evaluasi menghitung serangkaian metrik evaluasi standar industri.

Metrik yang ditampilkan Model Evaluasi bergantung pada jenis model yang sedang Anda evaluasi:

Model Klasifikasi
Model Regresi
Model Pengklusteran

Untuk model rekomendasi, gunakan modul Evaluasi Pemberi Rekomendasi .

Tip

Jika Anda baru mengenal evaluasi model, kami merekomendasikan sampel ini di Azure AI Gallery, yang membangun model lalu menjelaskan cara menggunakan metrik terkait:

Kami juga merekomendasikan seri video oleh Dr. Stephen Elston, sebagai bagian dari kursus pembelajaran mesin dari EdX.

Cara menggunakan Model Evaluasi

Ada tiga cara untuk menggunakan modul Evaluasi Model :

Hasilkan skor atas data pelatihan Anda, dan evaluasi model berdasarkan skor ini
Hasilkan skor pada model, tetapi bandingkan skor tersebut dengan skor pada set pengujian yang dipesan
Bandingkan skor untuk dua model yang berbeda tetapi terkait, menggunakan kumpulan data yang sama

Menggunakan data pelatihan

Untuk mengevaluasi model, Anda harus menyambungkan himpunan data yang berisi sekumpulan kolom input dan skor. Jika tidak ada data lain yang tersedia, Anda dapat menggunakan himpunan data asli Anda.

Koneksi output datset Skordari Model Skor ke input Evaluasi Model.
Klik Modul Evaluasi Model , dan pilih Jalankan yang dipilih untuk menghasilkan skor evaluasi.

Menggunakan data pengujian

Skenario umum dalam pembelajaran mesin adalah memisahkan himpunan data asli Anda ke dalam himpunan data pelatihan dan pengujian, menggunakan modul Pisahkan , atau modul Partisi dan Sampel .

Koneksi output himpunan data Skor dari Model Skor ke input Evaluasi Model.
Koneksi output modul Data Terpisah yang berisi data pengujian ke input kanan Model Evaluasi.
Klik Modul Evaluasi Model , dan pilih Jalankan yang dipilih untuk menghasilkan skor evaluasi.

Membandingkan skor dari dua model

Anda juga dapat menyambungkan serangkaian skor kedua ke Evaluasi Model. Skor mungkin merupakan kumpulan evaluasi bersama yang memiliki hasil yang diketahui, atau serangkaian hasil dari model yang berbeda untuk data yang sama.

Fitur ini berguna karena Anda dapat dengan mudah membandingkan hasil dari dua model berbeda pada data yang sama. Atau, Anda dapat membandingkan skor dari dua eksekusi yang berbeda melalui data yang sama dengan parameter yang berbeda.

Koneksi output datset Skordari Model Skor ke input Evaluasi Model.
Koneksi output modul Model Skor untuk model kedua ke input kanan Evaluasi Model.
Klik kanan Evaluasi Model, dan pilih Jalankan yang dipilih untuk menghasilkan skor evaluasi.

Hasil

Setelah Anda menjalankan Evaluasi Model, klik kanan modul dan pilih Hasil evaluasi untuk melihat hasilnya. Anda dapat:

Simpan hasilnya sebagai himpunan data, untuk analisis yang lebih mudah dengan alat lain
Membuat visualisasi di antarmuka Studio (klasik)

Jika Anda menghubungkan himpunan data ke kedua input Model Evaluasi, hasilnya akan berisi metrik untuk kedua himpunan data, atau kedua model. Model atau data yang dilampirkan ke port kiri disajikan terlebih dahulu dalam laporan, diikuti oleh metrik untuk himpunan data atau model yang dilampirkan di port kanan.

Misalnya, gambar berikut mewakili perbandingan hasil dari dua model pengelompokan yang dibangun pada data yang sama, tetapi dengan parameter yang berbeda.

AML_Comparing2Models

Karena ini adalah model pengklusteran, hasil evaluasinya berbeda dengan jika Anda membandingkan skor dari dua model regresi, atau membandingkan dua model klasifikasi. Namun, presentasi keseluruhannya sama.

Metrik

Bagian ini menjelaskan metrik yang ditampilkan untuk jenis model tertentu yang didukung untuk digunakan dengan Model Evaluasi:

model klasifikasi
model regresi
model pengklusteran

Metrik untuk model klasifikasi

Metrik berikut dilaporkan saat mengevaluasi model klasifikasi. Jika Anda membandingkan model, model tersebut diberi peringkat berdasarkan metrik yang Anda pilih untuk evaluasi.

Akurasi mengukur kebaikan model klasifikasi sebagai proporsi hasil sebenarnya terhadap total kasus.
Presisi adalah proporsi hasil yang benar atas semua hasil positif.
Pengenalan adalah pecahan dari semua hasil yang benar yang dikembalikan oleh model.
F-score dihitung sebagai rata-rata tertimbang presisi dan pengenalan antara 0 dan 1, di mana nilai skor F yang ideal adalah 1.
AUC mengukur area di bawah kurva yang diplot dengan true positive pada sumbu y dan false positive pada sumbu x. Metrik ini berguna karena menyediakan satu angka yang memungkinkan Anda membandingkan model dari berbagai jenis.
Kerugian log rata-rata adalah skor tunggal yang digunakan untuk mengekspresikan penalti untuk hasil yang salah. Ini dihitung sebagai perbedaan antara dua distribusi probabilitas - yang benar, dan yang ada dalam model.
Kehilangan log pelatihan adalah skor tunggal yang mewakili keuntungan pengklasifikasi daripada prediksi acak. Kehilangan log mengukur ketidakpastian model Anda dengan membandingkan probabilitas yang dihasilkannya dengan nilai yang diketahui (kebenaran dasar) dalam label. Anda ingin meminimalkan kehilangan log untuk model secara keseluruhan.

Metrik untuk model regresi

Metrik yang dikembalikan untuk model regresi umumnya dirancang untuk memperkirakan jumlah kesalahan. Model dianggap cocok dengan data dengan baik jika perbedaan antara nilai yang diamati dan diprediksi kecil. Namun, melihat pola residu (perbedaan antara satu titik prediksi dan nilai aktualnya yang sesuai) dapat memberi tahu Anda banyak tentang potensi bias dalam model.

Metrik berikut dilaporkan untuk mengevaluasi model regresi. Saat Anda membandingkan model, model diberi peringkat berdasarkan metrik yang Anda pilih untuk evaluasi.

Kemungkinan log negatif mengukur fungsi kerugian, skor yang lebih rendah lebih baik. Perhatikan bahwa metrik ini hanya dihitung untuk Regresi Linier Bayesian dan Regresi Hutan Keputusan; untuk algoritma lain, nilainya adalah Infinity yang berarti apa-apa.
Mean absolute error (MAE) mengukur seberapa dekat prediksi dengan hasil aktual; dengan demikian, skor yang lebih rendah lebih baik.
Root mean squared error (RMSE) membuat nilai tunggal yang meringkas kesalahan dalam model. Dengan mengkuadratkan selisihnya, metrik mengabaikan perbedaan antara prediksi yang berlebihan dan prediksi yang kurang.
Relative absolute error (RAE) adalah perbedaan absolut relatif antara nilai yang diharapkan dan aktual; relatif karena perbedaan rata-rata dibagi dengan rata-rata aritmatika.
Relative squared error (RSE) juga menormalkan kesalahan kuadrat total dari nilai yang diprediksi dengan membaginya dengan kesalahan kuadrat total dari nilai aktual.
Mean Zero One Error (MZOE) menunjukkan apakah prediksinya benar atau tidak. Dengan kata lain: ZeroOneLoss(x,y) = 1 ketika x!=y; sebaliknya 0.
Koefisien determinasi, sering disebut sebagai R², mewakili kekuatan prediktif model sebagai nilai antara 0 dan 1. Nol berarti modelnya acak (tidak menjelaskan apa-apa); 1 berarti ada kecocokan yang sempurna. Namun, Anda harus berhati-hati dalam menafsirkan nilai R², karena nilai yang rendah dapat sepenuhnya normal dan nilai yang tinggi dapat bersifat mencurigakan.

Metrik untuk model pengklusteran

Karena model pengklusteran berbeda secara signifikan dari model klasifikasi dan regresi dalam banyak hal, Model Evaluasi juga menampilkan serangkaian statistik yang berbeda untuk model pengklusteran.

Statistik yang ditampikan untuk model pengklusteran menjelaskan berapa banyak poin data yang ditetapkan ke setiap kluster, jumlah pemisahan antar kluster, dan seberapa ketat poin data yang dikelompokkan dalam setiap kluster.

Statistik untuk model pengklusteran rata-rata di seluruh himpunan data, dengan baris tambahan yang berisi statistik per kluster.

Misalnya, hasil berikut menunjukkan sebagian hasil dari eksperimen sampel yang mengelompokkan data dalam himpunan data Klasifikasi Biner Diabetes India PIMA, yang tersedia di Pembelajaran Mesin Studio (klasik).

Deskripsi hasil	Jarak Rata-rata ke Pusat Kluster	Jarak Rata-rata ke Pusat Lain	Jumlah Titik	Jarak maksimal ke Pusat Kluster
Evaluasi Gabungan	55.915068	169.897505	538	303.545166
Evaluasi untuk kluster No.0	0	1	570	0
Evaluasi untuk kluster No.1	0	1	178	0
Evaluasi untuk kluster No.2	0	1	178	0

Dari hasil ini, Anda mendapatkan informasi berikut:

Modul Sweep Clustering membuat beberapa model pengklusteran, yang tercantum dalam urutan akurasi. Untuk kesederhanaan, kami hanya menampilkan model peringkat terbaik di sini. Model diukur menggunakan semua metrik yang mungkin, tetapi model diberi peringkat dengan menggunakan metrik yang Anda tentukan. Jika Anda mengubah metrik, model yang berbeda mungkin diberi peringkat lebih tinggi.
Skor Evaluasi Gabungan di bagian atas setiap bagian hasil mencantumkan skor rata-rata untuk kluster yang dibuat dalam model tertentu.

Model peringkat teratas ini terjadi untuk membuat tiga kluster; model lain mungkin membuat dua kluster, atau empat kluster. Oleh karena itu, skor evaluasi gabungan ini membantu Anda membandingkan model dengan jumlah kluster yang berbeda.
Skor di kolom, Jarak Rata-Rata ke Pusat Cluster, mewakili kedekatan semua titik dalam sebuah kluster dengan pusat kluster tersebut.
Skor di kolom, Jarak Rata-Rata ke Pusat Lainnya, menunjukkan seberapa dekat, rata-rata, setiap titik dalam kluster dengan pusat semua kluster lainnya.

Anda dapat memilih salah satu dari empat metrik untuk mengukur jarak ini, tetapi semua pengukuran harus menggunakan metrik yang sama.
Kolom Jumlah Poin menunjukkan berapa banyak titik data yang ditetapkan untuk setiap kluster, beserta dengan jumlah total keseluruhan titik data di kluster mana pun.

Jika jumlah poin data yang ditetapkan ke kluster kurang dari jumlah total poin data yang tersedia, itu berarti bahwa poin data tidak dapat ditetapkan ke kluster.
Skor di kolom, Jarak Maksimal ke Pusat Kluster, mewakili jumlah jarak antara setiap titik dan sentroid kluster titik tersebut.

Jika angka ini tinggi, berarti kluster tersebar luas. Anda harus meninjau statistik ini bersama dengan Jarak Rata-Rata ke Pusat Kluster untuk menentukan penyebaran kluster.

Contoh

Untuk contoh cara membuat, memvisualisasikan, dan menginterpretasikan metrik evaluasi, lihat eksperimen sampel ini di Galeri Azure AI. Eksperimen ini menunjukkan cara membangun beberapa model dan menggunakan Model Evaluasi untuk menentukan model mana yang terbaik.

Membandingkan Pengklasifikasi Biner: Menjelaskan cara membandingkan performa pengklasifikasi berbeda yang dibangun menggunakan data yang sama.
Bandingkan Pengklasifikasi Multi-kelas: Menunjukkan cara membandingkan akurasi berbagai model klasifikasi yang dibangun di atas himpunan data pengenalan huruf.
Membandingkan Regresi: Memanmbing Anda melalui proses mengevaluasi model regresi yang berbeda.
Estimasi permintaan: Pelajari cara menggabungkan metrik evaluasi dari beberapa model.
Prediksi hubungan pelanggan: Menunjukkan cara mengevaluasi beberapa model terkait.

Input yang diharapkan

Nama	Jenis	Deskripsi
Himpunan data dengan skor	Tabel Data	Himpunan data dengan skor
Himpunan data yang dinilai untuk dibandingkan	Tabel Data	Himpunan data yang dinilai untuk dibandingkan (opsional)

Output

Nama	Jenis	Deskripsi
Hasil evaluasi	Tabel Data	Hasil evaluasi data

Pengecualian

Pengecualian	Deskripsi
Kesalahan 0003	Pengecualian terjadi jika satu atau beberapa input null atau kosong.
Kesalahan 0013	Pengecualian terjadi jika diteruskan ke pelajar modul memiliki jenis yang tidak valid.
Kesalahan 0020	Pengecualian terjadi jika jumlah kolom di beberapa himpunan data yang diteruskan ke modul terlalu kecil.
Kesalahan 0021	Pengecualian terjadi jika jumlah kolom di beberapa himpunan data yang diteruskan ke modul terlalu kecil.
Kesalahan 0024	Pengecualian terjadi jika himpunan data tidak berisi kolom label.
Kesalahan 0025	Pengecualian terjadi jika himpunan data tidak berisi kolom skor.

Lihat juga

Model Validasi Silang
Evaluasi Pemberi Rekomendasi
Mengevaluasi
Model Penilaian

Last updated on 2019-11-13

Bagikan melalui