Mengevaluasi hasil eksperimen pembelajaran mesin otomatis

Artikel
08/01/2023

Dalam artikel ini, pelajari cara mengevaluasi dan membandingkan model yang dilatih oleh eksperimen pembelajaran mesin otomatis (ML otomatis). Selama kursus eksperimen ML otomatis, banyak pekerjaan dibuat dan setiap pekerjaan membuat model. Untuk setiap model, ML otomatis membuat metrik evaluasi dan bagan yang membantu Anda mengukur performa model. Anda selanjutnya dapat menghasilkan dasbor AI Yang Bertanggung Jawab untuk melakukan penilaian holistik dan penelusuran kesalahan model terbaik yang direkomendasikan secara default. Ini termasuk wawasan seperti penjelasan model, penjelajah kewajaran dan performa, penjelajah data, analisis kesalahan model. Pelajari selengkapnya tentang cara membuat dasbor AI yang Bertanggung Jawab.

Misalnya, ML otomatis membuat bagan berikut berdasarkan jenis eksperimen.

Klasifikasi	Regresi/prakiraan
Matriks kebingungan	Histogram residu
Kurva karakteristik operasi penerima (ROC)	Diprediksi vs. true
Kurva precision-recall (PR)	Cakrawala prakiraan
Kurva angkat
Kurva perolehan kumulatif
Kurva kalibrasi

Penting

Item yang ditandai (pratinjau) dalam artikel ini sedang dalam pratinjau publik. Versi pratinjau disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Prasyarat

Langganan Azure. (Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum memulai)
Eksperimen Azure Pembelajaran Mesin dibuat dengan:
- Studio Azure Machine Learning (tidak perlu kode)
- Azure Machine Learning Python SDK

Melihat hasil pekerjaan

Setelah eksperimen ML otomatis Anda selesai, riwayat pekerjaan bisa ditemukan melalui:

Browser dengan studio Azure Machine Learning
Notebook Jupyter menggunakan widget JobDetails Jupyter

Langkah-langkah dan video berikut, menunjukkan kepada Anda cara melihat metrik dan bagan evaluasi model dan histori eksekusi di studio:

Masuk ke studio dan arahkan ke ruang kerja Anda.
Di menu sebelah kiri, pilih Pekerjaan.
Pilih eksperimen Anda dari daftar eksperimen.
Dalam tabel di bagian bawah halaman, pilih pekerjaan ML otomatis.
Di tab Model, pilih Nama algoritme untuk model yang ingin Anda evaluasi.
Di tab Metrik, gunakan kotak centang di sebelah kiri untuk melihat metrik dan bagan.

Metrik klasifikasi

ML otomatis menghitung metrik performa untuk setiap model klasifikasi yang dibuat untuk eksperimen Anda. Metrik ini didasarkan pada penerapan scikit learn.

Banyak metrik klasifikasi ditentukan untuk klasifikasi biner pada dua kelas, dan memerlukan rata-rata atas kelas untuk membuat satu skor untuk klasifikasi multi-kelas. Scikit-learn menyediakan beberapa metode rata-rata, tiga di antara ML otomatisnya mengekspos: makro, mikro, dan tertimbang.

Makro - Menghitung metrik untuk setiap kelas dan mengambil rata-rata tidak tertimbang
Mikro - Menghitung metrik secara global dengan menghitung total positif sejati, negatif palsu, dan positif palsu (independen dari kelas).
Tertimbang - Menghitung metrik untuk setiap kelas dan mengambil rata-rata tertimbang berdasarkan jumlah sampel per kelas.

Meskipun setiap metode rata-rata memiliki keuntungannya, satu pertimbangan umum saat memilih metode yang sesuai adalah ketidakseimbangan kelas. Jika kelas memiliki jumlah sampel yang berbeda, mungkin lebih informatif untuk menggunakan rata-rata makro yang mana kelas minoritas diberikan bobot yang sama dengan kelas mayoritas. Pelajari lebih lanjut tentang metrik biner vs multikelas dalam ML otomatis.

Tabel berikut ini meringkas metrik performa model yang dihitung ML otomatis untuk setiap model klasifikasi yang dibuat untuk eksperimen Anda. Untuk detail selengkapnya, lihat dokumentasi scikit-learn yang ditautkan di bidang Penghitungan setiap metrik.

Catatan

Lihat bagian metrik gambar untuk mengetahui detail lainnya tentang metrik untuk model klasifikasi gambar.

Metrik	Deskripsi	Penghitungan
AUC	AUC adalah Area di bawah Kurva Karakteristik Operasi Penerima. Tujuan: Lebih dekat ke 1 semakin baik Rentang: [0, 1] Nama metrik yang didukung meliputi, `AUC_macro`, rata-rata aritmatika AUC untuk setiap kelas. `AUC_micro`, dihitung dengan menghitung total positif benar, negatif palsu, dan positif palsu. `AUC_weighted`, nilai rata-rata aritmatika untuk setiap kelas, dihitung dengan jumlah instans sejati di setiap kelas. `AUC_binary`, nilai AUC dengan memperlakukan satu kelas tertentu sebagai kelas `true` dan menggabungkan semua kelas lainnya sebagai kelas `false`.	Penghitungan
akurasi	Akurasi adalah rasio prediksi yang sama persis dengan label kelas yang benar. Tujuan: Lebih dekat ke 1 semakin baik Rentang: [0, 1]	Penghitungan
average_precision	Presisi rata-rata merangkum kurva presisi-recall sebagai rata-rata tertimbang presisi yang dicapai pada setiap ambang, dengan peningkatan pengenalan dari ambang sebelumnya yang digunakan sebagai berat. Tujuan: Lebih dekat ke 1 semakin baik Rentang: [0, 1] Nama metrik yang didukung meliputi, `average_precision_score_macro`, rata-rata aritmatika dari skor presisi rata-rata setiap kelas. `average_precision_score_micro`, dihitung dengan menghitung total positif benar, negatif palsu, dan positif palsu. `average_precision_score_weighted`, nilai rata-rata aritmatika skor presisi rata-rata untuk setiap kelas, dihitung dengan jumlah instans sejati di setiap kelas. `average_precision_score_binary`, nilai presisi rata-rata dengan memperlakukan satu kelas tertentu sebagai kelas `true` dan menggabungkan semua kelas lainnya sebagai kelas `false`.	Penghitungan
balanced_accuracy	Akurasi seimbang adalah rata-rata aritmatika pengenalan untuk setiap kelas. Tujuan: Lebih dekat ke 1 semakin baik Rentang: [0, 1]	Penghitungan
f-measure	f-measure adalah rata-rata harmonis presisi dan pengenalan. Ini adalah ukuran seimbang yang baik dari positif palsu dan negatif palsu. Namun, itu tidak memperhitungkan negatif sejati. Tujuan: Lebih dekat ke 1 semakin baik Rentang: [0, 1] Nama metrik yang didukung meliputi, `f1_score_macro`: rata-rata aritmatika f-measure untuk setiap kelas. `f1_score_micro`: dihitung dengan menghitung total positif sejati, negatif palsu, dan positif palsu. `f1_score_weighted`: tertimbang rata-rata dengan frekuensi kelas f-measure untuk setiap kelas. `f1_score_binary`, nilai f1 dengan memperlakukan satu kelas tertentu sebagai kelas `true` dan menggabungkan semua kelas lainnya sebagai kelas `false`.	Penghitungan
log_loss	Ini adalah fungsi kehilangan yang digunakan dalam regresi logistik (multinomial) dan ekstensinya seperti jaringan saraf, ditentukan sebagai kemungkinan log negatif dari label sejati mengingat prediksi pengklasifikasi probabilistik. Tujuan: Lebih dekat ke 0 semakin baik Rentang: [0, inf)	Penghitungan
norm_macro_recall	Pengenalan makro yang dinormalisasi adalah pengenalan makro rata-rata dan dinormalisasi, sehingga performa acak memiliki skor 0, dan performa sempurna memiliki skor 1. Tujuan: Lebih dekat ke 1 semakin baik Rentang: [0, 1]	`(recall_score_macro - R)` / `(1 - R)` yang mana, `R` adalah nilai yang diharapkan `recall_score_macro` untuk prediksi acak. `R = 0.5` untuk klasifikasi biner. `R = (1 / C)` untuk masalah klasifikasi kelas C.
matthews_correlation	Koefisien korelasi Mattews adalah ukuran akurasi yang seimbang, yang bisa digunakan meskipun satu kelas memiliki lebih banyak sampel daripada yang lain. Koefisien 1 menunjukkan prediksi sempurna, prediksi acak 0, dan prediksi terbalik -1. Tujuan: Lebih dekat ke 1 semakin baik Rentang: [-1, 1]	Penghitungan
presisi	Presisi adalah kemampuan model untuk menghindari pelabelan sampel negatif sebagai positif. Tujuan: Lebih dekat ke 1 semakin baik Rentang: [0, 1] Nama metrik yang didukung meliputi, `precision_score_macro`, rata-rata aritmatika presisi untuk setiap kelas. `precision_score_micro`: dihitung secara global dengan menghitung total positif sejati dan positif palsu. `precision_score_weighted`, nilai rata-rata aritmatika untuk setiap kelas, dihitung dengan jumlah instans sejati di setiap kelas. `precision_score_binary`, nilai presisi dengan memperlakukan satu kelas tertentu sebagai kelas `true` dan menggabungkan semua kelas lainnya sebagai kelas `false`.	Penghitungan
pengenalan	Pengenalan adalah kemampuan model untuk mendeteksi semua sampel positif. Tujuan: Lebih dekat ke 1 semakin baik Rentang: [0, 1] Nama metrik yang didukung meliputi, `recall_score_macro`, rata-rata aritmatika pengenalan untuk setiap kelas. `recall_score_micro`: dihitung secara global dengan menghitung total positif sejati, negatif palsu, dan positif palsu. `recall_score_weighted`, nilai rata-rata aritmatika pengenalan untuk setiap kelas, dihitung dengan jumlah instans sejati di setiap kelas. `recall_score_binary`, nilai pengenalan dengan memperlakukan satu kelas tertentu sebagai kelas `true` dan menggabungkan semua kelas lainnya sebagai kelas `false`.	Penghitungan
weighted_accuracy	Akurasi tertimbang adalah akurasi yang mana setiap sampel dihitung oleh jumlah total sampel yang termasuk dalam kelas yang sama. Tujuan: Lebih dekat ke 1 semakin baik Rentang: [0, 1]	Penghitungan

Metrik klasifikasi biner vs. multikelas

ML otomatis secara otomatis mendeteksi apakah data adalah data biner dan juga memungkinkan pengguna mengaktifkan metrik klasifikasi biner bahkan jika data tersebut adalah data multikelas dengan menentukan kelas true . Metrik klasifikasi multikelas dilaporkan jika himpunan data memiliki dua kelas atau lebih. Metrik klasifikasi biner hanya dilaporkan ketika data adalah biner.

Perhatikan, metrik klasifikasi multikelas ditujukan untuk klasifikasi multikelas. Saat diterapkan ke himpunan data biner, metrik ini tidak memperlakukan kelas apa pun sebagai true kelas, seperti yang mungkin Anda harapkan. Metrik yang jelas dimaksudkan untuk multikelas dengan akhiran micro, macro, atau weighted. Contoh meliputi average_precision_score, f1_score, precision_score, recall_score, dan AUC. Misalnya, alih-alih menghitung pengenalan sebagai tp / (tp + fn), pengenalan rata-rata multikelas (micro, macro, atau weighted) rata-rata di atas kedua kelas himpunan data klasifikasi biner. Ini setara dengan menghitung pengenalan untuk kelas true dan kelas false secara terpisah, dan kemudian mengambil rata-rata keduanya.

Selain itu, meski deteksi otomatis klasifikasi biner didukung, tetap disarankan untuk selalu menentukan kelas true secara manual untuk memastikan metrik klasifikasi biner dihitung untuk kelas yang benar.

Untuk mengaktifkan metrik untuk himpunan data klasifikasi biner saat himpunan data itu sendiri adalah himpunan data multikelas, pengguna hanya perlu menentukan kelas yang akan diperlakukan sebagai kelas true dan metrik ini akan dihitung.

Matriks kebingungan

Matriks kebingungan memberikan visual tentang bagaimana model pembelajaran mesin membuat kesalahan sistematis dalam prediksinya untuk model klasifikasi. Kata "kebingungan" dalam nama berasal dari model "membingungkan" atau salah memberi label sampel. Sel di baris i dan kolom j dalam matriks kebingungan berisi jumlah sampel dalam himpunan data evaluasi yang termasuk dalam kelas C_i dan diklasifikasikan oleh model sebagai kelas C_j.

Di studio, sel yang lebih gelap menunjukkan jumlah sampel yang lebih tinggi. Memilih tampilan Normalisasi di menu drop-down akan menormalkan setiap baris matriks untuk menampilkan persentase C_i kelas yang diprediksi menjadi kelas C_j. Keuntungan dari tampilan Mentah default adalah Anda bisa melihat apakah ketidakseimbangan dalam distribusi kelas aktual menyebabkan model salah mengklasifikasikan sampel dari kelas minoritas, masalah umum dalam himpunan data yang tidak seimbang.

Matriks kebingungan model yang baik akan memiliki sebagian besar sampel di sepanjang diagonal.

Matriks kebingungan untuk model yang baik

Confusion matrix for a good model

Matriks kebingungan untuk model yang buruk

Confusion matrix for a bad model

Kurva ROC

Kurva karakteristik operasi penerima (ROC) membuat plot hubungan antara tingkat positif sejati (TPR) dan tingkat positif palsu (FPR) saat ambang keputusan berubah. Kurva ROC bisa kurang informatif saat melatih model pada himpunan data dengan ketidakseimbangan kelas tinggi, karena kelas mayoritas bisa menghilangkan kontribusi dari kelas minoritas.

Area di bawah kurva (AUC) bisa ditafsirkan sebagai proporsi sampel yang diklasifikasikan dengan benar. Lebih tepatnya, AUC adalah probabilitas bahwa pengklasifikasi memberi peringkat sampel positif yang dipilih secara acak lebih tinggi daripada sampel negatif yang dipilih secara acak. Bentuk kurva memberikan intuisi untuk hubungan antara TPR dan FPR sebagai fungsi ambang klasifikasi atau batas keputusan.

Kurva yang mendekati pojok kiri atas bagan mendekati TPR 100% dan FPR 0%, model terbaik. Model acak akan menghasilkan kurva ROC di sepanjang garis y = x dari pojok kiri bawah ke kanan atas. Model yang lebih buruk dari acak akan memiliki kurva ROC yang turun di bawah garis y = x.

Tip

Untuk eksperimen klasifikasi, masing-masing bagan garis yang diproduksi untuk model ML otomatis bisa digunakan untuk mengevaluasi model per kelas atau rata-rata di semua kelas. Anda bisa beralih di antara tampilan yang berbeda ini dengan mengklik label kelas di legenda di sebelah kanan bagan.

Kurva ROC untuk model yang baik

ROC curve for a good model

Kurva ROC untuk model yang buruk

ROC curve for a bad model

Kurva pengenalan presisi

Kurva precision-recall membuat plot hubungan antara presisi dan pengenalan saat ambang keputusan berubah. Pengenalan adalah kemampuan model mendeteksi semua sampel positif dan presisi adalah kemampuan model untuk menghindari pelabelan sampel negatif sebagai positif. Beberapa masalah bisnis mungkin memerlukan pengenalan yang lebih tinggi dan beberapa presisi yang lebih tinggi tergantung pada kepentingan relatif menghindari negatif palsu vs positif palsu.

Tip

Kurva precision-recall untuk model yang baik

Precision-recall curve for a good model

Kurva precision-recall untuk model yang buruk

Precision-recall curve for a bad model

Kurva perolehan kumulatif

Kurva perolehan kumulatif membuat plot persentase sampel positif yang diklasifikasikan dengan benar sebagai fungsi dari persentase sampel yang dipertimbangkan yang mana kami mempertimbangkan sampel dalam urutan probabilitas yang diprediksi.

Untuk menghitung perolehan, pertama-tama urutkan semua sampel dari probabilitas tertinggi hingga terendah yang diprediksi oleh model. Kemudian ambil x% prediksi keyakinan tertinggi. Bagi jumlah sampel positif yang terdeteksi dalam x% dengan jumlah total sampel positif untuk mendapatkan perolehan. Perolehan kumulatif adalah persentase sampel positif yang kami deteksi saat mempertimbangkan beberapa persen dari data yang kemungkinan besar termasuk dalam kelas positif.

Model yang sempurna akan memberi peringkat semua sampel positif di atas semua sampel negatif yang memberikan kurva perolehan kumulatif yang terdiri dari dua segmen lurus. Yang pertama adalah garis dengan kemiringan 1 / x dari (0, 0) ke (x, 1) yang mana x adalah fraksi sampel yang termasuk dalam kelas positif (1 / num_classesjika kelas seimbang). Yang kedua adalah garis horizontal dari (x, 1) ke (1, 1). Pada segmen pertama, semua sampel positif diklasifikasikan dengan benar dan perolehan kumulatif masuk ke 100% dalam sampel x% pertama yang dipertimbangkan.

Model acak garis besar akan memiliki kurva perolehan kumulatif setelah y = x yang mana untuk x% sampel yang dipertimbangkan hanya tentang x% total sampel positif terdeteksi. Model yang sempurna untuk sebuah himpunan data yang seimbang akan memiliki kurva rata-rata mikro dan baris rata-rata mikro yang memiliki kemiringan num_classes hingga perolehan kumulatif 100% dan kemudian horizontal hingga rsen data adalah 100.

Tip

Kurva perolehan kumulatif untuk model yang baik

Cumulative gains curve for a good model

Kurva perolehan kumulatif untuk model yang buruk

Cumulative gains curve for a bad model

Kurva angkat

Kurva angkat menunjukkan berapa kali lebih baik performa model dibandingkan dengan model acak. Angkat didefinisikan sebagai rasio perolehan kumulatif terhadap perolehan kumulatif model acak (yang seharusnya selalu 1).

Performa relatif ini memperhitungkan fakta bahwa klasifikasi semakin sulit saat Anda meningkatkan jumlah kelas. (Model acak salah memprediksi pecahan sampel yang lebih tinggi dari himpunan data dengan 10 kelas dibandingkan dengan himpunan data dengan dua kelas)

Kurva angkat garis besar adalah garis y = 1 yang mana performa model konsisten dengan model acak. Secara umum, kurva angkat untuk model yang baik akan lebih tinggi pada grafik tersebut dan lebih jauh dari sumbu x, menunjukkan bahwa saat model paling yakin dalam prediksinya, dengan performa berkali-kali lebih baik daripada penebakan acak.

Tip

Kurva angkat untuk model yang baik

Lift curve for a good model

Kurva angkat untuk model yang buruk

Lift curve for a bad model

Kurva kalibrasi

Kurva kalibrasi membuat plot keyakinan model pada prediksinya terhadap proporsi sampel positif di setiap tingkat keyakinan. Model yang dikalibrasi dengan baik akan mengklasifikasikan 100% prediksi dengan benar yang menetapkan keyakinan 100%, 50% dari prediksi yang ditetapkannya 50% keyakinan, 20% dari prediksi yang menetapkan keyakinan 20%, dan sebagainya. Model yang dikalibrasi dengan sempurna akan memiliki kurva kalibrasi yang mengikuti garis y = x yang mana model memprediksi dengan sempurna probabilitas bahwa sampel termasuk dalam setiap kelas.

Model yang terlalu yakin akan memprediksi probabilitas yang berlebihan mendekati nol dan satu, jarang menjadi tidak pasti tentang kelas setiap sampel dan kurva kalibrasi akan terlihat mirip dengan "S" terbalik. Model yang kurang yakin akan menetapkan probabilitas yang lebih rendah rata-rata ke kelas yang diprediksinya dan kurva kalibrasi terkait akan terlihat mirip dengan "S". Kurva kalibrasi tidak menggambarkan kemampuan model untuk mengklasifikasikan dengan benar, tetapi sebaliknya kemampuannya untuk menetapkan keyakinan dengan benar pada prediksinya. Model yang buruk masih bisa memiliki kurva kalibrasi yang baik jika model dengan benar menetapkan keyakinan rendah dan ketidakpastian tinggi.

Catatan

Kurva kalibrasi sensitif terhadap jumlah sampel, sehingga set validasi kecil bisa membuat hasil yang bising yang bisa sulit ditafsirkan. Ini tidak selalu berarti bahwa model tidak dikalibrasi dengan baik.

Kurva kalibrasi untuk model yang baik

Calibration curve for a good model

Kurva kalibrasi untuk model yang buruk

Calibration curve for a bad model

Metrik regresi/prakiraan

ML otomatis menghitung metrik performa yang sama untuk setiap model yang dihasilkan, terlepas dari apakah itu adalah eksperimen regresi atau prakiraan. Metrik ini juga mengalami normalisasi untuk memungkinkan perbandingan antara model yang dilatih pada data dengan rentang yang berbeda. Untuk mempelajari lebih lanjut, lihat normalisasi metrik.

Tabel berikut ini meringkas metrik performa model yang dibuat untuk eksperimen regresi dan prakiraan. Seperti metrik klasifikasi, metrik ini juga didasarkan pada penerapan scikit learn. Dokumentasi scikit learn yang sesuai ditautkan, di bidang Penghitungan.

Metrik	Deskripsi	Penghitungan
explained_variance	Varians yang dijelaskan mengukur sejauh mana model memperhitungkan variasi dalam variabel target. Ini adalah penurunan persen dalam varians data asli ke varian kesalahan. Saat rata-rata kesalahan adalah 0, itu sama dengan koefisien penentuan (lihat r2_score di bawah). Tujuan: Lebih dekat ke 1 semakin baik Rentang: (-inf, 1]	Penghitungan
mean_absolute_error	Kesalahan absolut rata-rata adalah nilai yang diharapkan dari nilai absolut selisih antara target dan prediksi. Tujuan: Lebih dekat ke 0 semakin baik Rentang: [0, inf) Jenis: `mean_absolute_error` `normalized_mean_absolute_error`, mean_absolute_error dipisahkan oleh rentang data.	Penghitungan
mean_absolute_percentage_error	Kesalahan persentase absolut rata-rata (MAPE) adalah ukuran perbedaan rata-rata antara nilai yang diprediksi dan nilai aktual. Tujuan: Lebih dekat ke 0 semakin baik Rentang: [0, inf)
median_absolute_error	Kesalahan absolut median adalah median dari semua perbedaan absolut antara target dan prediksi. Kehilangan ini kuat untuk outlier. Tujuan: Lebih dekat ke 0 semakin baik Rentang: [0, inf) Jenis: `median_absolute_error` `normalized_median_absolute_error`, mean_absolute_error dibagi dengan rentang data.	Penghitungan
r2_score	R² (koefisien penentuan) mengukur pengurangan proporsional dalam mean squared error (MSE) relatif terhadap total varian data yang diamati. Tujuan: Lebih dekat ke 1 semakin baik Rentang: [-1, 1] Catatan: R² sering memiliki rentang (-inf, 1]. MSE bisa lebih besar dari varians yang diamati, sehingga R² bisa memiliki nilai negatif yang sangat besar, tergantung pada data dan prediksi model. Klip ML otomatis melaporkan skor R² di -1, jadi nilai -1 untuk R² kemungkinan berarti bahwa skor R² yang sebenarnya kurang dari -1. Pertimbangkan nilai metrik lain dan properti data saat menginterpretasikan skor R² negatif.	Penghitungan
root_mean_squared_error	Root mean squared error (RMSE) adalah akar kuadrat dari perbedaan kuadrat yang diharapkan antara target dan prediksi. Untuk estimator yang tidak bias, RMSE sama dengan simpangan baku. Tujuan: Lebih dekat ke 0 semakin baik Rentang: [0, inf) Jenis: `root_mean_squared_error` `normalized_root_mean_squared_error`: root_mean_squared_error dibagi dengan rentang data.	Penghitungan
root_mean_squared_log_error	Akar berarti kesalahan log kuadrat adalah akar kuadrat dari kesalahan logaritma kuadrat yang diharapkan. Tujuan: Lebih dekat ke 0 semakin baik Rentang: [0, inf) Jenis: `root_mean_squared_log_error` `normalized_root_mean_squared_log_error`: root_mean_squared_log_error dibagi dengan rentang data.	Penghitungan
spearman_correlation	Korelasi Spearman adalah ukuran nonparametric dari monotonisitas hubungan antara dua himpunan data. Tidak seperti korelasi Pearson, korelasi Spearman tidak berasumsi bahwa kedua himpunan data biasanya didistribusikan. Seperti koefisien korelasi lainnya, Spearman bervariasi antara -1 dan 1 dengan 0 menyiratkan tidak ada korelasi. Korelasi -1 atau 1 menyiratkan hubungan monotonik yang tepat. Spearman adalah metrik korelasi urutan peringkat yang berarti bahwa perubahan pada nilai yang diprediksi atau aktual tidak akan mengubah hasil Spearman jika tidak mengubah urutan peringkat nilai yang diprediksi atau aktual. Tujuan: Lebih dekat ke 1 semakin baik Rentang: [-1, 1]	Penghitungan

Normalisasi metrik

ML otomatis menormalkan metrik regresi dan prakiraan yang memungkinkan perbandingan antara model yang dilatih pada data dengan rentang yang berbeda. Model yang dilatih pada data dengan rentang yang lebih besar memiliki kesalahan yang lebih tinggi daripada model yang sama yang dilatih pada data dengan rentang yang lebih kecil, kecuali kesalahan itu dinormalisasi.

Meskipun tidak ada metode standar untuk menormalkan metrik kesalahan, ML otomatis melakukan pendekatan umum untuk membagi kesalahan dengan rentang data: normalized_error = error / (y_max - y_min)

Catatan

Rentang data tidak disimpan dengan model. Jika Anda melakukan inferensi dengan model yang sama pada rangkaian pengujian holdout, y_min dan y_max dapat berubah sesuai dengan data pengujian dan metrik yang dinormalisasi mungkin tidak langsung digunakan untuk membandingkan performa pada rangkaian pelatihan dan pengujian. Anda dapat meneruskan nilai y_min dan y_max dari set pelatihan Anda agar perbandingan seimbang.

Metrik prakiraan: normalisasi dan agregasi

Menghitung metrik untuk memperkirakan evaluasi model memerlukan beberapa pertimbangan khusus ketika data berisi beberapa rangkaian waktu. Ada dua pilihan alami untuk menggabungkan metrik melalui beberapa seri:

Rata-rata makro di mana metrik evaluasi dari setiap seri diberikan bobot yang sama,
Rata-rata mikro di mana metrik evaluasi untuk setiap prediksi memiliki bobot yang sama.

Kasus-kasus ini memiliki analogi langsung ke makro dan rata-rata mikro dalam klasifikasi multi-kelas.

Perbedaan antara makro dan rata-rata mikro bisa menjadi penting saat memilih metrik utama untuk pemilihan model. Misalnya, pertimbangkan skenario ritel di mana Anda ingin memperkirakan permintaan untuk pilihan produk konsumen. Beberapa produk menjual pada volume yang jauh lebih tinggi daripada yang lain. Jika Anda memilih RMSE rata-rata mikro sebagai metrik utama, ada kemungkinan bahwa item volume tinggi akan berkontribusi sebagian besar kesalahan pemodelan dan, akibatnya, mendominasi metrik. Algoritma pemilihan model kemudian dapat mendukung model dengan akurasi yang lebih tinggi pada item volume tinggi daripada pada yang volume rendah. Sebaliknya, RMSE rata-rata makro yang dinormalisasi memberikan item volume rendah sekitar bobot yang sama dengan item volume tinggi.

Tabel berikut menunjukkan metrik prakiraan AutoML mana yang menggunakan makro vs. rata-rata mikro:

Makro rata-rata	Rata-rata mikro
`normalized_mean_absolute_error`, `normalized_median_absolute_error`, `normalized_root_mean_squared_error`, `normalized_root_mean_squared_log_error`	`mean_absolute_error`, `median_absolute_error`, `root_mean_squared_error`, `root_mean_squared_log_error`, `r2_score`, `explained_variance`, `spearman_correlation`, `mean_absolute_percentage_error`

Perhatikan bahwa metrik rata-rata makro menormalkan setiap seri secara terpisah. Metrik yang dinormalisasi dari setiap seri kemudian dirata-ratakan untuk memberikan hasil akhir. Pilihan makro vs. mikro yang benar tergantung pada skenario bisnis, tetapi kami umumnya merekomendasikan menggunakan normalized_root_mean_squared_error.

Residu

Bagan residu adalah histogram dari kesalahan prediksi (residu) yang dibuat untuk eksperimen regresi dan prakiraan. Residu dihitung sebagai y_predicted - y_true untuk semua sampel dan kemudian ditampilkan sebagai histogram untuk menunjukkan bias model.

Dalam contoh ini, perhatikan bahwa kedua model sedikit bias untuk memprediksi lebih rendah dari nilai aktual. Ini umum untuk himpunan data dengan distribusi miring dari target aktual, tetapi menunjukkan performa model yang lebih buruk. Model yang baik akan memiliki distribusi residu yang memuncak pada nol dengan beberapa residu pada ekstrem. Model yang lebih buruk akan memiliki distribusi residu yang tersebar dengan lebih sedikit sampel di sekitar nol.

Bagan residu untuk model yang baik

Residuals chart for a good model

Bagan residu untuk model yang buruk

Residuals chart for a bad model

Diprediksi vs. true

Untuk eksperimen regresi dan prakiraan, bagan yang diprediksi vs. true membuat plot hubungan antara fitur target (nilai sejati/aktual) dan prediksi model. Nilai sejati terikat di sepanjang sumbu x dan untuk setiap bin, nilai rata-rata yang diprediksi dibuat plot dengan bilah kesalahan. Ini memungkinkan Anda melihat apakah model bias terhadap prediksi nilai-nilai tertentu. Baris menampilkan prediksi rata-rata dan area berbayang menunjukkan varian prediksi di sekitar rata-rata itu.

Sering kali, nilai true yang paling umum akan memiliki prediksi yang paling akurat dengan varians terendah. Jarak garis tren dari garis y = x ideal yang mana ada beberapa nilai true merupakan ukuran performa model yang baik pada outlier. Anda bisa menggunakan histogram di bagian bawah bagan untuk alasan tentang distribusi data aktual. Termasuk lebih banyak sampel data yang mana distribusi jarang bisa meningkatkan performa model pada data yang tidak terlihat.

Dalam contoh ini, perhatikan bahwa model yang lebih baik memiliki garis yang diprediksi vs. true yang lebih dekat ke garis y = x ideal.

Bagan yang diprediksi vs. true untuk model yang baik

Predicted vs. true chart for a good model

Bagan yang diprediksi vs. true untuk model yang buruk

Predicted vs. true chart for a bad model

Cakrawala prakiraan

Untuk eksperimen prakiraan, bagan horizon prakiraan memplot hubungan antara nilai prediksi model dan nilai aktual yang dipetakan dari waktu ke waktu per bagian validasi silang, hingga 5 bagian. Sumbu x memetakan waktu berdasarkan frekuensi yang Anda berikan selama pengaturan latihan. Garis vertikal dalam bagan menandai titik horizon prakiraan juga disebut sebagai garis horizon, yang merupakan periode waktu di mana Anda ingin mulai menghasilkan prediksi. Di sebelah kiri garis horizon prakiraan, Anda dapat melihat data pelatihan historis untuk memvisualisasikan tren sebelumnya dengan lebih baik. Di sebelah kanan horizon prakiraan, Anda dapat memvisualisasikan prediksi (garis ungu) terhadap aktual (garis biru) untuk bagian validasi silang dan pengidentifikasi deret waktu yang berbeda. Area ungu yang diarsir menunjukkan interval kepercayaan atau varians prediksi di sekitar rata-rata tersebut.

Anda dapat memilih bagian validasi silang dan kombinasi pengidentifikasi deret waktu mana yang akan ditampilkan dengan mengeklik ikon pensil edit di sudut kanan atas bagan. Pilih dari 5 bagian validasi silang pertama dan hingga 20 pengidentifikasi rangkaian waktu yang berbeda untuk memvisualisasikan bagan untuk berbagai rangkaian waktu Anda.

Penting

Bagan ini tersedia dalam pelatihan yang dijalankan untuk model yang dihasilkan dari data pelatihan dan validasi serta dalam eksekusi pengujian berdasarkan data pelatihan dan data pengujian. Kami mengizinkan hingga 20 poin data sebelum dan hingga 80 poin data setelah asal prakiraan. Untuk model DNN, bagan dalam eksekusi pelatihan ini menunjukkan data dari epoch terakhir yaitu setelah model dilatih sepenuhnya. Bagan dalam uji coba ini dapat memiliki celah sebelum garis horizon jika data validasi disediakan secara eksplisit selama pelatihan berjalan. Ini karena data pelatihan dan data pengujian digunakan dalam eksekusi pengujian meninggalkan data validasi yang menghasilkan kesenjangan.

Forecast horizon chart

Metrik untuk model gambar (pratinjau)

ML otomatis menggunakan gambar dari himpunan data validasi untuk mengevaluasi performa model. Performa model diukur pada tingkat waktu untuk memahami perkembangan pelatihan. Waktu berlalu jika seluruh himpunan data diteruskan ke depan dan ke belakang melalui jaringan neural tepat sekali.

Metrik klasifikasi gambar

Metrik utama untuk evaluasi adalah akurasi untuk model klasifikasi biner dan multi-kelas serta IoU(Intersection over Union) untuk model klasifikasi multi-label. Metrik klasifikasi untuk model klasifikasi gambar sama dengan metrik yang ditentukan di bagian metrik klasifikasi. Nilai kerugian yang terkait dengan waktu juga dicatat yang dapat memudahkan pemantauan perkembangan pelatihan berlangsung dan menentukan apakah model terlalu cocok atau kurang cocok.

Setiap prediksi dari model klasifikasi dikaitkan dengan skor keyakinan, yang menunjukkan tingkat keyakinan yang digunakan untuk melakukan prediksi. Model klasifikasi gambar multi-label secara default dievaluasi dengan ambang skor 0,5 yang berarti hanya prediksi dengan setidaknya tingkat keyakinan ini akan dianggap sebagai prediksi positif untuk kelas terkait. Klasifikasi multi-kelas tidak menggunakan ambang skor tetapi sebaliknya, kelas dengan skor keyakinan maksimum dianggap sebagai prediksi.

Metrik tingkat waktu untuk klasifikasi gambar

Berbeda dengan metrik klasifikasi untuk himpunan data tabular, model klasifikasi gambar mencatat semua metrik klasifikasi pada tingkat waktu seperti yang ditunjukkan di bawah.

Epoch-level charts for image classification

Metrik ringkasan untuk klasifikasi gambar

Terlepas dari metrik skalar yang dicatat pada tingkat waktu, model klasifikasi gambar juga mencatat metrik ringkasan seperti matriks kebingungan, bagan klasifikasi termasuk kurva ROC, kurva pengenalan presisi, dan laporan klasifikasi untuk model dari waktu terbaik saat kita mendapatkan skor metrik utama tertinggi (akurasi).

Laporan klasifikasi menyediakan nilai tingkat kelas untuk metrik seperti presisi, pengenalan, skor f1, dukungan, auc dan average_precision dengan berbagai tingkat rata-rata - mikro, makro dan tertimbang seperti yang ditunjukkan di bawah. Lihat definisi metrik dari bagian metrik klasifikasi.

Classification report for image classification

Metrik segmentasi Instans dan deteksi objek

Setiap prediksi dari deteksi objek gambar atau model segmentasi instans dikaitkan dengan skor keyakinan. Prediksi dengan skor keyakinan yang lebih besar dari ambang skor adalah output sebagai prediksi dan digunakan dalam penghitungan metrik, yang nilai default-nya merupakan model spesifik dan dapat dilihat dari halaman penyetelan hyperparameter (box_score_thresholdhyperparameter).

Komputasi metrik deteksi objek gambar dan model segmentasi instans didasarkan pada pengukuran tumpang tindih yang ditentukan oleh metrik yang disebut IoU (Intersection over Union) yang dihitung dengan membagi area tumpang tindih antara kebenaran dasar dan prediksi oleh area penyatuan kebenaran dasar dan prediksi. IoU yang dihitung dari setiap prediksi dibandingkan dengan ambang tumpang tindih yang disebut ambang IoU, yang menentukan banyaknya prediksi yang akan tumpang tindih dengan kebenaran dasar yang dianotasi pengguna agar dianggap sebagai prediksi positif. Jika IoU yang dihitung dari prediksi kurang dari ambang tumpang tindih, prediksi tidak akan dianggap sebagai prediksi positif untuk kelas terkait.

Metrik utama untuk evaluasi deteksi objek gambar dan model segmentasi instans adalah presisi menengah rata-rata (mAP). mAP adalah nilai rata-rata presisi rata-rata (AP) di semua kelas. Model deteksi objek ML otomatis mendukung komputasi mAP menggunakan dua metode populer berikut.

Metrik Pascal VOC:

mAP Pascal VOC adalah cara penghitungan mAP default untuk model segmentasi deteksi/instans objek. Metode mAP gaya Pascal VOC menghitung area dengan versi kurva pengenalan presisi. p(rᵢ) pertama, yang merupakan presisi pada pengenalan i dihitung untuk semua nilai pengenalan unik. p(rᵢ) kemudian diganti dengan presisi maksimum yang diperoleh untuk semua pengenalan r' >= rᵢ. Nilai presisi menurun secara monoton dalam versi kurva ini. Metrik mAP Pascal VOC dievaluasi secara default dengan ambang IoU 0,5. Penjelasan mendetail tentang konsep dapat ditemukan di \blog ini.

Metrik COCO:

Metode evaluasi COCO menggunakan metode interpolasi 101 poin untuk perhitungan AP bersama dengan rata-rata lebih dari sepuluh ambang IoU. AP@[.5:.95] bersesuaian dengan AP rata-rata untuk IoU dari 0,5 hingga 0,95 dengan ukuran langkah 0,05. ML otomatis mencatat kedua belas metrik yang ditentukan oleh metode COCO termasuk AP dan AR (pengenalan rata-rata) pada berbagai skala dalam log aplikasi sedangkan antarmuka pengguna metrik hanya menunjukkan mAP pada ambang IoU 0,5.

Tip

Evaluasi model deteksi objek gambar dapat menggunakan metrik COCO jika hyperparameter validation_metric_type diatur ke 'coco' seperti yang dijelaskan di bagian penyetelan hyperparameter.

Metrik tingkat waktu untuk deteksi objek dan segmentasi instans

Nilai mAP, presisi, dan pengenalan dicatat pada tingkat waktu untuk deteksi objek gambar/model segmentasi instans. Metrik mAP, presisi, dan pengenalan juga dicatat pada tingkat kelas dengan nama 'per_label_metrics'. 'per_label_metrics' harus dianggap sebagai tabel.

Catatan

Metrik tingkat waktu untuk presisi, pengenalan, dan per_label_metrics tidak tersedia jika metode 'coco' digunakan.

Epoch-level charts for object detection

Dasbor AI yang bertanggung jawab untuk model AutoML terbaik yang direkomendasikan (pratinjau)

Dasbor Azure Pembelajaran Mesin Responsible AI menyediakan satu antarmuka untuk membantu Anda menerapkan Responsible AI dalam praktiknya secara efektif dan efisien. Dasbor AI yang bertanggung jawab hanya didukung menggunakan data tabular dan hanya didukung pada model klasifikasi dan regresi. Ini menyatukan beberapa alat AI Bertanggung Jawab yang matang di bidang:

Penilaian performa dan kewajaran model
Eksplorasi data
Interpretasi pembelajaran mesin
Analisis kesalahan

Meskipun metrik dan bagan evaluasi model baik untuk mengukur kualitas umum model, operasi seperti memeriksa kewajaran model, melihat penjelasannya (juga dikenal sebagai himpunan data mana yang menampilkan model yang digunakan untuk membuat prediksinya), memeriksa kesalahannya dan potensi titik buta sangat penting saat mempraktikkan AI yang bertanggung jawab. Itulah sebabnya ML otomatis menyediakan dasbor AI yang Bertanggung Jawab untuk membantu Anda mengamati berbagai wawasan untuk model Anda. Lihat cara menampilkan dasbor AI yang bertanggung jawab di studio Azure Pembelajaran Mesin.

Lihat bagaimana Anda dapat menghasilkan dasbor ini melalui UI atau SDK.

Penjelasan model dan pentingnya fitur

Meskipun metrik dan bagan evaluasi model baik untuk mengukur kualitas umum model, memeriksa himpunan data mana yang digunakan model untuk membuat prediksi sangat penting saat mempraktikkan AI yang bertanggung jawab. Itulah sebabnya ML otomatis menyediakan dasbor penjelasan model untuk mengukur dan melaporkan kontribusi relatif dari fitur himpunan data. Lihat cara melihat dasbor penjelasan di studio Azure Machine Learning.

Catatan

Interpretabilitas, penjelasan model terbaik, tidak tersedia untuk eksperimen perkiraan ML otomatis yang merekomendasikan algoritme berikut sebagai model terbaik:

TCNForecaster
AutoArima
EksponensialSmoothing
Prophet
Tengah
Naive
Seasonal Average
Seasonal Naive

Langkah berikutnya

Cobalah contoh buku catatan penjelasan model pembelajaran mesin otomatis.
Untuk pertanyaan khusus ML otomatis, jangkau askautomatedml@microsoft.com.

Mengevaluasi hasil eksperimen pembelajaran mesin otomatis

Prasyarat

Melihat hasil pekerjaan

Metrik klasifikasi

Metrik klasifikasi biner vs. multikelas

Matriks kebingungan

Matriks kebingungan untuk model yang baik

Matriks kebingungan untuk model yang buruk

Kurva ROC

Kurva ROC untuk model yang baik

Kurva ROC untuk model yang buruk

Kurva pengenalan presisi

Kurva precision-recall untuk model yang baik

Kurva precision-recall untuk model yang buruk

Kurva perolehan kumulatif

Kurva perolehan kumulatif untuk model yang baik

Kurva perolehan kumulatif untuk model yang buruk

Kurva angkat

Kurva angkat untuk model yang baik

Kurva angkat untuk model yang buruk

Kurva kalibrasi

Kurva kalibrasi untuk model yang baik

Kurva kalibrasi untuk model yang buruk

Metrik regresi/prakiraan

Normalisasi metrik

Metrik prakiraan: normalisasi dan agregasi

Residu

Bagan residu untuk model yang baik

Bagan residu untuk model yang buruk

Diprediksi vs. true

Bagan yang diprediksi vs. true untuk model yang baik

Bagan yang diprediksi vs. true untuk model yang buruk

Cakrawala prakiraan

Metrik untuk model gambar (pratinjau)

Metrik klasifikasi gambar

Metrik tingkat waktu untuk klasifikasi gambar

Metrik ringkasan untuk klasifikasi gambar

Metrik segmentasi Instans dan deteksi objek

Metrik tingkat waktu untuk deteksi objek dan segmentasi instans

Dasbor AI yang bertanggung jawab untuk model AutoML terbaik yang direkomendasikan (pratinjau)

Penjelasan model dan pentingnya fitur

Langkah berikutnya

Sumber Daya Tambahan: