Mengevaluasi hasil eksperimen pembelajaran mesin otomatis

Dalam artikel ini, pelajari cara mengevaluasi dan membandingkan model yang dilatih oleh eksperimen pembelajaran mesin otomatis (ML otomatis). Selama kursus eksperimen ML otomatis, banyak pekerjaan dibuat dan setiap pekerjaan membuat model. Untuk setiap model, ML otomatis membuat metrik evaluasi dan bagan yang membantu Anda mengukur performa model. Anda selanjutnya dapat menghasilkan dasbor AI Yang Bertanggung Jawab untuk melakukan penilaian holistik dan penelusuran kesalahan model terbaik yang direkomendasikan secara default. Ini termasuk wawasan seperti penjelasan model, penjelajah kewajaran dan performa, penjelajah data, analisis kesalahan model. Pelajari selengkapnya tentang cara membuat dasbor AI yang Bertanggung Jawab.

Misalnya, ML otomatis membuat bagan berikut berdasarkan jenis eksperimen.

Klasifikasi Regresi/prakiraan
Matriks kebingungan Histogram residu
Kurva karakteristik operasi penerima (ROC) Diprediksi vs. true
Kurva precision-recall (PR) Cakrawala prakiraan
Kurva angkat
Kurva perolehan kumulatif
Kurva kalibrasi

Penting

Item yang ditandai (pratinjau) dalam artikel ini sedang dalam pratinjau publik. Versi pratinjau disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Prasyarat

Melihat hasil pekerjaan

Setelah eksperimen ML otomatis Anda selesai, riwayat pekerjaan bisa ditemukan melalui:

Langkah-langkah dan video berikut, menunjukkan kepada Anda cara melihat metrik dan bagan evaluasi model dan histori eksekusi di studio:

  1. Masuk ke studio dan arahkan ke ruang kerja Anda.
  2. Di menu sebelah kiri, pilih Pekerjaan.
  3. Pilih eksperimen Anda dari daftar eksperimen.
  4. Dalam tabel di bagian bawah halaman, pilih pekerjaan ML otomatis.
  5. Di tab Model, pilih Nama algoritme untuk model yang ingin Anda evaluasi.
  6. Di tab Metrik, gunakan kotak centang di sebelah kiri untuk melihat metrik dan bagan.

Metrik klasifikasi

ML otomatis menghitung metrik performa untuk setiap model klasifikasi yang dibuat untuk eksperimen Anda. Metrik ini didasarkan pada penerapan scikit learn.

Banyak metrik klasifikasi ditentukan untuk klasifikasi biner pada dua kelas, dan memerlukan rata-rata atas kelas untuk membuat satu skor untuk klasifikasi multi-kelas. Scikit-learn menyediakan beberapa metode rata-rata, tiga di antara ML otomatisnya mengekspos: makro, mikro, dan tertimbang.

  • Makro - Menghitung metrik untuk setiap kelas dan mengambil rata-rata tidak tertimbang
  • Mikro - Menghitung metrik secara global dengan menghitung total positif sejati, negatif palsu, dan positif palsu (independen dari kelas).
  • Tertimbang - Menghitung metrik untuk setiap kelas dan mengambil rata-rata tertimbang berdasarkan jumlah sampel per kelas.

Meskipun setiap metode rata-rata memiliki keuntungannya, satu pertimbangan umum saat memilih metode yang sesuai adalah ketidakseimbangan kelas. Jika kelas memiliki jumlah sampel yang berbeda, mungkin lebih informatif untuk menggunakan rata-rata makro yang mana kelas minoritas diberikan bobot yang sama dengan kelas mayoritas. Pelajari lebih lanjut tentang metrik biner vs multikelas dalam ML otomatis.

Tabel berikut ini meringkas metrik performa model yang dihitung ML otomatis untuk setiap model klasifikasi yang dibuat untuk eksperimen Anda. Untuk detail selengkapnya, lihat dokumentasi scikit-learn yang ditautkan di bidang Penghitungan setiap metrik.

Catatan

Lihat bagian metrik gambar untuk mengetahui detail lainnya tentang metrik untuk model klasifikasi gambar.

Metrik Deskripsi Penghitungan
AUC AUC adalah Area di bawah Kurva Karakteristik Operasi Penerima.

Tujuan: Lebih dekat ke 1 semakin baik
Rentang: [0, 1]

Nama metrik yang didukung meliputi,
  • AUC_macro, rata-rata aritmatika AUC untuk setiap kelas.
  • AUC_micro, dihitung dengan menghitung total positif benar, negatif palsu, dan positif palsu.
  • AUC_weighted, nilai rata-rata aritmatika untuk setiap kelas, dihitung dengan jumlah instans sejati di setiap kelas.
  • AUC_binary, nilai AUC dengan memperlakukan satu kelas tertentu sebagai kelas true dan menggabungkan semua kelas lainnya sebagai kelas false.

  • Penghitungan
    akurasi Akurasi adalah rasio prediksi yang sama persis dengan label kelas yang benar.

    Tujuan: Lebih dekat ke 1 semakin baik
    Rentang: [0, 1]
    Penghitungan
    average_precision Presisi rata-rata merangkum kurva presisi-recall sebagai rata-rata tertimbang presisi yang dicapai pada setiap ambang, dengan peningkatan pengenalan dari ambang sebelumnya yang digunakan sebagai berat.

    Tujuan: Lebih dekat ke 1 semakin baik
    Rentang: [0, 1]

    Nama metrik yang didukung meliputi,
  • average_precision_score_macro, rata-rata aritmatika dari skor presisi rata-rata setiap kelas.
  • average_precision_score_micro, dihitung dengan menghitung total positif benar, negatif palsu, dan positif palsu.
  • average_precision_score_weighted, nilai rata-rata aritmatika skor presisi rata-rata untuk setiap kelas, dihitung dengan jumlah instans sejati di setiap kelas.
  • average_precision_score_binary, nilai presisi rata-rata dengan memperlakukan satu kelas tertentu sebagai kelas true dan menggabungkan semua kelas lainnya sebagai kelas false.
  • Penghitungan
    balanced_accuracy Akurasi seimbang adalah rata-rata aritmatika pengenalan untuk setiap kelas.

    Tujuan: Lebih dekat ke 1 semakin baik
    Rentang: [0, 1]
    Penghitungan
    f-measure f-measure adalah rata-rata harmonis presisi dan pengenalan. Ini adalah ukuran seimbang yang baik dari positif palsu dan negatif palsu. Namun, itu tidak memperhitungkan negatif sejati.

    Tujuan: Lebih dekat ke 1 semakin baik
    Rentang: [0, 1]

    Nama metrik yang didukung meliputi,
  • f1_score_macro: rata-rata aritmatika f-measure untuk setiap kelas.
  • f1_score_micro: dihitung dengan menghitung total positif sejati, negatif palsu, dan positif palsu.
  • f1_score_weighted: tertimbang rata-rata dengan frekuensi kelas f-measure untuk setiap kelas.
  • f1_score_binary, nilai f1 dengan memperlakukan satu kelas tertentu sebagai kelas true dan menggabungkan semua kelas lainnya sebagai kelas false.
  • Penghitungan
    log_loss Ini adalah fungsi kehilangan yang digunakan dalam regresi logistik (multinomial) dan ekstensinya seperti jaringan saraf, ditentukan sebagai kemungkinan log negatif dari label sejati mengingat prediksi pengklasifikasi probabilistik.

    Tujuan: Lebih dekat ke 0 semakin baik
    Rentang: [0, inf)
    Penghitungan
    norm_macro_recall Pengenalan makro yang dinormalisasi adalah pengenalan makro rata-rata dan dinormalisasi, sehingga performa acak memiliki skor 0, dan performa sempurna memiliki skor 1.

    Tujuan: Lebih dekat ke 1 semakin baik
    Rentang: [0, 1]
    (recall_score_macro - R) / (1 - R)

    yang mana, R adalah nilai yang diharapkan recall_score_macro untuk prediksi acak.

    R = 0.5 untuk klasifikasi biner.
    R = (1 / C) untuk masalah klasifikasi kelas C.
    matthews_correlation Koefisien korelasi Mattews adalah ukuran akurasi yang seimbang, yang bisa digunakan meskipun satu kelas memiliki lebih banyak sampel daripada yang lain. Koefisien 1 menunjukkan prediksi sempurna, prediksi acak 0, dan prediksi terbalik -1.

    Tujuan: Lebih dekat ke 1 semakin baik
    Rentang: [-1, 1]
    Penghitungan
    presisi Presisi adalah kemampuan model untuk menghindari pelabelan sampel negatif sebagai positif.

    Tujuan: Lebih dekat ke 1 semakin baik
    Rentang: [0, 1]

    Nama metrik yang didukung meliputi,
  • precision_score_macro, rata-rata aritmatika presisi untuk setiap kelas.
  • precision_score_micro: dihitung secara global dengan menghitung total positif sejati dan positif palsu.
  • precision_score_weighted, nilai rata-rata aritmatika untuk setiap kelas, dihitung dengan jumlah instans sejati di setiap kelas.
  • precision_score_binary, nilai presisi dengan memperlakukan satu kelas tertentu sebagai kelas true dan menggabungkan semua kelas lainnya sebagai kelas false.
  • Penghitungan
    pengenalan Pengenalan adalah kemampuan model untuk mendeteksi semua sampel positif.

    Tujuan: Lebih dekat ke 1 semakin baik
    Rentang: [0, 1]

    Nama metrik yang didukung meliputi,
  • recall_score_macro, rata-rata aritmatika pengenalan untuk setiap kelas.
  • recall_score_micro: dihitung secara global dengan menghitung total positif sejati, negatif palsu, dan positif palsu.
  • recall_score_weighted, nilai rata-rata aritmatika pengenalan untuk setiap kelas, dihitung dengan jumlah instans sejati di setiap kelas.
  • recall_score_binary, nilai pengenalan dengan memperlakukan satu kelas tertentu sebagai kelas true dan menggabungkan semua kelas lainnya sebagai kelas false.
  • Penghitungan
    weighted_accuracy Akurasi tertimbang adalah akurasi yang mana setiap sampel dihitung oleh jumlah total sampel yang termasuk dalam kelas yang sama.

    Tujuan: Lebih dekat ke 1 semakin baik
    Rentang: [0, 1]
    Penghitungan

    Metrik klasifikasi biner vs. multikelas

    ML otomatis secara otomatis mendeteksi apakah data adalah data biner dan juga memungkinkan pengguna mengaktifkan metrik klasifikasi biner bahkan jika data tersebut adalah data multikelas dengan menentukan kelas true . Metrik klasifikasi multikelas dilaporkan jika himpunan data memiliki dua kelas atau lebih. Metrik klasifikasi biner hanya dilaporkan ketika data adalah biner.

    Perhatikan, metrik klasifikasi multikelas ditujukan untuk klasifikasi multikelas. Saat diterapkan ke himpunan data biner, metrik ini tidak memperlakukan kelas apa pun sebagai true kelas, seperti yang mungkin Anda harapkan. Metrik yang jelas dimaksudkan untuk multikelas dengan akhiran micro, macro, atau weighted. Contoh meliputi average_precision_score, f1_score, precision_score, recall_score, dan AUC. Misalnya, alih-alih menghitung pengenalan sebagai tp / (tp + fn), pengenalan rata-rata multikelas (micro, macro, atau weighted) rata-rata di atas kedua kelas himpunan data klasifikasi biner. Ini setara dengan menghitung pengenalan untuk kelas true dan kelas false secara terpisah, dan kemudian mengambil rata-rata keduanya.

    Selain itu, meski deteksi otomatis klasifikasi biner didukung, tetap disarankan untuk selalu menentukan kelas true secara manual untuk memastikan metrik klasifikasi biner dihitung untuk kelas yang benar.

    Untuk mengaktifkan metrik untuk himpunan data klasifikasi biner saat himpunan data itu sendiri adalah himpunan data multikelas, pengguna hanya perlu menentukan kelas yang akan diperlakukan sebagai kelas true dan metrik ini akan dihitung.

    Matriks kebingungan

    Matriks kebingungan memberikan visual tentang bagaimana model pembelajaran mesin membuat kesalahan sistematis dalam prediksinya untuk model klasifikasi. Kata "kebingungan" dalam nama berasal dari model "membingungkan" atau salah memberi label sampel. Sel di baris i dan kolom j dalam matriks kebingungan berisi jumlah sampel dalam himpunan data evaluasi yang termasuk dalam kelas C_i dan diklasifikasikan oleh model sebagai kelas C_j.

    Di studio, sel yang lebih gelap menunjukkan jumlah sampel yang lebih tinggi. Memilih tampilan Normalisasi di menu drop-down akan menormalkan setiap baris matriks untuk menampilkan persentase C_i kelas yang diprediksi menjadi kelas C_j. Keuntungan dari tampilan Mentah default adalah Anda bisa melihat apakah ketidakseimbangan dalam distribusi kelas aktual menyebabkan model salah mengklasifikasikan sampel dari kelas minoritas, masalah umum dalam himpunan data yang tidak seimbang.

    Matriks kebingungan model yang baik akan memiliki sebagian besar sampel di sepanjang diagonal.

    Matriks kebingungan untuk model yang baik

    Confusion matrix for a good model

    Matriks kebingungan untuk model yang buruk

    Confusion matrix for a bad model

    Kurva ROC

    Kurva karakteristik operasi penerima (ROC) membuat plot hubungan antara tingkat positif sejati (TPR) dan tingkat positif palsu (FPR) saat ambang keputusan berubah. Kurva ROC bisa kurang informatif saat melatih model pada himpunan data dengan ketidakseimbangan kelas tinggi, karena kelas mayoritas bisa menghilangkan kontribusi dari kelas minoritas.

    Area di bawah kurva (AUC) bisa ditafsirkan sebagai proporsi sampel yang diklasifikasikan dengan benar. Lebih tepatnya, AUC adalah probabilitas bahwa pengklasifikasi memberi peringkat sampel positif yang dipilih secara acak lebih tinggi daripada sampel negatif yang dipilih secara acak. Bentuk kurva memberikan intuisi untuk hubungan antara TPR dan FPR sebagai fungsi ambang klasifikasi atau batas keputusan.

    Kurva yang mendekati pojok kiri atas bagan mendekati TPR 100% dan FPR 0%, model terbaik. Model acak akan menghasilkan kurva ROC di sepanjang garis y = x dari pojok kiri bawah ke kanan atas. Model yang lebih buruk dari acak akan memiliki kurva ROC yang turun di bawah garis y = x.

    Tip

    Untuk eksperimen klasifikasi, masing-masing bagan garis yang diproduksi untuk model ML otomatis bisa digunakan untuk mengevaluasi model per kelas atau rata-rata di semua kelas. Anda bisa beralih di antara tampilan yang berbeda ini dengan mengklik label kelas di legenda di sebelah kanan bagan.

    Kurva ROC untuk model yang baik

    ROC curve for a good model

    Kurva ROC untuk model yang buruk

    ROC curve for a bad model

    Kurva pengenalan presisi

    Kurva precision-recall membuat plot hubungan antara presisi dan pengenalan saat ambang keputusan berubah. Pengenalan adalah kemampuan model mendeteksi semua sampel positif dan presisi adalah kemampuan model untuk menghindari pelabelan sampel negatif sebagai positif. Beberapa masalah bisnis mungkin memerlukan pengenalan yang lebih tinggi dan beberapa presisi yang lebih tinggi tergantung pada kepentingan relatif menghindari negatif palsu vs positif palsu.

    Tip

    Untuk eksperimen klasifikasi, masing-masing bagan garis yang diproduksi untuk model ML otomatis bisa digunakan untuk mengevaluasi model per kelas atau rata-rata di semua kelas. Anda bisa beralih di antara tampilan yang berbeda ini dengan mengklik label kelas di legenda di sebelah kanan bagan.

    Kurva precision-recall untuk model yang baik

    Precision-recall curve for a good model

    Kurva precision-recall untuk model yang buruk

    Precision-recall curve for a bad model

    Kurva perolehan kumulatif

    Kurva perolehan kumulatif membuat plot persentase sampel positif yang diklasifikasikan dengan benar sebagai fungsi dari persentase sampel yang dipertimbangkan yang mana kami mempertimbangkan sampel dalam urutan probabilitas yang diprediksi.

    Untuk menghitung perolehan, pertama-tama urutkan semua sampel dari probabilitas tertinggi hingga terendah yang diprediksi oleh model. Kemudian ambil x% prediksi keyakinan tertinggi. Bagi jumlah sampel positif yang terdeteksi dalam x% dengan jumlah total sampel positif untuk mendapatkan perolehan. Perolehan kumulatif adalah persentase sampel positif yang kami deteksi saat mempertimbangkan beberapa persen dari data yang kemungkinan besar termasuk dalam kelas positif.

    Model yang sempurna akan memberi peringkat semua sampel positif di atas semua sampel negatif yang memberikan kurva perolehan kumulatif yang terdiri dari dua segmen lurus. Yang pertama adalah garis dengan kemiringan 1 / x dari (0, 0) ke (x, 1) yang mana x adalah fraksi sampel yang termasuk dalam kelas positif (1 / num_classesjika kelas seimbang). Yang kedua adalah garis horizontal dari (x, 1) ke (1, 1). Pada segmen pertama, semua sampel positif diklasifikasikan dengan benar dan perolehan kumulatif masuk ke 100% dalam sampel x% pertama yang dipertimbangkan.

    Model acak garis besar akan memiliki kurva perolehan kumulatif setelah y = x yang mana untuk x% sampel yang dipertimbangkan hanya tentang x% total sampel positif terdeteksi. Model yang sempurna untuk sebuah himpunan data yang seimbang akan memiliki kurva rata-rata mikro dan baris rata-rata mikro yang memiliki kemiringan num_classes hingga perolehan kumulatif 100% dan kemudian horizontal hingga rsen data adalah 100.

    Tip

    Untuk eksperimen klasifikasi, masing-masing bagan garis yang diproduksi untuk model ML otomatis bisa digunakan untuk mengevaluasi model per kelas atau rata-rata di semua kelas. Anda bisa beralih di antara tampilan yang berbeda ini dengan mengklik label kelas di legenda di sebelah kanan bagan.

    Kurva perolehan kumulatif untuk model yang baik

    Cumulative gains curve for a good model

    Kurva perolehan kumulatif untuk model yang buruk

    Cumulative gains curve for a bad model

    Kurva angkat

    Kurva angkat menunjukkan berapa kali lebih baik performa model dibandingkan dengan model acak. Angkat didefinisikan sebagai rasio perolehan kumulatif terhadap perolehan kumulatif model acak (yang seharusnya selalu 1).

    Performa relatif ini memperhitungkan fakta bahwa klasifikasi semakin sulit saat Anda meningkatkan jumlah kelas. (Model acak salah memprediksi pecahan sampel yang lebih tinggi dari himpunan data dengan 10 kelas dibandingkan dengan himpunan data dengan dua kelas)

    Kurva angkat garis besar adalah garis y = 1 yang mana performa model konsisten dengan model acak. Secara umum, kurva angkat untuk model yang baik akan lebih tinggi pada grafik tersebut dan lebih jauh dari sumbu x, menunjukkan bahwa saat model paling yakin dalam prediksinya, dengan performa berkali-kali lebih baik daripada penebakan acak.

    Tip

    Untuk eksperimen klasifikasi, masing-masing bagan garis yang diproduksi untuk model ML otomatis bisa digunakan untuk mengevaluasi model per kelas atau rata-rata di semua kelas. Anda bisa beralih di antara tampilan yang berbeda ini dengan mengklik label kelas di legenda di sebelah kanan bagan.

    Kurva angkat untuk model yang baik

    Lift curve for a good model

    Kurva angkat untuk model yang buruk

    Lift curve for a bad model

    Kurva kalibrasi

    Kurva kalibrasi membuat plot keyakinan model pada prediksinya terhadap proporsi sampel positif di setiap tingkat keyakinan. Model yang dikalibrasi dengan baik akan mengklasifikasikan 100% prediksi dengan benar yang menetapkan keyakinan 100%, 50% dari prediksi yang ditetapkannya 50% keyakinan, 20% dari prediksi yang menetapkan keyakinan 20%, dan sebagainya. Model yang dikalibrasi dengan sempurna akan memiliki kurva kalibrasi yang mengikuti garis y = x yang mana model memprediksi dengan sempurna probabilitas bahwa sampel termasuk dalam setiap kelas.

    Model yang terlalu yakin akan memprediksi probabilitas yang berlebihan mendekati nol dan satu, jarang menjadi tidak pasti tentang kelas setiap sampel dan kurva kalibrasi akan terlihat mirip dengan "S" terbalik. Model yang kurang yakin akan menetapkan probabilitas yang lebih rendah rata-rata ke kelas yang diprediksinya dan kurva kalibrasi terkait akan terlihat mirip dengan "S". Kurva kalibrasi tidak menggambarkan kemampuan model untuk mengklasifikasikan dengan benar, tetapi sebaliknya kemampuannya untuk menetapkan keyakinan dengan benar pada prediksinya. Model yang buruk masih bisa memiliki kurva kalibrasi yang baik jika model dengan benar menetapkan keyakinan rendah dan ketidakpastian tinggi.

    Catatan

    Kurva kalibrasi sensitif terhadap jumlah sampel, sehingga set validasi kecil bisa membuat hasil yang bising yang bisa sulit ditafsirkan. Ini tidak selalu berarti bahwa model tidak dikalibrasi dengan baik.

    Kurva kalibrasi untuk model yang baik

    Calibration curve for a good model

    Kurva kalibrasi untuk model yang buruk

    Calibration curve for a bad model

    Metrik regresi/prakiraan

    ML otomatis menghitung metrik performa yang sama untuk setiap model yang dihasilkan, terlepas dari apakah itu adalah eksperimen regresi atau prakiraan. Metrik ini juga mengalami normalisasi untuk memungkinkan perbandingan antara model yang dilatih pada data dengan rentang yang berbeda. Untuk mempelajari lebih lanjut, lihat normalisasi metrik.

    Tabel berikut ini meringkas metrik performa model yang dibuat untuk eksperimen regresi dan prakiraan. Seperti metrik klasifikasi, metrik ini juga didasarkan pada penerapan scikit learn. Dokumentasi scikit learn yang sesuai ditautkan, di bidang Penghitungan.

    Metrik Deskripsi Penghitungan
    explained_variance Varians yang dijelaskan mengukur sejauh mana model memperhitungkan variasi dalam variabel target. Ini adalah penurunan persen dalam varians data asli ke varian kesalahan. Saat rata-rata kesalahan adalah 0, itu sama dengan koefisien penentuan (lihat r2_score di bawah).

    Tujuan: Lebih dekat ke 1 semakin baik
    Rentang: (-inf, 1]
    Penghitungan
    mean_absolute_error Kesalahan absolut rata-rata adalah nilai yang diharapkan dari nilai absolut selisih antara target dan prediksi.

    Tujuan: Lebih dekat ke 0 semakin baik
    Rentang: [0, inf)

    Jenis:
    mean_absolute_error
    normalized_mean_absolute_error, mean_absolute_error dipisahkan oleh rentang data.
    Penghitungan
    mean_absolute_percentage_error Kesalahan persentase absolut rata-rata (MAPE) adalah ukuran perbedaan rata-rata antara nilai yang diprediksi dan nilai aktual.

    Tujuan: Lebih dekat ke 0 semakin baik
    Rentang: [0, inf)
    median_absolute_error Kesalahan absolut median adalah median dari semua perbedaan absolut antara target dan prediksi. Kehilangan ini kuat untuk outlier.

    Tujuan: Lebih dekat ke 0 semakin baik
    Rentang: [0, inf)

    Jenis:
    median_absolute_error
    normalized_median_absolute_error, mean_absolute_error dibagi dengan rentang data.
    Penghitungan
    r2_score R2 (koefisien penentuan) mengukur pengurangan proporsional dalam mean squared error (MSE) relatif terhadap total varian data yang diamati.

    Tujuan: Lebih dekat ke 1 semakin baik
    Rentang: [-1, 1]

    Catatan: R2 sering memiliki rentang (-inf, 1]. MSE bisa lebih besar dari varians yang diamati, sehingga R2 bisa memiliki nilai negatif yang sangat besar, tergantung pada data dan prediksi model. Klip ML otomatis melaporkan skor R2 di -1, jadi nilai -1 untuk R2 kemungkinan berarti bahwa skor R2 yang sebenarnya kurang dari -1. Pertimbangkan nilai metrik lain dan properti data saat menginterpretasikan skor R2 negatif.
    Penghitungan
    root_mean_squared_error Root mean squared error (RMSE) adalah akar kuadrat dari perbedaan kuadrat yang diharapkan antara target dan prediksi. Untuk estimator yang tidak bias, RMSE sama dengan simpangan baku.

    Tujuan: Lebih dekat ke 0 semakin baik
    Rentang: [0, inf)

    Jenis:
    root_mean_squared_error
    normalized_root_mean_squared_error: root_mean_squared_error dibagi dengan rentang data.
    Penghitungan
    root_mean_squared_log_error Akar berarti kesalahan log kuadrat adalah akar kuadrat dari kesalahan logaritma kuadrat yang diharapkan.

    Tujuan: Lebih dekat ke 0 semakin baik
    Rentang: [0, inf)

    Jenis:
    root_mean_squared_log_error
    normalized_root_mean_squared_log_error: root_mean_squared_log_error dibagi dengan rentang data.
    Penghitungan
    spearman_correlation Korelasi Spearman adalah ukuran nonparametric dari monotonisitas hubungan antara dua himpunan data. Tidak seperti korelasi Pearson, korelasi Spearman tidak berasumsi bahwa kedua himpunan data biasanya didistribusikan. Seperti koefisien korelasi lainnya, Spearman bervariasi antara -1 dan 1 dengan 0 menyiratkan tidak ada korelasi. Korelasi -1 atau 1 menyiratkan hubungan monotonik yang tepat.

    Spearman adalah metrik korelasi urutan peringkat yang berarti bahwa perubahan pada nilai yang diprediksi atau aktual tidak akan mengubah hasil Spearman jika tidak mengubah urutan peringkat nilai yang diprediksi atau aktual.

    Tujuan: Lebih dekat ke 1 semakin baik
    Rentang: [-1, 1]
    Penghitungan

    Normalisasi metrik

    ML otomatis menormalkan metrik regresi dan prakiraan yang memungkinkan perbandingan antara model yang dilatih pada data dengan rentang yang berbeda. Model yang dilatih pada data dengan rentang yang lebih besar memiliki kesalahan yang lebih tinggi daripada model yang sama yang dilatih pada data dengan rentang yang lebih kecil, kecuali kesalahan itu dinormalisasi.

    Meskipun tidak ada metode standar untuk menormalkan metrik kesalahan, ML otomatis melakukan pendekatan umum untuk membagi kesalahan dengan rentang data: normalized_error = error / (y_max - y_min)

    Catatan

    Rentang data tidak disimpan dengan model. Jika Anda melakukan inferensi dengan model yang sama pada rangkaian pengujian holdout, y_min dan y_max dapat berubah sesuai dengan data pengujian dan metrik yang dinormalisasi mungkin tidak langsung digunakan untuk membandingkan performa pada rangkaian pelatihan dan pengujian. Anda dapat meneruskan nilai y_min dan y_max dari set pelatihan Anda agar perbandingan seimbang.

    Metrik prakiraan: normalisasi dan agregasi

    Menghitung metrik untuk memperkirakan evaluasi model memerlukan beberapa pertimbangan khusus ketika data berisi beberapa rangkaian waktu. Ada dua pilihan alami untuk menggabungkan metrik melalui beberapa seri:

    1. Rata-rata makro di mana metrik evaluasi dari setiap seri diberikan bobot yang sama,
    2. Rata-rata mikro di mana metrik evaluasi untuk setiap prediksi memiliki bobot yang sama.

    Kasus-kasus ini memiliki analogi langsung ke makro dan rata-rata mikro dalam klasifikasi multi-kelas.

    Perbedaan antara makro dan rata-rata mikro bisa menjadi penting saat memilih metrik utama untuk pemilihan model. Misalnya, pertimbangkan skenario ritel di mana Anda ingin memperkirakan permintaan untuk pilihan produk konsumen. Beberapa produk menjual pada volume yang jauh lebih tinggi daripada yang lain. Jika Anda memilih RMSE rata-rata mikro sebagai metrik utama, ada kemungkinan bahwa item volume tinggi akan berkontribusi sebagian besar kesalahan pemodelan dan, akibatnya, mendominasi metrik. Algoritma pemilihan model kemudian dapat mendukung model dengan akurasi yang lebih tinggi pada item volume tinggi daripada pada yang volume rendah. Sebaliknya, RMSE rata-rata makro yang dinormalisasi memberikan item volume rendah sekitar bobot yang sama dengan item volume tinggi.

    Tabel berikut menunjukkan metrik prakiraan AutoML mana yang menggunakan makro vs. rata-rata mikro:

    Makro rata-rata Rata-rata mikro
    normalized_mean_absolute_error, normalized_median_absolute_error, normalized_root_mean_squared_error, normalized_root_mean_squared_log_error mean_absolute_error, median_absolute_error, root_mean_squared_error, root_mean_squared_log_error, r2_score, explained_variance, spearman_correlation, mean_absolute_percentage_error

    Perhatikan bahwa metrik rata-rata makro menormalkan setiap seri secara terpisah. Metrik yang dinormalisasi dari setiap seri kemudian dirata-ratakan untuk memberikan hasil akhir. Pilihan makro vs. mikro yang benar tergantung pada skenario bisnis, tetapi kami umumnya merekomendasikan menggunakan normalized_root_mean_squared_error.

    Residu

    Bagan residu adalah histogram dari kesalahan prediksi (residu) yang dibuat untuk eksperimen regresi dan prakiraan. Residu dihitung sebagai y_predicted - y_true untuk semua sampel dan kemudian ditampilkan sebagai histogram untuk menunjukkan bias model.

    Dalam contoh ini, perhatikan bahwa kedua model sedikit bias untuk memprediksi lebih rendah dari nilai aktual. Ini umum untuk himpunan data dengan distribusi miring dari target aktual, tetapi menunjukkan performa model yang lebih buruk. Model yang baik akan memiliki distribusi residu yang memuncak pada nol dengan beberapa residu pada ekstrem. Model yang lebih buruk akan memiliki distribusi residu yang tersebar dengan lebih sedikit sampel di sekitar nol.

    Bagan residu untuk model yang baik

    Residuals chart for a good model

    Bagan residu untuk model yang buruk

    Residuals chart for a bad model

    Diprediksi vs. true

    Untuk eksperimen regresi dan prakiraan, bagan yang diprediksi vs. true membuat plot hubungan antara fitur target (nilai sejati/aktual) dan prediksi model. Nilai sejati terikat di sepanjang sumbu x dan untuk setiap bin, nilai rata-rata yang diprediksi dibuat plot dengan bilah kesalahan. Ini memungkinkan Anda melihat apakah model bias terhadap prediksi nilai-nilai tertentu. Baris menampilkan prediksi rata-rata dan area berbayang menunjukkan varian prediksi di sekitar rata-rata itu.

    Sering kali, nilai true yang paling umum akan memiliki prediksi yang paling akurat dengan varians terendah. Jarak garis tren dari garis y = x ideal yang mana ada beberapa nilai true merupakan ukuran performa model yang baik pada outlier. Anda bisa menggunakan histogram di bagian bawah bagan untuk alasan tentang distribusi data aktual. Termasuk lebih banyak sampel data yang mana distribusi jarang bisa meningkatkan performa model pada data yang tidak terlihat.

    Dalam contoh ini, perhatikan bahwa model yang lebih baik memiliki garis yang diprediksi vs. true yang lebih dekat ke garis y = x ideal.

    Bagan yang diprediksi vs. true untuk model yang baik

    Predicted vs. true chart for a good model

    Bagan yang diprediksi vs. true untuk model yang buruk

    Predicted vs. true chart for a bad model

    Cakrawala prakiraan

    Untuk eksperimen prakiraan, bagan horizon prakiraan memplot hubungan antara nilai prediksi model dan nilai aktual yang dipetakan dari waktu ke waktu per bagian validasi silang, hingga 5 bagian. Sumbu x memetakan waktu berdasarkan frekuensi yang Anda berikan selama pengaturan latihan. Garis vertikal dalam bagan menandai titik horizon prakiraan juga disebut sebagai garis horizon, yang merupakan periode waktu di mana Anda ingin mulai menghasilkan prediksi. Di sebelah kiri garis horizon prakiraan, Anda dapat melihat data pelatihan historis untuk memvisualisasikan tren sebelumnya dengan lebih baik. Di sebelah kanan horizon prakiraan, Anda dapat memvisualisasikan prediksi (garis ungu) terhadap aktual (garis biru) untuk bagian validasi silang dan pengidentifikasi deret waktu yang berbeda. Area ungu yang diarsir menunjukkan interval kepercayaan atau varians prediksi di sekitar rata-rata tersebut.

    Anda dapat memilih bagian validasi silang dan kombinasi pengidentifikasi deret waktu mana yang akan ditampilkan dengan mengeklik ikon pensil edit di sudut kanan atas bagan. Pilih dari 5 bagian validasi silang pertama dan hingga 20 pengidentifikasi rangkaian waktu yang berbeda untuk memvisualisasikan bagan untuk berbagai rangkaian waktu Anda.

    Penting

    Bagan ini tersedia dalam pelatihan yang dijalankan untuk model yang dihasilkan dari data pelatihan dan validasi serta dalam eksekusi pengujian berdasarkan data pelatihan dan data pengujian. Kami mengizinkan hingga 20 poin data sebelum dan hingga 80 poin data setelah asal prakiraan. Untuk model DNN, bagan dalam eksekusi pelatihan ini menunjukkan data dari epoch terakhir yaitu setelah model dilatih sepenuhnya. Bagan dalam uji coba ini dapat memiliki celah sebelum garis horizon jika data validasi disediakan secara eksplisit selama pelatihan berjalan. Ini karena data pelatihan dan data pengujian digunakan dalam eksekusi pengujian meninggalkan data validasi yang menghasilkan kesenjangan.

    Forecast horizon chart

    Metrik untuk model gambar (pratinjau)

    ML otomatis menggunakan gambar dari himpunan data validasi untuk mengevaluasi performa model. Performa model diukur pada tingkat waktu untuk memahami perkembangan pelatihan. Waktu berlalu jika seluruh himpunan data diteruskan ke depan dan ke belakang melalui jaringan neural tepat sekali.

    Metrik klasifikasi gambar

    Metrik utama untuk evaluasi adalah akurasi untuk model klasifikasi biner dan multi-kelas serta IoU(Intersection over Union) untuk model klasifikasi multi-label. Metrik klasifikasi untuk model klasifikasi gambar sama dengan metrik yang ditentukan di bagian metrik klasifikasi. Nilai kerugian yang terkait dengan waktu juga dicatat yang dapat memudahkan pemantauan perkembangan pelatihan berlangsung dan menentukan apakah model terlalu cocok atau kurang cocok.

    Setiap prediksi dari model klasifikasi dikaitkan dengan skor keyakinan, yang menunjukkan tingkat keyakinan yang digunakan untuk melakukan prediksi. Model klasifikasi gambar multi-label secara default dievaluasi dengan ambang skor 0,5 yang berarti hanya prediksi dengan setidaknya tingkat keyakinan ini akan dianggap sebagai prediksi positif untuk kelas terkait. Klasifikasi multi-kelas tidak menggunakan ambang skor tetapi sebaliknya, kelas dengan skor keyakinan maksimum dianggap sebagai prediksi.

    Metrik tingkat waktu untuk klasifikasi gambar

    Berbeda dengan metrik klasifikasi untuk himpunan data tabular, model klasifikasi gambar mencatat semua metrik klasifikasi pada tingkat waktu seperti yang ditunjukkan di bawah.

    Epoch-level charts for image classification

    Metrik ringkasan untuk klasifikasi gambar

    Terlepas dari metrik skalar yang dicatat pada tingkat waktu, model klasifikasi gambar juga mencatat metrik ringkasan seperti matriks kebingungan, bagan klasifikasi termasuk kurva ROC, kurva pengenalan presisi, dan laporan klasifikasi untuk model dari waktu terbaik saat kita mendapatkan skor metrik utama tertinggi (akurasi).

    Laporan klasifikasi menyediakan nilai tingkat kelas untuk metrik seperti presisi, pengenalan, skor f1, dukungan, auc dan average_precision dengan berbagai tingkat rata-rata - mikro, makro dan tertimbang seperti yang ditunjukkan di bawah. Lihat definisi metrik dari bagian metrik klasifikasi.

    Classification report for image classification

    Metrik segmentasi Instans dan deteksi objek

    Setiap prediksi dari deteksi objek gambar atau model segmentasi instans dikaitkan dengan skor keyakinan. Prediksi dengan skor keyakinan yang lebih besar dari ambang skor adalah output sebagai prediksi dan digunakan dalam penghitungan metrik, yang nilai default-nya merupakan model spesifik dan dapat dilihat dari halaman penyetelan hyperparameter (box_score_thresholdhyperparameter).

    Komputasi metrik deteksi objek gambar dan model segmentasi instans didasarkan pada pengukuran tumpang tindih yang ditentukan oleh metrik yang disebut IoU (Intersection over Union) yang dihitung dengan membagi area tumpang tindih antara kebenaran dasar dan prediksi oleh area penyatuan kebenaran dasar dan prediksi. IoU yang dihitung dari setiap prediksi dibandingkan dengan ambang tumpang tindih yang disebut ambang IoU, yang menentukan banyaknya prediksi yang akan tumpang tindih dengan kebenaran dasar yang dianotasi pengguna agar dianggap sebagai prediksi positif. Jika IoU yang dihitung dari prediksi kurang dari ambang tumpang tindih, prediksi tidak akan dianggap sebagai prediksi positif untuk kelas terkait.

    Metrik utama untuk evaluasi deteksi objek gambar dan model segmentasi instans adalah presisi menengah rata-rata (mAP). mAP adalah nilai rata-rata presisi rata-rata (AP) di semua kelas. Model deteksi objek ML otomatis mendukung komputasi mAP menggunakan dua metode populer berikut.

    Metrik Pascal VOC:

    mAP Pascal VOC adalah cara penghitungan mAP default untuk model segmentasi deteksi/instans objek. Metode mAP gaya Pascal VOC menghitung area dengan versi kurva pengenalan presisi. p(rᵢ) pertama, yang merupakan presisi pada pengenalan i dihitung untuk semua nilai pengenalan unik. p(rᵢ) kemudian diganti dengan presisi maksimum yang diperoleh untuk semua pengenalan r' >= rᵢ. Nilai presisi menurun secara monoton dalam versi kurva ini. Metrik mAP Pascal VOC dievaluasi secara default dengan ambang IoU 0,5. Penjelasan mendetail tentang konsep dapat ditemukan di \blog ini.

    Metrik COCO:

    Metode evaluasi COCO menggunakan metode interpolasi 101 poin untuk perhitungan AP bersama dengan rata-rata lebih dari sepuluh ambang IoU. AP@[.5:.95] bersesuaian dengan AP rata-rata untuk IoU dari 0,5 hingga 0,95 dengan ukuran langkah 0,05. ML otomatis mencatat kedua belas metrik yang ditentukan oleh metode COCO termasuk AP dan AR (pengenalan rata-rata) pada berbagai skala dalam log aplikasi sedangkan antarmuka pengguna metrik hanya menunjukkan mAP pada ambang IoU 0,5.

    Tip

    Evaluasi model deteksi objek gambar dapat menggunakan metrik COCO jika hyperparameter validation_metric_type diatur ke 'coco' seperti yang dijelaskan di bagian penyetelan hyperparameter.

    Metrik tingkat waktu untuk deteksi objek dan segmentasi instans

    Nilai mAP, presisi, dan pengenalan dicatat pada tingkat waktu untuk deteksi objek gambar/model segmentasi instans. Metrik mAP, presisi, dan pengenalan juga dicatat pada tingkat kelas dengan nama 'per_label_metrics'. 'per_label_metrics' harus dianggap sebagai tabel.

    Catatan

    Metrik tingkat waktu untuk presisi, pengenalan, dan per_label_metrics tidak tersedia jika metode 'coco' digunakan.

    Epoch-level charts for object detection

    Dasbor Azure Pembelajaran Mesin Responsible AI menyediakan satu antarmuka untuk membantu Anda menerapkan Responsible AI dalam praktiknya secara efektif dan efisien. Dasbor AI yang bertanggung jawab hanya didukung menggunakan data tabular dan hanya didukung pada model klasifikasi dan regresi. Ini menyatukan beberapa alat AI Bertanggung Jawab yang matang di bidang:

    • Penilaian performa dan kewajaran model
    • Eksplorasi data
    • Interpretasi pembelajaran mesin
    • Analisis kesalahan

    Meskipun metrik dan bagan evaluasi model baik untuk mengukur kualitas umum model, operasi seperti memeriksa kewajaran model, melihat penjelasannya (juga dikenal sebagai himpunan data mana yang menampilkan model yang digunakan untuk membuat prediksinya), memeriksa kesalahannya dan potensi titik buta sangat penting saat mempraktikkan AI yang bertanggung jawab. Itulah sebabnya ML otomatis menyediakan dasbor AI yang Bertanggung Jawab untuk membantu Anda mengamati berbagai wawasan untuk model Anda. Lihat cara menampilkan dasbor AI yang bertanggung jawab di studio Azure Pembelajaran Mesin.

    Lihat bagaimana Anda dapat menghasilkan dasbor ini melalui UI atau SDK.

    Penjelasan model dan pentingnya fitur

    Meskipun metrik dan bagan evaluasi model baik untuk mengukur kualitas umum model, memeriksa himpunan data mana yang digunakan model untuk membuat prediksi sangat penting saat mempraktikkan AI yang bertanggung jawab. Itulah sebabnya ML otomatis menyediakan dasbor penjelasan model untuk mengukur dan melaporkan kontribusi relatif dari fitur himpunan data. Lihat cara melihat dasbor penjelasan di studio Azure Machine Learning.

    Catatan

    Interpretabilitas, penjelasan model terbaik, tidak tersedia untuk eksperimen perkiraan ML otomatis yang merekomendasikan algoritme berikut sebagai model terbaik:

    • TCNForecaster
    • AutoArima
    • EksponensialSmoothing
    • Prophet
    • Tengah
    • Naive
    • Seasonal Average
    • Seasonal Naive

    Langkah berikutnya