Metrik evaluasi untuk model alur kerja orkestrasi

Himpunan data Anda dibagi menjadi dua bagian: satu set untuk pelatihan, dan satu set untuk pengujian. Set pelatihan digunakan untuk melatih model, sementara set pengujian digunakan sebagai pengujian untuk model setelah pelatihan untuk menghitung performa dan evaluasi model. Set pengujian tidak diperkenalkan ke model melalui proses pelatihan, untuk memastikan bahwa model diuji pada data baru.

Evaluasi model dipicu secara otomatis setelah pelatihan berhasil diselesaikan. Proses evaluasi dimulai dengan menggunakan model terlatih untuk memprediksi niat yang ditentukan pengguna untuk ucapan dalam set pengujian, dan membandingkannya dengan tag data yang disediakan (yang menetapkan garis besar kebenaran). Hasil ditampilkan sehingga Anda dapat meninjau performa model. Untuk evaluasi, alur kerja orkestrasi menggunakan metrik berikut:

  • Presisi: Mengukur seberapa presisi/akurat model Anda. Ini adalah rasio antara positif yang diidentifikasi dengan benar (positif sejati) dan semua positif yang diidentifikasi. Metrik presisi mengungkapkan berapa banyak kelas yang diprediksi diberi label dengan benar.

    Precision = #True_Positive / (#True_Positive + #False_Positive)

  • Pengenalan: Mengukur kemampuan model untuk memprediksi kelas positif aktual. Ini adalah rasio antara prediksi positif sejati dan apa yang sebenarnya ditandai. Metrik pengenalan mengungkapkan berapa banyak kelas yang diprediksi benar.

    Recall = #True_Positive / (#True_Positive + #False_Negatives)

  • F-measure: F-measure adalah fungsi dari Presisi dan Pengenalan. Hal ini diperlukan ketika Anda mencari keseimbangan antara Presisi dan Pengenalan.

    F1 Score = 2 * Precision * Recall / (Precision + Recall)

Skor presisi, pengenalan, dan f-measure dihitung untuk:

  • Setiap niat secara terpisah (evaluasi tingkat niat)
  • Untuk model secara kolektif (evaluasi tingkat model).

Definisi presisi, pengenalan, dan evaluasi adalah sama untuk evaluasi tingkat niat dan tingkat model. Namun, jumlah untuk Positif Benar, Positif Palsu, dan Negatif Palsu dapat berbeda. Misalnya, pertimbangkan teks berikut ini.

Contoh

  • Buat tanggapan dengan terima kasih banyak
  • Hubungi teman saya
  • Hello
  • Selamat pagi

Ini adalah niat yang digunakan: CLUEmail dan Salam

Model ini dapat membuat prediksi berikut:

Ucapan Niat yang diprediksi Niat sebenarnya
Buat tanggapan dengan terima kasih banyak CLUEmail CLUEmail
Hubungi teman saya Salam CLUEmail
Hello CLUEmail Salam
Goodmorning Salam Salam

Evaluasi tingkat niat untuk CLUEmail niat

Kunci Count Penjelasan
Positif Benar 1 Ucapan 1 diprediksi dengan benar sebagai CLUEmail.
Positif Palsu 1 Ucapan 3 diprediksi secara keliru sebagai CLUEmail.
Negatif Palsu 1 Ucapan 2 diprediksi secara keliru sebagai Salam.

Presisi = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Pengenalan = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

Skor F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Evaluasi tingkat niat untuk niat Salam niat

Kunci Count Penjelasan
Positif Benar 1 Ucapan 4 diprediksi dengan benar sebagai Salam.
Positif Palsu 1 Ucapan 2 diprediksi secara keliru sebagai Salam.
Negatif Palsu 1 Ucapan 3 diprediksi secara keliru sebagai CLUEmail.

Presisi = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Pengenalan = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

Skor F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Evaluasi tingkat model untuk model kolektif

Kunci Count Penjelasan
Positif Benar 2 Jumlah TP untuk semua niat
Positif Palsu 2 Jumlah FP untuk semua niat
Negatif Palsu 2 Jumlah FN untuk semua niat

Presisi = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

Pengenalan = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

Skor F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Matriks kebingungan

Matriks Kebingungan adalah matriks N x N yang digunakan untuk evaluasi performa model, di mana N adalah jumlah niat. Matriks ini membandingkan tag yang sebenarnya dengan tag yang diprediksi oleh model. Hal ini memberikan pandangan holistik tentang seberapa baik performa model dan jenis kesalahan apa yang dibuatnya.

Anda dapat menggunakan matriks Kebingungan untuk mengidentifikasi niat yang terlalu dekat satu sama lain dan sering salah dipahami (ambiguitas). Dalam hal ini, pertimbangkan untuk menggabungkan jenis niat ini. Jika tidak memungkinkan, pertimbangkan untuk menambahkan lebih banyak contoh yang diberi tag dari kedua niat untuk membantu model tersebut membedakan keduanya.

Anda dapat menghitung metrik evaluasi tingkat entitas dan tingkat model dari matriks kebingungan:

  • true positive dari model ini adalah jumlah true Positive untuk semua niat.
  • false positive dari model ini adalah jumlah false positives untuk semua niat.
  • false Negative dari model ini adalah jumlah false negative untuk semua niat.

Langkah berikutnya

Melatih model di Language Studio