Apa itu skor BLEU?
BLEU (Bilingual Evaluation Understudy) adalah pengukuran perbedaan antara sebuah terjemahan otomatis dan beberapa referensi terjemahan yang dibuat oleh manusia terhadap kalimat sumber yang sama.
Proses penilaian
Algoritma BLEU membandingkan frasa berturut-turut dari terjemahan otomatis dengan frasa berturut-turut yang ditemukannya dalam terjemahan referensi, dan menghitung jumlah kecocokan, dengan cara tertimbang. Pencocokan ini dilakukan secara independen. Tingkat kecocokan yang lebih tinggi menunjukkan tingkat kesamaan yang lebih tinggi dengan terjemahan referensi, dan skor yang lebih tinggi. Kejelasan dan ketepatan tata bahasa tidak diperhitungkan.
Bagaimana cara kerja BLEU?
Kekuatan skor BLEU adalah karena berkorelasi dengan baik dengan penilaian manusia. BLEU merata-rata kesalahan penilaian kalimat individu atas korpus pengujian, daripada mencoba untuk merancang penilaian manusia yang tepat untuk setiap kalimat.
Diskusi yang lebih luas tentang skor BLEU tersedia di sini.
Hasil BLEU sangat bergantung pada luasnya domain Anda; konsistensi pengujian, pelatihan dan penyetelan data; serta berapa banyak data yang tersedia untuk pelatihan. Jika model Anda dilatih dalam domain sempit, dan data pelatihan Anda konsisten dengan data pengujian, Anda dapat mengharapkan skor BLEU yang tinggi.
Catatan
Perbandingan di antara skor BLEU hanya dapat dibenarkan ketika hasil BLEU dibandingkan dengan set Pengujian yang sama, pasangan bahasa yang sama, dan mesin MT yang sama. Skor BLEU dari set pengujian yang berbeda pasti berbeda.