Pilih metode evaluasi

[Artikel ini adalah dokumentasi prarilis dan dapat berubah.]

Saat membuat set pengujian, Anda dapat memilih dari berbagai metode pengujian untuk mengevaluasi respons agen: kecocokan teks, kesamaan, dan kualitas. Setiap metode pengujian memiliki kekuatannya sendiri dan cocok untuk berbagai jenis evaluasi.

Metode pengujian pencocokan teks

Metode uji kecocokan teks membandingkan respons agen dengan respons yang diharapkan yang Anda tentukan dalam set pengujian. Ada dua tes kecocokan:

Kecocokan yang tepat memeriksa apakah jawaban agen sama persis dengan respons yang diharapkan dalam pengujian: karakter untuk karakter, kata demi kata. Jika sama, itu akan berlalu. Jika ada yang berbeda, gagal. Kecocokan persis berguna untuk jawaban singkat dan tepat seperti angka, kode, atau frasa tetap. Ini tidak sesuai dengan jawaban yang dapat diungkapkan orang dengan beberapa cara yang benar.

Pencocokan kata kunci memeriksa apakah jawaban agen berisi beberapa kata atau frasa dari respons yang diharapkan yang Anda tentukan. Jika ya, lulus. Jika tidak, itu gagal. Pencocokan kata kunci berguna ketika jawaban dapat diungkapkan dengan cara yang benar yang berbeda, tetapi istilah atau ide kunci masih perlu disertakan dalam tanggapan.

Metode pengujian kemiripan

Metode pengujian kesamaan membandingkan kesamaan respons agen dengan respons yang diharapkan yang Anda tentukan dalam set pengujian Anda. Ini berguna ketika jawaban dapat diungkapkan dengan cara yang benar yang berbeda, tetapi makna atau niat keseluruhan masih perlu disampaikan.

Ini menggunakan metrik kesamaan kosinus untuk menilai seberapa mirip jawaban agen dengan kata-kata dan arti dari respons yang diharapkan dan menentukan skor. Skor berkisar antara 0 dan 1, di mana 1 menunjukkan jawabannya sangat cocok dan 0 menunjukkan tidak. Anda dapat mengatur ambang batas skor yang lolos untuk menentukan apa yang merupakan skor lulus untuk jawaban.

Metode pengujian kualitas

Metode pengujian kualitas membantu Anda memutuskan apakah respons agen Anda memenuhi standar Anda. Pendekatan ini memastikan hasilnya dapat diandalkan dan mudah dijelaskan.

Metode ini menggunakan model bahasa besar (LLM) untuk menilai seberapa efektif agen menjawab pertanyaan pengguna. Ini sangat membantu ketika tidak ada jawaban yang tepat yang diharapkan, menawarkan cara yang fleksibel dan dapat diskalakan untuk mengevaluasi respons berdasarkan dokumen yang diambil dan alur percakapan.

Metode pengujian kualitas mencakup dua metode pengujian:

Kualitas umum mengevaluasi respons agen. Ini menggunakan kriteria utama ini dan menerapkan prompt yang konsisten untuk memandu penilaian:

Relevansi: Sejauh mana respons agen membahas pertanyaan. Misalnya, apakah respons agen tetap pada subjek dan langsung menjawab pertanyaan?
Keberdasaran: Sejauh mana respons agen didasarkan pada konteks yang disediakan. Misalnya, apakah referensi respons agen atau mengandalkan informasi yang diberikan dalam konteks, daripada memperkenalkan informasi yang tidak terkait atau tidak didukung?
Kelengkapan: Sejauh mana respons agen memberikan semua informasi yang diperlukan. Misalnya, apakah respons agen mencakup semua aspek pertanyaan dan memberikan detail yang cukup?
Abstensi: Apakah agen mencoba menjawab pertanyaan.

Agar dianggap berkualitas tinggi, respons harus memenuhi semua kriteria utama ini. Jika satu kriteria tidak terpenuhi, respons akan ditandai untuk perbaikan. Metode penilaian ini memastikan bahwa hanya respons yang lengkap dan didukung dengan baik yang menerima tanda teratas. Sebaliknya, jawaban yang tidak lengkap atau tidak memiliki bukti pendukung menerima skor yang lebih rendah.

Membandingkan makna mengevaluasi seberapa baik jawaban agen mencerminkan arti yang dimaksudkan dari respons yang diharapkan. Alih-alih berfokus pada kata-kata yang tepat, ia menggunakan kesamaan niat, yang berarti membandingkan ide dan makna di balik kata-kata, untuk menilai seberapa dekat respons tersebut selaras dengan apa yang diharapkan.

Anda dapat mengatur ambang batas skor yang lolos untuk menentukan apa yang merupakan skor lulus untuk jawaban. Skor kelulusan default adalah 50. Metode uji membandingkan makna berguna ketika jawaban dapat diungkapkan dengan cara yang benar yang berbeda, tetapi makna atau niat keseluruhan masih perlu disampaikan.

Ambang batas dan nilai lulus

Keberhasilan kasus pengujian tergantung pada metode pengujian yang Anda pilih dan ambang yang Anda tetapkan untuk melewati skor.

Setiap metode pengujian, kecuali kecocokan persis, menghasilkan skor numerik berdasarkan serangkaian kriteria evaluasi. Skor ini mencerminkan seberapa baik jawaban agen memenuhi kriteria tersebut. Ambang adalah skor pembatas yang memisahkan lulus dari gagal. Anda dapat mengatur skor lulus untuk kemiripan dan kasus uji membandingkan makna.

Pencocokan persis adalah metode pengujian ketat yang tidak menghasilkan skor numerik. Jawabannya harus cocok persis untuk lulus. Dengan memilih ambang batas untuk kasus pengujian, Anda memutuskan seberapa ketat atau longgar evaluasi. Setiap metode pengujian mengevaluasi jawaban agen secara berbeda, jadi penting untuk memilih yang paling sesuai dengan kriteria evaluasi Anda.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-01-15