Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Saat Anda membuat set pengujian, pilih dari metode pengujian yang berbeda untuk mengevaluasi respons agen Anda. Setiap metode pengujian memiliki kekuatannya sendiri dan sesuai dengan berbagai jenis evaluasi.
| Metode pengujian | Tindakan | Jenis set pengujian | Penilaian | Konfigurasi |
|---|---|---|---|---|
| Kualitas umum | Seberapa baik respons dari suatu kasus pengujian berdasarkan kriteria kualitas tertentu. | Tanggapan atau percakapan tunggal | Diberi skor dari 100% | None |
| Bandingkan makna | Seberapa baik arti jawaban kasus uji sesuai dengan jawaban yang diharapkan | Respons tunggal | Diberi skor dari 100% | Skor lulus, jawaban yang diharapkan |
| Penggunaan kemampuan | Apakah kasus pengujian menggunakan semua atau sebagian dari sumber daya yang diharapkan | Respons tunggal | Lulus/gagal | Kemampuan yang diharapkan |
| Pencocokan kata kunci | Apakah kasus pengujian menggunakan semua atau salah satu kata kunci atau frasa yang diharapkan | Tanggapan atau percakapan tunggal | Lulus/gagal | Kata kunci atau frasa yang diharapkan |
| Kesamaan teks | Seberapa baik teks jawaban kasus uji cocok dengan jawaban yang diharapkan | Respons tunggal | Diberi skor dari 100% | Skor lulus, jawaban yang diharapkan |
| Kecocokan persis | Apakah jawaban kasus uji sama persis dengan jawaban yang diharapkan | Respons tunggal | Lulus/gagal | Jawaban yang diharapkan |
| Khusus | Apakah respons kasus pengujian memenuhi kriteria atau ekspektasi yang Anda tentukan. | Tanggapan atau percakapan tunggal | Lulus/gagal (melewati kriteria label yang ditentukan) | Nama, instruksi evaluasi, label |
Menambahkan metode pengujian
Saat membuat atau mengedit set pengujian, pilih Tambahkan metode pengujian.
Pilih semua metode yang ingin Anda uji, lalu pilih OK. Anda dapat menambahkan beberapa metode.
Beberapa metode memerlukan nilai kelulusan. Skor lulus menentukan nilai mana yang menyebabkan lulus atau gagal. Atur skor, lalu pilih OK.
Beberapa metode pengujian memerlukan lebih banyak kriteria.
Pilih Simpan untuk menyimpan perubahan Anda ke set pengujian.
Pilih metode pengujian yang ada untuk mengedit kriteria metode tersebut atau menghapus metode tersebut.
Kualitas umum
Tersedia untuk satu set pengujian respons dan percakapan. Kualitas umum membantu Anda memutuskan apakah tanggapan agen Anda memenuhi standar Anda. Ini menggunakan model bahasa besar (LLM) untuk menilai seberapa efektif agen menjawab pertanyaan pengguna.
Kualitas umum sangat membantu ketika tidak ada jawaban pasti yang diharapkan. Ini menawarkan cara yang fleksibel dan dapat diskalakan untuk mengevaluasi tanggapan berdasarkan dokumen yang diambil dan alur percakapan.
Ini menggunakan kriteria utama ini dan menerapkan prompt yang konsisten untuk memandu penilaian:
Relevansi: Sejauh mana respons agen membahas pertanyaan. Misalnya, apakah respons agen tetap pada subjek dan langsung menjawab pertanyaan?
Keberdasaran: Sejauh mana respons agen didasarkan pada konteks yang disediakan. Misalnya, apakah referensi respons agen atau mengandalkan informasi yang diberikan dalam konteks, daripada memperkenalkan informasi yang tidak terkait atau tidak didukung?
Kelengkapan: Sejauh mana respons agen memberikan semua informasi yang diperlukan. Misalnya, apakah respons agen mencakup semua aspek pertanyaan dan memberikan detail yang cukup?
Abstensi: Apakah agen mencoba menjawab pertanyaan.
Agar dianggap berkualitas tinggi, respons harus memenuhi semua kriteria utama ini. Jika satu kriteria tidak terpenuhi, respons akan ditandai untuk perbaikan. Metode penilaian ini memastikan bahwa hanya respons yang lengkap dan didukung dengan baik yang menerima tanda teratas. Sebaliknya, jawaban yang tidak lengkap atau tidak memiliki bukti pendukung menerima skor yang lebih rendah.
Saat menambahkan atau mengedit metode pengujian, pilih Kualitas umum. Semua set pengujian dimulai dengan metode ini secara default.
Anda tidak perlu menambahkan jawaban yang diharapkan ke kasus pengujian untuk menyelesaikan evaluasi kualitas umum.
Note
Mengurangi jumlah sumber pengetahuan untuk agen tidak dijamin untuk meningkatkan penilaian kualitas umum dalam evaluasi agen. Batasan ini ada karena pengetahuan yang diambil (pengetahuan yang menurut model relevan dengan kasus pengujian tertentu) mungkin terlalu besar.
Bandingkan makna
Tersedia untuk set pengujian yang melibatkan satu respons. Membandingkan makna mengevaluasi seberapa baik jawaban agen mencerminkan arti yang dimaksudkan dari respons yang diharapkan. Alih-alih berfokus pada kata-kata yang tepat, ia menggunakan kesamaan niat, yang berarti membandingkan ide dan makna di balik kata-kata, untuk menilai seberapa dekat respons tersebut selaras dengan apa yang Anda harapkan.
Seperti kualitas umum, membandingkan makna sangat membantu ketika tidak ada jawaban pasti yang diharapkan. Ini menawarkan cara yang fleksibel dan dapat diskalakan untuk mengevaluasi tanggapan berdasarkan dokumen yang diambil dan alur percakapan.
Anda dapat mengatur ambang batas skor yang lolos untuk menentukan apa yang merupakan skor lulus untuk jawaban. Skor kelulusan default adalah 50. Metode uji membandingkan makna berguna ketika jawaban dapat diungkapkan dengan cara yang benar yang berbeda, tetapi makna atau niat keseluruhan masih perlu disampaikan.
Saat menambahkan atau mengedit metode pengujian, pilih Bandingkan arti.
Tetapkan skor kelulusan untuk metode ini.
Tambahkan jawaban yang diharapkan. Setiap kasus pengujian tanpa jawaban yang diharapkan menghasilkan hasil yang tidak valid untuk metode pengujian ini.
Pilih kasus pengujian.
Tambahkan jawaban yang Anda harapkan.
Pilih Terapkan untuk menyimpan jawaban yang diharapkan.
Ulangi untuk semua kasus pengujian yang ingin Anda uji dengan menggunakan metode ini.
Penggunaan alat
Tersedia untuk set pengujian yang melibatkan satu respons. Pengujian penggunaan kemampuan jika agen menggunakan alat atau topik tertentu untuk menghasilkan jawaban. Jika itu terjadi, itu berlalu. Jika tidak, itu gagal.
Saat menambahkan atau mengedit metode pengujian, pilih Penggunaan alat.
Tambahkan alat atau topik yang diharapkan. Setiap kasus pengujian tanpa jawaban yang diharapkan menghasilkan hasil yang tidak valid untuk metode pengujian ini.
Pilih kasus pengujian. Untuk menambahkan alat dan topik yang diharapkan yang sama untuk semua kasus pengujian, pilih ikon
Edit di judul kolom Penggunaan alat.Di panel Edit kasus pengujian , pilih alat yang Anda harapkan digunakan agen Anda untuk kasus pengujian tersebut.
Pilih OK.
Pilih Terapkan untuk menyimpan perubahan.
Ulangi untuk semua kasus pengujian yang ingin Anda uji untuk penggunaan alat.
Pencocokan kata kunci
Tersedia untuk satu set pengujian respons dan percakapan. Pencocokan kata kunci memeriksa apakah jawaban agen berisi beberapa atau semua kata atau frasa dari respons yang diharapkan yang Anda tentukan. Jika ya, lulus. Jika tidak, itu gagal.
Anda dapat memilih apakah pass memerlukan salah satu kata kunci atau Semuanya . Memilih Apa saja berarti bahwa jika setidaknya satu kata atau frasa cocok, kasus pengujian akan lolos. Memilih Semua berarti bahwa semua kata atau frasa yang diharapkan harus cocok agar kasus pengujian lulus.
Saat menambahkan atau mengedit metode pengujian, pilih Pencocokan kata kunci.
Pilih apakah kasus pengujian memerlukan kata kunci Apa Saja atau Semua agar cocok.
Tambahkan kata kunci yang diharapkan. Setiap kasus pengujian tanpa kata kunci yang diharapkan menghasilkan hasil yang tidak valid untuk metode pengujian ini.
Pilih kasus pengujian.
Di panel Edit kasus pengujian , tambahkan kata kunci atau frasa yang Anda harapkan jawaban kasus tersebut.
Pilih + Tambahkan untuk menambahkan lebih banyak kata kunci atau frasa. Untuk menghapus kata kunci atau frasa, pilih ikon Hapus
.Pilih Terapkan untuk menyimpan kata kunci yang diharapkan.
Ulangi untuk semua kasus pengujian yang ingin Anda uji untuk pencocokan kata kunci.
Kesamaan teks
Tersedia untuk set pengujian yang melibatkan satu respons. Metode uji kesamaan teks membandingkan kesamaan respons agen dengan respons yang diharapkan yang Anda tentukan dalam set pengujian Anda. Ini berguna ketika jawaban dapat diungkapkan dengan cara yang benar yang berbeda, tetapi makna atau niat keseluruhan masih perlu disampaikan.
Ini menggunakan metrik kesamaan kosinus untuk menilai seberapa mirip jawaban agen dengan kata-kata dan arti dari respons yang diharapkan dan menentukan skor. Skor berkisar antara 0 dan 1, di mana 1 menunjukkan jawabannya sangat cocok dan 0 menunjukkan tidak. Anda dapat mengatur ambang batas skor yang lolos untuk menentukan apa yang merupakan skor lulus untuk jawaban.
Saat menambahkan atau mengedit metode pengujian, pilih Kesamaan teks.
Tetapkan skor kelulusan untuk metode ini.
Tambahkan jawaban yang diharapkan. Setiap kasus pengujian tanpa jawaban yang diharapkan menghasilkan hasil yang tidak valid untuk metode pengujian ini.
Pilih kasus pengujian.
Tambahkan jawaban yang Anda harapkan.
Pilih Terapkan untuk menyimpan jawaban yang diharapkan.
Ulangi untuk semua kasus pengujian yang ingin Anda uji dengan menggunakan metode ini.
Kecocokan persis
Tersedia untuk set pengujian yang melibatkan satu respons. Kecocokan yang tepat memeriksa apakah jawaban agen sama persis dengan respons yang diharapkan dalam pengujian: karakter untuk karakter, kata demi kata. Jika sama, itu akan berlalu. Jika ada yang berbeda, gagal. Kecocokan persis berguna untuk jawaban singkat dan tepat seperti angka, kode, atau frasa tetap. Ini tidak sesuai dengan jawaban yang dapat diungkapkan orang dengan beberapa cara yang benar.
Saat menambahkan atau mengedit metode pengujian, pilih Pencocokan persis.
Tambahkan jawaban yang diharapkan. Setiap kasus pengujian tanpa jawaban yang diharapkan menghasilkan hasil yang tidak valid untuk metode pengujian ini.
Pilih kasus pengujian.
Tambahkan jawaban yang Anda harapkan.
Pilih Terapkan untuk menyimpan jawaban yang diharapkan.
Ulangi untuk semua kasus pengujian yang ingin Anda uji dengan menggunakan metode ini.
Kustom
Kustom adalah metode pengujian yang dapat disesuaikan. Ini memungkinkan Anda menguji dan memberi label jawaban agen menggunakan kriteria Anda sendiri. Misalnya, Anda dapat membuat pengujian kepatuhan untuk agen SDM untuk memberi label jawaban pengujian sebagai sesuai atau tidak sesuai dengan deskripsi kepatuhan SDM Anda.
Pengujian kustom memiliki dua komponen untuk Anda konfigurasi:
Instruksi evaluasi: Menjelaskan tujuan yang ingin Anda capai dengan pengujian ini. Apa yang Anda ingin diketahui dari jawaban agen Anda melalui tes?
Instruksi evaluasi yang baik harus:
Berorientasi pada tujuan.
Gunakan hanya karakter yang diizinkan.
Gunakan poin-poin dan judul untuk mengatur.
Contohnya:
Evaluate the agent's response for HR policy compliance.
What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.
Label: Menjelaskan hasil yang ditetapkan untuk setiap jawaban menggunakan pengujian kustom. Label juga memiliki tugas pass/fail, yang diperhitungkan dalam tingkat keberhasilan set pengujian untuk metode pengujian ini.
Label memiliki nama dan deskripsi. Deskripsi yang baik:
Apakah ringkas.
Berisi atribut yang Anda cari dalam jawaban yang cocok.
Salah satu strategi untuk label adalah memiliki dua: satu adalah jawaban yang berhasil memenuhi kriteria yang Anda cari, dan yang lainnya untuk jawaban yang tidak. Misalnya, pengujian kustom kepatuhan kebijakan SDM mungkin memiliki Kepatuhan dan Tidak Patuh sebagai label.
Saat menambahkan atau mengedit metode pengujian, pilih Kustom.
Masukkan nama untuk pengujian kustom ini.
Tambahkan instruksi evaluasi.
Tambahkan dua label atau lebih. Setiap label memiliki nama dan deskripsi.
Untuk menambahkan label lainnya, pilih Tambahkan label.
Judul label hanya dapat menggunakan huruf, angka, spasi, tanda hubung
-, garis bawah_, garis miring/, ampersand&, tanda plus+, dan titik..Atur hasil Pass atau Fail untuk setiap label.
Pilih OK.