Membuat test set untuk respons tunggal

Evaluasi respons tunggal menguji agen Anda pada satu pertanyaan yang tidak saling terkait dalam satu waktu, bukan pada keseluruhan percakapan. Misalnya, evaluasi respons tunggal untuk agen layanan pelanggan menanyakan Jam operasional Anda berapa?, mencatat respons agen terhadap pertanyaan tersebut, lalu dimulai dengan pertanyaan baru, Bagaimana cara menemukan riwayat pesanan saya?

Evaluasi respons tunggal baik ketika Anda ingin menguji agen Anda tentang bagaimana menjawab pertanyaan tertentu, tentang kemampuan apa yang dipanggilnya, dan tentang kata-kata yang tepat yang digunakannya dalam jawabannya. Anda juga dapat menjalankan evaluasi percakapan, yang memungkinkan Anda menilai perilaku agen Anda selama interaksi yang lebih lama.

Evaluasi menggunakan test set. Test set untuk evaluasi respons tunggal terdiri dari maksimal 100 kasus uji. Saat Anda menjalankan evaluasi agen, Anda memilih test set dan Copilot Studio menjalankan setiap kasus uji dalam set tersebut dengan agen Anda.

Anda dapat membuat kasus uji dalam test set secara manual, mengimpor menggunakan spreadsheet, atau menggunakan AI untuk menghasilkan pesan berdasarkan desain dan sumber daya agen Anda. Anda kemudian dapat memilih bagaimana Anda ingin mengukur kualitas respons agen Anda untuk setiap kasus pengujian dalam test set.

Untuk informasi lebih lanjut tentang evaluasi agen, lihat Tentang evaluasi agen.

Untuk mempelajari cara mengedit test set yang ada, lihat Mengubah detail test set.

Penting

Hasil tes tersedia di Copilot Studio selama 89 hari. Untuk menyimpan hasil pengujian Anda untuk jangka waktu yang lebih lama, ekspor hasilnya ke file CSV.

Membuat test set baru

Buka halaman Evaluasi agen Anda.
Pilih Evaluasi baru, lalu pilih Respons tunggal.
Pilih metode yang ingin Anda gunakan untuk membuat test set Anda. Test set dapat memiliki maksimal 100 kasus uji.
- Kumpulan pertanyaan singkat agar Copilot Studio membuat kasus uji secara otomatis berdasarkan deskripsi, instruksi, dan kemampuan agen Anda. Opsi ini menghasilkan 10 pertanyaan untuk menjalankan evaluasi kecil dan cepat atau untuk mulai membangun test set yang lebih besar.
- Kumpulan pertanyaan lengkap agar Copilot Studio menghasilkan kasus uji menggunakan sumber pengetahuan atau topik dan pilih jumlah pertanyaan yang akan dihasilkan.
- Gunakan percakapan obrolan pengujian Anda untuk mengisi test set secara otomatis dengan pertanyaan yang Anda berikan di obrolan pengujian Anda. Cara ini menggunakan pertanyaan dari obrolan pengujian terbaru. Anda juga dapat memulai evaluasi dari obrolan pengujian dengan menggunakan ikon evaluasi .
- Impor kasus uji dari file dengan menyeret file Anda ke area yang ditentukan, memilih Telusuri untuk mengunggah file, atau memilih salah satu opsi unggah lainnya.
- Atau, tulis beberapa pertanyaan sendiri untuk membuat test set secara manual. Ikuti langkah-langkah untuk mengedit test set guna menambahkan dan mengedit kasus pengujian.
- Gunakan data produksi berdasarkan tema dari analitik agen Anda.
Di bawah Nama, masukkan nama untuk test set Anda.

Ubah atau tambahkan metode uji yang ingin Anda gunakan:

Menambahkan metode baru:
1. Pilih Tambahkan metode uji.
2. Pilih semua metode yang ingin Anda uji, lalu pilih OK.
3. Beberapa metode memerlukan skor lulus. Skor lulus menentukan berapa skor yang diperlukan untuk lulus atau gagal. Atur skor, lalu pilih OK.
4. Beberapa metode memerlukan penambahan respons yang diharapkan atau kata kunci untuk setiap kasus uji Anda. Untuk informasi selengkapnya, lihat Pilih metode evaluasi
Pilih metode pengujian yang ada untuk diedit atau dihapus.

Metode pengujian	Tindakan	Jenis test set	Penskoran	Konfigurasi
Kualitas umum	Seberapa baik respons kasus uji berdasarkan kualitas spesifiknya	Respons atau percakapan tunggal	Dinilai dari 100%	Tidak ada
Bandingkan arti	Seberapa cocok arti jawaban kasus uji dengan jawaban yang diharapkan	Satu respons	Dinilai dari 100%	Skor lulus, jawaban yang diharapkan
Penggunaan alat	Apakah kasus uji menggunakan semua atau sumber daya yang diharapkan	Satu respons	Lulus/gagal	Kemampuan yang diharapkan
Pencocokan kata kunci	Apakah kasus uji menggunakan semua atau salah satu kata kunci atau frasa yang diharapkan	Respons atau percakapan tunggal	Lulus/gagal	Kata kunci atau frasa yang diharapkan
Kesamaan teks	Seberapa baik teks jawaban kasus uji sesuai dengan jawaban yang diharapkan	Satu respons	Dinilai dari 100%	Skor lulus, jawaban yang diharapkan
Kecocokan persis	Apakah jawaban kasus uji sama persis dengan jawaban yang diharapkan	Satu respons	Lulus/gagal	Jawaban yang diharapkan
Kustom	Apakah respons kasus pengujian memenuhi kriteria atau harapan yang telah ditentukan.	Respons atau percakapan tunggal	Lulus/gagal (memenuhi kriteria label yang ditentukan)	Nama, instruksi evaluasi, label

Edit detail kasus pengujian. Semua metode pengujian, kecuali kualitas umum, memerlukan respons yang diharapkan atau kata kunci. Untuk informasi selengkapnya tentang pengeditan kasus uji, lihat Modifikasi test set.
Pilih Profil pengguna, lalu pilih atau tambahkan akun yang ingin Anda gunakan untuk test set ini, atau lanjutkan tanpa autentikasi. Evaluasi menggunakan akun ini untuk terhubung ke sumber pengetahuan dan alat selama pengujian. Jika akun yang dipilih untuk evaluasi berbeda dengan akun yang digunakan untuk autentikasi konektor, agen yang menggunakan konektor atau alat akan gagal. Untuk informasi tentang menambahkan dan mengelola profil pengguna, lihat Kelola profil pengguna dan koneksi.

Catatan

Pengujian otomatis menggunakan autentikasi dari akun pengujian yang dipilih. Jika agen Anda memiliki sumber pengetahuan atau koneksi yang memerlukan autentikasi tertentu, pilih akun yang sesuai untuk pengujian Anda. Saat Copilot Studio membuat kasus uji, fitur ini menggunakan kredensial otentikasi dari akun yang terhubung untuk mengakses sumber pengetahuan dan alat agen Anda. Kasus uji yang dihasilkan dapat mencakup data sensitif yang dapat diakses oleh akun yang terhubung. Setiap pembuat dengan akses ke agen juga dapat melihat test set yang ditautkan ke agen tersebut.
Pilih Simpan untuk memperbarui test set tanpa menjalankan kasus pengujian atau Evaluasi untuk menjalankan test set segera.

Batasan pembuatan kasus uji

Pembuatan kasus uji gagal jika satu atau lebih pertanyaan melanggar pengaturan moderasi konten agen Anda. Kemungkinan penyebabnya antara lain:

Instruksi atau topik dari agen mengarahkan model untuk menghasilkan konten yang kemudian ditandai oleh sistem.
Sumber pengetahuan yang terhubung mencakup konten sensitif atau terbatas.
Pengaturan moderasi konten agen terlalu ketat.

Untuk mengatasi masalah, Anda dapat mencoba berbagai langkah, seperti menyesuaikan sumber pengetahuan, memperbarui instruksi, atau mengubah pengaturan moderasi.

Test set dapat berisi hingga 100 kasus uji.

Buat test set dari pengetahuan atau topik

Anda dapat menguji agen Anda dengan membuat pertanyaan berdasarkan informasi dan sumber percakapan yang sudah dimiliki agen Anda. Metode pengujian ini cocok untuk menguji bagaimana agen Anda memanfaatkan sumber pengetahuan atau topik yang sudah dimilikinya, tetapi tidak optimal untuk menemukan celah informasi.

Anda dapat menghasilkan kasus pengujian dengan menggunakan sumber pengetahuan berikut:

Teks
Microsoft Word
Microsoft Excel
File PDF
Konten SharePoint

Anda dapat menggunakan file hingga 5 MB untuk menghasilkan pertanyaan pengujian.

Untuk menghasilkan test set:

Pada Evaluasi Baru, pilih Kumpulan pertanyaan lengkap.
Pilih Pengetahuan atau Topik.
- Pengetahuan bekerja paling baik untuk agen yang menggunakan orkestrasi generatif. Metode ini membuat pertanyaan dengan menggunakan salah satu sumber pengetahuan agen Anda.
- Topik berfungsi paling baik untuk agen yang menggunakan orkestrasi klasik. Metode ini membuat pertanyaan dengan menggunakan topik agen Anda.
Untuk Pengetahuan, pilih sumber pengetahuan yang ingin Anda gunakan untuk menghasilkan pertanyaan.
Untuk Pengetahuan dan Topik, pilih dan seret penggeser untuk memilih jumlah pertanyaan yang akan dibuat.
Pilih Buat.
Di bawah Nama, masukkan nama untuk test set Anda.
Ubah atau tambahkan metode uji yang ingin Anda gunakan:
- Menambahkan metode baru:
  1. Pilih Tambahkan metode uji.
  2. Pilih semua metode yang ingin Anda uji, lalu pilih OK. Anda dapat menambahkan beberapa metode
  3. Untuk beberapa metode, atur skor lulus, lalu pilih OK. Skor lulus menentukan berapa skor yang diperlukan untuk lulus atau gagal.
  4. Beberapa metode memerlukan penambahan respons yang diharapkan atau kata kunci untuk setiap kasus uji Anda. Untuk informasi selengkapnya, lihat Pilih metode evaluasi
- Pilih metode pengujian yang ada untuk diedit atau dihapus.
Edit detail kasus pengujian. Semua kasus pengujian yang menggunakan metode, kecuali kualitas umum, memerlukan respons yang diharapkan. Untuk informasi lebih lanjut tentang pengeditan, lihat Modifikasi test set.
Pilih Simpan untuk memperbarui test set tanpa menjalankan kasus pengujian atau Evaluasi untuk menjalankan test set segera.

Membuat file test set untuk diimpor

Alih-alih membuat kasus pengujian secara langsung di Copilot Studio, Anda dapat membuat file spreadsheet dengan semua kasus pengujian Anda dan mengimpornya untuk membuat test set Anda. Anda dapat menyusun setiap pertanyaan pengujian, menentukan metode pengujian yang ingin Anda gunakan, dan menyatakan respons yang diharapkan untuk setiap pertanyaan. Setelah Anda selesai membuat file, simpan sebagai file .csv atau .txt dan impor ke Copilot Studio.

Penting

File dapat berisi hingga 100 pertanyaan.
Setiap pertanyaan dapat memiliki maksimal 1.000 karakter, termasuk spasi.
File harus dalam nilai yang dipisahkan koma (CSV) atau format teks.

Untuk membuat file impor:

Buka aplikasi spreadsheet (misalnya, Microsoft Excel). Anda dapat mengunduh templat CSV pada bagian Sumber data setelah memilih Evaluasi baru.
Tambahkan judul berikut, dalam urutan ini, di baris pertama:
- Pertanyaan
- Respons yang diharapkan
- Metode pengujian
Masukkan pertanyaan pengujian Anda di kolom Pertanyaan. Setiap pertanyaan dapat berisi hingga 1.000 karakter, termasuk spasi.
Masukkan salah satu metode pengujian berikut untuk setiap pertanyaan di kolom Metode pengujian:
- Kualitas umum
- Membandingkan makna
- Kemiripan
- Benar-benar cocok
- Pencocokan kata kunci
Masukkan respons yang diharapkan untuk setiap pertanyaan di kolom Respons yang diharapkan. Respons yang diharapkan bersifat opsional untuk mengimpor test set. Namun, Anda memerlukan respons yang diharapkan untuk menjalankan kasus pengujian kecocokan, kemiripan, dan membandingkan makna.
Simpan file sebagai file .csv atau .txt.
Impor file dengan mengikuti langkah-langkah di Membuat test set baru.

Membuat test set berdasarkan tema

Buat test set dengan pertanyaan dari percakapan dengan pengguna nyata. Metode ini menggunakan tema (pratinjau) yang terdapat dalam analitik agen Anda.

Tema adalah pengelompokan pertanyaan yang diambil dari kumpulan pertanyaan pengguna yang memicu jawaban generatif. Saat Anda membuat test set menggunakan tema, Anda menghasilkan kasus uji dari pertanyaan yang diajukan oleh pengguna yang terkait dengan tema tersebut.

Gunakan test set ini untuk melakukan evaluasi yang berfokus pada satu area atau topik cakupan agen Anda. Misalnya, jika memiliki agen layanan pelanggan, Anda dapat melacak kualitas jawaban untuk pertanyaan penagihan dan pembayaran secara terpisah dari kasus penggunaan lain seperti pemecahan masalah.

Catatan

Sebelum membuat test set dari tema, Anda memerlukan akses ke tema di analitik. Tinjau prasyarat untuk tema (pratinjau).

Di halaman Analitik agen Anda, buka daftar Tema.
Arahkan kursor ke tema, lalu pilih Evaluasi.

Anda juga dapat memilih Lihat semua untuk melihat lebih banyak tema, lalu pilih Evaluasi.
Pilih Buat dan buka.
Edit detail dari test set dan kasus pengujian. Semua kasus pengujian yang menggunakan metode, kecuali kualitas umum, memerlukan respons yang diharapkan. Untuk informasi lebih lanjut tentang pengeditan, lihat Modifikasi test set.
Pilih Simpan untuk memperbarui test set tanpa menjalankan kasus pengujian atau Evaluasi untuk menjalankan test set segera.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-07-31