Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
[Artikel ini adalah dokumentasi prarilis dan dapat berubah.]
Jalankan dan analisis hasil evaluasi untuk mengoptimalkan perilaku agen Anda dan memvalidasi bahwa agen Anda memenuhi persyaratan bisnis dan kualitas Anda. Anda juga dapat menjalankan set pengujian beberapa kali untuk melihat perubahan dari waktu ke waktu saat Anda meningkatkan agen.
Hasil tes tersedia di Copilot Studio selama 89 hari. Untuk menyimpan hasil pengujian untuk jangka waktu yang lebih lama, ekspor hasilnya ke file CSV.
Menjalankan set pengujian
Setelah membuat set pengujian, Anda dapat menjalankan atau menjalankannya kembali untuk membandingkan hasil dari waktu ke waktu dan iterasi. Tes dapat memakan waktu hingga beberapa menit untuk dijalankan. Anda dapat menjalankan satu tes pada satu waktu.
Penting
Evaluasi agen yang menggunakan autentikasi pengguna memerlukan akses melalui konektor Microsoft Copilot Studio. Jika admin menonaktifkan koneksi ini, Anda tidak dapat menjalankan pengujian dengan menggunakan alat evaluasi. Untuk informasi selengkapnya, lihat Konektor dan grup data Copilot Studio.
Buka halaman Evaluasi agen Anda.
Jalankan pengujian dengan melakukan salah satu tindakan berikut:
- Di akhir pembuatan atau pengeditan set pengujian, pilih Evaluasi.
- Di bagian Hasil terbaru , evaluasi hasil pengujian dengan melakukan salah satu hal berikut:
- Arahkan kursor ke hasil pengujian yang ingin Anda evaluasi, pilih tiga titik (...) lalu pilih Evaluasi set pengujian lagi.
- Pilih hasil pengujian untuk membukanya, lalu pilih tiga titik (...) di panel Ringkasan evaluasi , lalu pilih Evaluasi set pengujian lagi.
Jika profil pengguna untuk set pengujian memiliki koneksi yang rusak, atau kumpulan pengujian tidak memiliki profil pengguna, dialog Kelola koneksi akan muncul. Anda tidak perlu menggunakan profil pengguna untuk pengujian. Namun, jika Anda menggunakan profil, semua koneksi harus berfungsi. Untuk informasi tentang memperbaiki koneksi, lihat Mengelola profil dan koneksi pengguna.
Evaluasi dapat memakan waktu beberapa menit untuk dijalankan. Pemberitahuan muncul di Copilot Studio saat hasil pengujian siap untuk dilihat.
Selami hasil pengujian
Setiap kali Anda menjalankan evaluasi dengan set pengujian, Copilot Studio:
Menggunakan akun pengguna yang terhubung untuk mensimulasikan percakapan dengan agen, mengirim setiap pertanyaan dalam kasus pengujian ke agen.
Mengumpulkan respons agen.
Mengukur dan menganalisis keberhasilan setiap respons. Setiap kasus pengujian menerima Lulus atau Gagal, berdasarkan kriteria kasus pengujian.
Menetapkan skor Tingkat pass berdasarkan tingkat Lulus/Gagal dari set pengujian.
Anda dapat melihat Rasio kelulusan setiap set pengujian yang dijalankan di halaman Evaluasi agen, di bawah Hasil terbaru. Pilih Lihat semua untuk melihat eksekusi set pengujian lainnya.
Lihat analisis terperinci untuk kasus pengujian
Saat membuka hasil pengujian, Anda dapat melihat detail eksekusi pengujian, daftar kueri yang digunakan dalam pengujian, bagaimana agen merespons, dan skor Lulus atau Gagal .
Pilih kasus pengujian dalam daftar untuk melihat penilaian terperinci dari setiap respons.
Penilaian mencakup respons yang diharapkan dan aktual, alasan di balik hasil tes, dan pengetahuan, topik, dan alat yang digunakan agen untuk merespons.
Pilih pengetahuan atau topik yang dikutip untuk membukanya.
Membandingkan hasil pengujian
Anda ingin menguji satu versi agen Anda dan melihat perubahan performa sebelum dan sesudah Anda membuat perubahan. Anda dapat membandingkan dua eksekusi dari set pengujian yang sama dengan menggunakan alat Perbandingan dengan .
Untuk melihat perbandingan, Anda perlu menjalankan set pengujian yang sama setidaknya dua kali.
Di halaman Evaluasi agen Anda, di bawah Hasil pengujian terbaru, buka uji coba yang ingin Anda gunakan sebagai dasar untuk perbandingan.
Pilih dropdown Bandingkan dengan , lalu pilih waktu dan tanggal uji coba yang ingin Anda bandingkan dengan hasil pengujian yang saat ini terbuka.
Dalam daftar Kasus pengujian , panah menunjukkan hasil kasus pengujian mana yang ditingkatkan dengan mengubah dari gagal menjadi lulus
, atau ditolak dengan mengubah dari lulus menjadi gagal
.
Pilih kasus pengujian untuk melihat detail selengkapnya. Di panel Ringkasan evaluasi , Anda dapat melihat perbandingan langsung skor pengujian, dengan hasil pengujian saat ini di atas.
Mengekspor hasil pengujian
Anda dapat mengekspor hasil pengujian ke file CSV. File mencantumkan pertanyaan, respons yang diharapkan (jika ada), metode pengujian, skor kelulusan (jika ada), respons agen, hasil pengujian, dan analisis untuk setiap kasus pengujian.
- Buka halaman Evaluasi agen Anda.
- Di bagian Hasil terbaru , Anda dapat mengekspor hasil pengujian dengan melakukan salah satu langkah berikut:
- Arahkan kursor ke kasus pengujian yang ingin Anda ekspor, pilih tiga titik (...) lalu pilih Ekspor hasil pengujian.
- Pilih kasus pengujian untuk membukanya, lalu pilih tiga titik (...) di panel Ringkasan evaluasi , lalu pilih Ekspor hasil pengujian.
Hasil pengujian diunduh sebagai nama set pengujian Anda.csv.