Mengotomatiskan pengujian dengan evaluasi agen

[Artikel ini adalah dokumentasi prarilis dan dapat berubah.]

Karena agen AI mengambil peran penting dalam proses bisnis, kebutuhan akan pengujian yang andal dan dapat diulang menjadi penting. Evaluasi agen memungkinkan Anda membuat pengujian yang mensimulasikan skenario dunia nyata untuk agen Anda. Tes ini mencakup lebih banyak pertanyaan lebih cepat daripada pengujian manual kasus per kasus. Kemudian, Anda dapat mengukur keakuratan, relevansi, dan kualitas jawaban atas pertanyaan yang diajukan kepada agen, berdasarkan informasi yang dapat diakses oleh agen. Dengan menggunakan hasil dari set pengujian, Anda dapat mengoptimalkan perilaku agen dan memvalidasi bahwa agen Anda memenuhi persyaratan bisnis dan kualitas Anda.

Penting

Artikel ini berisi dokumentasi pratinjau Microsoft Copilot Studio dan dapat berubah.

Fitur pratinjau tidak dimaksudkan untuk penggunaan produksi dan mungkin memiliki fungsionalitas terbatas. Fitur ini tersedia sebelum rilis resmi agar Anda bisa memperoleh akses awal dan memberikan tanggapan.

Jika Anda membangun agen siap produksi, lihat Gambaran umum Microsoft Copilot Studio.

Mengapa menggunakan pengujian otomatis?

Evaluasi agen menyediakan pengujian terstruktur otomatis. Ini membantu menangkap masalah sejak dini, mengurangi risiko jawaban yang buruk, dan menjaga kualitas seiring berkembangnya agen. Proses ini menghadirkan bentuk jaminan kualitas yang otomatis dan dapat diulang untuk pengujian agen. Ini memastikan agen memenuhi standar akurasi dan keandalan bisnis Anda dan memberikan transparansi tentang kinerjanya. Ini memiliki kekuatan yang berbeda dari pengujian dengan menggunakan obrolan pengujian.

Evaluasi agen mengukur kebenaran dan kinerja, bukan etika AI atau masalah keselamatan. Seorang agen mungkin lulus semua tes evaluasi tetapi masih, misalnya, menghasilkan jawaban yang tidak tepat untuk sebuah pertanyaan. Pelanggan tetap harus menggunakan ulasan AI yang bertanggung jawab dan filter keamanan konten; Evaluasi tidak menggantikan ulasan dan filter tersebut.

Cara kerja evaluasi agen

Copilot Studio menggunakan kasus pengujian untuk setiap evaluasi agen. Kasus pengujian adalah pesan atau pertanyaan tunggal yang mensimulasikan apa yang akan ditanyakan pengguna kepada agen Anda. Kasus uji juga dapat mencakup jawaban yang Anda harapkan untuk dijawab oleh agen Anda. Contohnya:

Pertanyaannya: Berapa jam kerja Anda?
Tanggapan yang diharapkan: Kami buka dari jam 9 pagi hingga 5 sore dari Senin hingga Jumat.

Dengan menggunakan evaluasi agen, Anda dapat menghasilkan, mengimpor, atau menulis sekelompok kasus pengujian secara manual . Kelompok kasus pengujian ini disebut set pengujian. Set pengujian memungkinkan Anda untuk:

Jalankan beberapa kasus pengujian yang mencakup berbagai kemampuan sekaligus, alih-alih mengajukan satu pertanyaan kepada agen Anda pada satu waktu.
Analisis kinerja agen Anda dengan skor agregat yang mudah dicerna dan juga perbesar kasus pengujian individual.
Menguji perubahan pada agen Anda dengan menggunakan set pengujian yang sama, sehingga Anda memiliki standar objektif untuk mengukur dan membandingkan perubahan performa.
Buat set pengujian baru dengan cepat atau modifikasi yang sudah ada untuk mencakup perubahan kemampuan atau persyaratan agen.

Set pengujian juga mencakup metode pengujian yang ingin Anda gunakan. Anda dapat mengukur kinerja agen berdasarkan:

Pencocokan persis atau pencocokan kata kunci: Seberapa dekat jawaban agen Anda terhadap pertanyaan sesuai dengan respons yang Anda harapkan.
Kesamaan semantik: Seberapa dekat jawaban agen Anda cocok dengan ide atau maksud respons yang Anda harapkan.
Kualitas: Seberapa baik kinerja jawaban agen Anda menggunakan evaluasi berbasis LLM.

Anda juga dapat memilih profil pengguna untuk bertindak sebagai pengguna yang mengirimkan pertanyaan. Agen mungkin dikonfigurasi untuk merespons pengguna yang berbeda dengan cara yang berbeda, atau mengizinkan akses ke sumber daya dengan cara yang berbeda.

Saat Anda memilih set pengujian dan menjalankan evaluasi agen, Copilot Studio mengirimkan pertanyaan dalam kasus pengujian, mencatat respons agen, membandingkan respons tersebut dengan respons yang diharapkan atau standar kualitas, dan menetapkan skor untuk setiap kasus pengujian. Anda juga dapat melihat detail, transkrip, dan peta aktivitas untuk setiap kasus pengujian dan sumber daya mana yang digunakan agen Anda untuk membuat respons.

Menguji evaluasi obrolan versus agen

Setiap metode pengujian memberi Anda wawasan yang berbeda tentang kualitas dan perilaku agen Anda:

Obrolan uji coba:

Menerima dan menanggapi satu pertanyaan pada satu waktu. Sulit untuk mengulangi tes yang sama beberapa kali.
Memungkinkan Anda menguji sesi penuh yang berisi beberapa pesan.
Memungkinkan Anda untuk berinteraksi dengan agen Anda sebagai pengguna dengan menggunakan antarmuka obrolan.

Evaluasi agen:

Dapat membuat dan menjalankan beberapa kasus pengujian sekaligus. Anda dapat mengulangi pengujian dengan menggunakan set pengujian yang sama.
Hanya dapat menguji satu pertanyaan dan satu respons per kasus pengujian. Itu tidak menguji sesi percakapan penuh.
Pilih profil pengguna yang berbeda untuk mensimulasikan pengguna yang berbeda tanpa perlu menyelesaikan interaksi sendiri.

Saat Anda menguji agen, gunakan chat pengujian dan evaluasi agen untuk gambaran lengkap tentang agen Anda.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-01-15