Bagikan melalui


Membuat atau memodifikasi set pengujian untuk mengevaluasi agen Anda

[Artikel ini adalah dokumentasi prarilis dan dapat berubah.]

Satu set pengujian terdiri dari sekelompok hingga 100 kasus pengujian. Saat menjalankan evaluasi agen, Anda memilih set pengujian dan Copilot Studio menjalankan setiap kasus pengujian dalam set tersebut terhadap agen Anda.

Anda dapat membuat kasus pengujian dalam set pengujian secara manual, mengimpornya menggunakan spreadsheet, atau menggunakan AI untuk menghasilkan pesan berdasarkan desain dan sumber daya agen Anda. Anda kemudian dapat memilih bagaimana Anda ingin mengukur kualitas respons agen Anda untuk setiap kasus pengujian dalam set pengujian.

Untuk informasi selengkapnya tentang cara kerja evaluasi agen, lihat Tentang evaluasi agen.

Penting

Hasil tes tersedia di Copilot Studio selama 89 hari. Untuk menyimpan hasil pengujian untuk jangka waktu yang lebih lama, ekspor hasilnya ke file CSV.

Membuat set pengujian baru

  1. Buka halaman Evaluasi agen Anda.

  2. Pilih Set pengujian baru.

    Tangkapan layar yang menunjukkan tombol Buat pengujian baru di halaman Evaluasi.

  3. Di halaman Kumpulan pengujian baru , pilih metode yang ingin Anda gunakan untuk membuat set pengujian. Satu set pengujian dapat memiliki hingga 100 kasus pengujian.

    • Pertanyaan cepat diatur agar Copilot Studio membuat kasus pengujian secara otomatis berdasarkan deskripsi, instruksi, dan kemampuan agen Anda. Opsi ini menghasilkan 10 pertanyaan untuk menjalankan evaluasi kecil dan cepat atau untuk mulai membangun set pengujian yang lebih besar.
    • Kumpulan pertanyaan lengkap agar Copilot Studio membuat kasus pengujian menggunakan sumber pengetahuan atau topik agen Anda.
    • Gunakan percakapan obrolan percobaan Anda untuk secara otomatis mengisi set pengujian dengan pertanyaan yang Anda berikan di obrolan uji coba Anda. Cara ini menggunakan pertanyaan dari obrolan percobaan terbaru. Anda juga dapat memulai evaluasi dari obrolan uji coba dengan menggunakan tombol evaluasi . Tangkapan layar yang menunjukkan tombol Buat pengujian baru di obrolan pengujian.
    • Impor kasus pengujian dari file dengan menyeret file Anda ke area yang ditentukan, memilih Telusuri untuk mengunggah file, atau memilih salah satu opsi upload lainnya.
    • Atau, tulis beberapa pertanyaan sendiri untuk membuat set pengujian secara manual. Ikuti langkah-langkah untuk mengedit set pengujian untuk menambahkan dan mengedit kasus pengujian.
  4. Edit detail kasus pengujian. Semua kasus pengujian yang menggunakan metode, kecuali kualitas umum, memerlukan respons yang diharapkan. Untuk informasi selengkapnya tentang pengeditan, lihat Memodifikasi set pengujian.

  5. Di bawah Nama, masukkan nama untuk set pengujian Anda.

  6. Pilih Profil pengguna, lalu pilih atau tambahkan akun yang ingin Anda gunakan untuk set pengujian ini, atau lanjutkan tanpa autentikasi. Evaluasi menggunakan akun ini untuk terhubung ke sumber pengetahuan dan alat selama pengujian. Untuk informasi tentang menambahkan dan mengelola profil pengguna, lihat Mengelola profil dan koneksi pengguna.

Nota

Pengujian otomatis menggunakan autentikasi akun pengujian yang dipilih. Jika agen Anda memiliki sumber pengetahuan atau koneksi yang memerlukan autentikasi tertentu, pilih akun yang sesuai untuk pengujian Anda.

  1. Pilih Simpan untuk memperbarui set pengujian tanpa menjalankan kasus pengujian atau Evaluasi untuk segera menjalankan set pengujian.

Batasan pembuatan kasus uji

Pembuatan kasus pengujian dapat gagal jika satu atau beberapa pertanyaan melanggar setelan moderasi konten agen Anda. Alasannya meliputi:

  • Instruksi atau topik agen mengarahkan model untuk menghasilkan konten yang ditandai.
  • Sumber pengetahuan yang terhubung mencakup konten sensitif atau terbatas.
  • Pengaturan moderasi konten agen terlalu ketat.

Untuk mengatasi masalah, coba tindakan yang berbeda, seperti menyesuaikan sumber pengetahuan, memperbarui instruksi, atau mengubah pengaturan moderasi.

Satu set pengujian dapat berisi hingga 100 kasus pengujian.

Menghasilkan set pengujian dari pengetahuan atau topik

Anda dapat menguji agen Anda dengan membuat pertanyaan menggunakan informasi dan sumber percakapan yang sudah dimiliki agen Anda. Metode pengujian ini bagus untuk menguji bagaimana agen Anda menggunakan pengetahuan dan topik yang sudah dimilikinya, tetapi tidak baik untuk menguji kesenjangan informasi.

Anda dapat membuat kasus pengujian dengan menggunakan sumber pengetahuan berikut:

  • Teks
  • Microsoft Word
  • Microsoft Excel

Anda dapat menggunakan file hingga 293 KB untuk membuat pertanyaan ujian.

Untuk menghasilkan set pengujian:

  1. Di Set pengujian baru, pilih Kumpulan pertanyaan lengkap.

  2. Pilih Pengetahuan atau Topik.

    • Pengetahuan bekerja paling baik untuk agen yang menggunakan orkestrasi generatif. Metode ini membuat pertanyaan dengan menggunakan pilihan sumber pengetahuan agen Anda.
    • Topik berfungsi paling baik untuk agen yang menggunakan orkestrasi klasik. Metode ini membuat pertanyaan dengan menggunakan topik agen Anda.
  3. Untuk Pengetahuan, pilih sumber pengetahuan yang ingin Anda sertakan dalam pembuatan pertanyaan.

Cuplikan layar yang menunjukkan pilihan sumber pengetahuan untuk disertakan dalam pembuatan kasus pengujian.

  1. Untuk Pengetahuan dan Topik, pilih dan seret penggeser untuk memilih jumlah pertanyaan yang akan dibuat.

Tangkapan layar yang menunjukkan penggeser untuk memilih berapa banyak pertanyaan yang akan dibuat.

  1. Pilih Hasilkan.

  2. Edit detail kasus pengujian. Semua kasus pengujian yang menggunakan metode, kecuali kualitas umum, memerlukan respons yang diharapkan. Untuk informasi selengkapnya tentang pengeditan, lihat Memodifikasi set pengujian.

  3. Pilih Kelola profil untuk memilih atau menyambungkan akun yang ingin Anda gunakan untuk set pengujian ini. Anda juga dapat melanjutkan tanpa menambahkan akun untuk autentikasi.

Nota

Pengujian otomatis menggunakan autentikasi akun pengujian yang dipilih. Jika agen Anda memiliki sumber pengetahuan atau koneksi yang memerlukan autentikasi tertentu, pilih akun yang sesuai untuk pengujian Anda.

Saat Copilot Studio membuat kasus pengujian, ia menggunakan kredensial autentikasi akun yang terhubung untuk mengakses sumber pengetahuan dan alat agen Anda. Kasus atau hasil pengujian yang dihasilkan dapat menyertakan informasi sensitif yang dapat diakses oleh akun yang terhubung, dan informasi ini dapat dilihat oleh semua pembuat yang dapat mengakses set pengujian.

  1. Pilih Simpan untuk memperbarui set pengujian tanpa menjalankan kasus pengujian atau Evaluasi untuk segera menjalankan set pengujian.

Membuat file set pengujian untuk diimpor

Alih-alih membuat kasus pengujian secara langsung di Copilot Studio, Anda dapat membuat file spreadsheet dengan semua kasus pengujian Anda dan mengimpornya untuk membuat set pengujian Anda. Anda dapat menyusun setiap pertanyaan pengujian, menentukan metode pengujian yang ingin Anda gunakan, dan menyatakan respons yang diharapkan untuk setiap pertanyaan. Setelah selesai membuat file, simpan sebagai file .csv atau .txt dan impor ke Copilot Studio.

Penting

  • File dapat berisi hingga 100 pertanyaan.
  • Setiap pertanyaan dapat mencapai 1.000 karakter, termasuk spasi.
  • File harus dalam nilai yang dipisahkan koma (CSV) atau format teks.

Untuk membuat file impor:

  1. Buka aplikasi spreadsheet (misalnya, Microsoft Excel).

  2. Tambahkan judul berikut, dalam urutan ini, di baris pertama:

    • Pertanyaan
    • Respons yang diharapkan
    • Metode pengujian
  3. Masukkan pertanyaan pengujian Anda di kolom Pertanyaan. Setiap pertanyaan bisa 1.000 karakter atau kurang, termasuk spasi.

  4. Masukkan salah satu metode pengujian berikut untuk setiap pertanyaan di kolom Metode pengujian :

    • Kualitas umum
    • Membandingkan makna
    • Kemiripan
    • Benar-benar cocok
    • Pencocokan kata kunci
  5. Masukkan respons yang diharapkan untuk setiap pertanyaan di kolom Respons yang diharapkan. Respons yang diharapkan bersifat opsional untuk mengimpor set pengujian. Namun, Anda memerlukan respons yang diharapkan untuk menjalankan kasus pengujian kecocokan, kemiripan, dan membandingkan makna.

  6. Simpan file sebagai file .csv atau .txt.

  7. Impor file dengan mengikuti langkah-langkah dalam Membuat set pengujian baru.