Bagikan melalui


Membuat atau memodifikasi set pengujian untuk mengevaluasi agen Anda

[Artikel ini adalah dokumentasi prarilis dan dapat berubah.]

Satu set pengujian terdiri dari sekelompok hingga 100 kasus pengujian. Saat menjalankan evaluasi agen, Anda memilih set pengujian dan Copilot Studio menjalankan setiap kasus pengujian dalam set tersebut terhadap agen Anda.

Anda dapat membuat kasus pengujian dalam set pengujian secara manual, mengimpornya menggunakan spreadsheet, atau menggunakan AI untuk menghasilkan pesan berdasarkan desain dan sumber daya agen Anda. Anda kemudian dapat memilih bagaimana Anda ingin mengukur kualitas respons agen Anda untuk setiap kasus pengujian dalam set pengujian.

Untuk informasi selengkapnya tentang cara kerja evaluasi agen, lihat Tentang evaluasi agen.

Untuk mempelajari cara mengedit set pengujian yang ada, lihat Mengubah detail set pengujian.

Penting

Hasil tes tersedia di Copilot Studio selama 89 hari. Untuk menyimpan hasil pengujian untuk jangka waktu yang lebih lama, ekspor hasilnya ke file CSV.

Membuat set pengujian baru

  1. Buka halaman Evaluasi agen Anda.

Tangkapan layar yang menunjukkan cara memilih tab Evaluasi saat pemilihan tab dikompresi karena ukuran layar.

  1. Pilih Evaluasi baru.

    Tangkapan layar yang menunjukkan tombol Buat pengujian baru di halaman Evaluasi.

  2. Di halaman Evaluasi baru , pilih metode yang ingin Anda gunakan untuk membuat set pengujian. Satu set pengujian dapat memiliki hingga 100 kasus pengujian.

    • Pertanyaan cepat diatur agar Copilot Studio membuat kasus pengujian secara otomatis berdasarkan deskripsi, instruksi, dan kemampuan agen Anda. Opsi ini menghasilkan 10 pertanyaan untuk menjalankan evaluasi kecil dan cepat atau untuk mulai membangun set pengujian yang lebih besar.
    • Kumpulan pertanyaan lengkap agar Copilot Studio membuat kasus pengujian menggunakan sumber pengetahuan atau topik agen Anda dan memilih jumlah pertanyaan yang akan dibuat.
    • Gunakan percakapan obrolan percobaan Anda untuk secara otomatis mengisi set pengujian dengan pertanyaan yang Anda berikan di obrolan uji coba Anda. Cara ini menggunakan pertanyaan dari obrolan percobaan terbaru. Anda juga dapat memulai evaluasi dari obrolan uji coba dengan menggunakan tombol evaluasi . Tangkapan layar yang menunjukkan tombol Buat pengujian baru di obrolan pengujian.
    • Impor kasus pengujian dari file dengan menyeret file Anda ke area yang ditentukan, memilih Telusuri untuk mengunggah file, atau memilih salah satu opsi upload lainnya.
    • Atau, tulis beberapa pertanyaan sendiri untuk membuat set pengujian secara manual. Ikuti langkah-langkah untuk mengedit set pengujian untuk menambahkan dan mengedit kasus pengujian.
    • Gunakan data produksi berdasarkan tema dari analitik agen Anda. Tangkapan layar yang menunjukkan opsi Evaluasi untuk tema dalam daftar Tema untuk satu tema.
  3. Edit detail kasus pengujian. Semua kasus pengujian yang menggunakan metode, kecuali kualitas umum, memerlukan respons yang diharapkan. Untuk informasi selengkapnya tentang pengeditan, lihat Memodifikasi set pengujian.

  4. Di bawah Nama, masukkan nama untuk set pengujian Anda.

  5. Ubah atau tambahkan metode pengujian yang ingin Anda gunakan:

    • Tambahkan metode baru:
      1. Pilih Tambahkan metode pengujian.
      2. Pilih semua metode yang ingin Anda uji, lalu pilih OK. Anda dapat menambahkan beberapa metode.
      3. Untuk beberapa metode, atur skor lulus, lalu pilih OK. Skor lulus menentukan skor apa yang menghasilkan lulus atau kegagalan.
      4. Beberapa metode memerlukan penambahan respons atau kata kunci yang diharapkan untuk setiap kasus pengujian Anda. Untuk informasi selengkapnya, lihat Memilih metode evaluasi.
    • Pilih metode pengujian yang ada untuk diedit atau dihapus.
    Metode pengujian Tindakan Penilaian Konfigurasi
    Kualitas umum Seberapa baik jawaban kasus uji berdasarkan kualitas tertentu Dicetak dari 100% None
    Bandingkan makna Seberapa baik arti jawaban kasus uji sesuai dengan jawaban yang diharapkan Dicetak dari 100% Skor lulus, jawaban yang diharapkan
    Penggunaan kemampuan Apakah kasus pengujian menggunakan sumber daya yang diharapkan Lulus/gagal Kemampuan yang diharapkan
    Pencocokan kata kunci Apakah kasus pengujian menggunakan semua atau salah satu kata kunci atau frasa yang diharapkan Lulus/gagal Kata kunci atau frasa yang diharapkan
    Kesamaan teks Seberapa baik teks jawaban kasus uji cocok dengan jawaban yang diharapkan Dicetak dari 100% Skor lulus, jawaban yang diharapkan
    Kecocokan persis Apakah jawaban kasus uji sama persis dengan jawaban yang diharapkan Lulus/gagal Jawaban yang diharapkan
  6. Pilih Profil pengguna, lalu pilih atau tambahkan akun yang ingin Anda gunakan untuk set pengujian ini, atau lanjutkan tanpa autentikasi. Evaluasi menggunakan akun ini untuk terhubung ke sumber pengetahuan dan alat selama pengujian. Untuk informasi tentang menambahkan dan mengelola profil pengguna, lihat Mengelola profil dan koneksi pengguna.

    Nota

    Pengujian otomatis menggunakan autentikasi akun pengujian yang dipilih. Jika agen Anda memiliki sumber pengetahuan atau koneksi yang memerlukan autentikasi tertentu, pilih akun yang sesuai untuk pengujian Anda. Saat Copilot Studio membuat kasus pengujian, ia menggunakan kredensial autentikasi akun yang terhubung untuk mengakses sumber pengetahuan dan alat agen Anda. Kasus atau hasil pengujian yang dihasilkan dapat menyertakan informasi sensitif yang dapat diakses oleh akun yang terhubung, dan informasi ini dapat dilihat oleh semua pembuat yang dapat mengakses set pengujian.

  7. Pilih Simpan untuk memperbarui set pengujian tanpa menjalankan kasus pengujian atau Evaluasi untuk segera menjalankan set pengujian.

Batasan pembuatan kasus uji

Pembuatan kasus pengujian gagal jika satu atau beberapa pertanyaan melanggar setelan moderasi konten agen Anda. Kemungkinan alasannya meliputi:

  • Instruksi atau topik agen mengarahkan model untuk menghasilkan konten yang ditandai sistem.
  • Sumber pengetahuan yang terhubung mencakup konten sensitif atau terbatas.
  • Pengaturan moderasi konten agen terlalu ketat.

Untuk mengatasi masalah, coba tindakan yang berbeda, seperti menyesuaikan sumber pengetahuan, memperbarui instruksi, atau mengubah pengaturan moderasi.

Satu set pengujian dapat berisi hingga 100 kasus pengujian.

Menghasilkan set pengujian dari pengetahuan atau topik

Anda dapat menguji agen Anda dengan membuat pertanyaan menggunakan informasi dan sumber percakapan yang sudah dimiliki agen Anda. Metode pengujian ini bagus untuk menguji bagaimana agen Anda menggunakan pengetahuan dan topik yang sudah dimilikinya, tetapi tidak baik untuk menguji kesenjangan informasi.

Anda dapat membuat kasus pengujian dengan menggunakan sumber pengetahuan berikut:

  • Teks

  • Microsoft Word

  • Microsoft Excel

Anda dapat menggunakan file hingga 293 KB untuk membuat pertanyaan ujian.

Untuk menghasilkan set pengujian:

  1. Di Evaluasi baru, pilih Kumpulan pertanyaan lengkap.

  2. Pilih Pengetahuan atau Topik.

    • Pengetahuan bekerja paling baik untuk agen yang menggunakan orkestrasi generatif. Metode ini membuat pertanyaan dengan menggunakan pilihan sumber pengetahuan agen Anda.
    • Topik berfungsi paling baik untuk agen yang menggunakan orkestrasi klasik. Metode ini membuat pertanyaan dengan menggunakan topik agen Anda.
  3. Untuk Pengetahuan, pilih sumber pengetahuan yang ingin Anda sertakan dalam pembuatan pertanyaan.

Cuplikan layar yang menunjukkan pilihan sumber pengetahuan untuk disertakan dalam pembuatan kasus pengujian.

  1. Untuk Pengetahuan dan Topik, pilih dan seret penggeser untuk memilih jumlah pertanyaan yang akan dibuat.

Tangkapan layar yang menunjukkan penggeser untuk memilih berapa banyak pertanyaan yang akan dibuat.

  1. Pilih Hasilkan.

  2. Di bawah Nama, masukkan nama untuk set pengujian Anda.

    1. Ubah atau tambahkan metode pengujian yang ingin Anda gunakan:
    • Tambahkan metode baru:
      1. Pilih Tambahkan metode pengujian.
      2. Pilih semua metode yang ingin Anda uji, lalu pilih OK. Anda dapat menambahkan beberapa metode.
      3. Untuk beberapa metode, atur skor lulus, lalu pilih OK. Skor lulus menentukan skor apa yang menghasilkan lulus atau kegagalan.
      4. Beberapa metode memerlukan penambahan respons atau kata kunci yang diharapkan untuk setiap kasus pengujian Anda. Untuk informasi selengkapnya, lihat Memilih metode evaluasi
    • Pilih metode pengujian yang ada untuk diedit atau dihapus.
  3. Edit detail kasus pengujian. Semua kasus pengujian yang menggunakan metode, kecuali kualitas umum, memerlukan respons yang diharapkan. Untuk informasi selengkapnya tentang pengeditan, lihat Memodifikasi set pengujian.

  4. Pilih Simpan untuk memperbarui set pengujian tanpa menjalankan kasus pengujian atau Evaluasi untuk segera menjalankan set pengujian.

Membuat file set pengujian untuk diimpor

Alih-alih membuat kasus pengujian secara langsung di Copilot Studio, Anda dapat membuat file spreadsheet dengan semua kasus pengujian Anda dan mengimpornya untuk membuat set pengujian Anda. Anda dapat menyusun setiap pertanyaan pengujian, menentukan metode pengujian yang ingin Anda gunakan, dan menyatakan respons yang diharapkan untuk setiap pertanyaan. Setelah selesai membuat file, simpan sebagai file .csv atau .txt dan impor ke Copilot Studio.

Penting

  • File dapat berisi hingga 100 pertanyaan.
  • Setiap pertanyaan dapat mencapai 1.000 karakter, termasuk spasi.
  • File harus dalam nilai yang dipisahkan koma (CSV) atau format teks.

Untuk membuat file impor:

  1. Buka aplikasi spreadsheet (misalnya, Microsoft Excel).

  2. Tambahkan judul berikut, dalam urutan ini, di baris pertama:

    • Pertanyaan
    • Respons yang diharapkan
    • Metode pengujian
  3. Masukkan pertanyaan pengujian Anda di kolom Pertanyaan. Setiap pertanyaan bisa 1.000 karakter atau kurang, termasuk spasi.

  4. Masukkan salah satu metode pengujian berikut untuk setiap pertanyaan di kolom Metode pengujian :

    • Kualitas umum
    • Membandingkan makna
    • Kemiripan
    • Benar-benar cocok
    • Pencocokan kata kunci
  5. Masukkan respons yang diharapkan untuk setiap pertanyaan di kolom Respons yang diharapkan. Respons yang diharapkan bersifat opsional untuk mengimpor set pengujian. Namun, Anda memerlukan respons yang diharapkan untuk menjalankan kasus pengujian kecocokan, kemiripan, dan membandingkan makna.

  6. Simpan file sebagai file .csv atau .txt.

  7. Impor file dengan mengikuti langkah-langkah dalam Membuat set pengujian baru.

Membuat set pengujian berdasarkan tema

Buat set pengujian dengan pertanyaan dari percakapan dengan pengguna nyata. Metode ini menggunakan tema (pratinjau), yang ditemukan di analitik agen Anda.

Tema adalah pengelompokan pertanyaan yang diambil dari kumpulan pertanyaan pengguna yang memicu jawaban generatif. Saat Anda membuat set pengujian menggunakan tema, Anda membuat kasus pengujian dari pertanyaan yang diajukan oleh pengguna yang terkait dengan tema tersebut.

Gunakan set pengujian ini untuk melakukan evaluasi yang berfokus pada satu area atau topik cakupan agen Anda. Misalnya, jika Anda memiliki agen layanan pelanggan, Anda dapat melacak kualitas jawaban untuk pertanyaan penagihan dan pembayaran secara terpisah dari kasus penggunaan lain seperti pemecahan masalah.

Nota

Sebelum membuat set pengujian dari tema, Anda memerlukan akses ke tema di analitik. Tinjau prasyarat untuk tema (pratinjau).

  1. Di halaman Analytics agen, buka daftar Tema .

  2. Arahkan kursor ke tema, lalu pilih Evaluasi.

    Tangkapan layar yang menunjukkan opsi Evaluasi untuk tema dalam daftar Tema.

    Anda juga dapat memilih Lihat semua untuk melihat lebih banyak tema, lalu pilih Evaluasi.

  3. Pilih Buat dan buka.

  4. Edit detail set pengujian dan kasus. Semua kasus pengujian yang menggunakan metode, kecuali kualitas umum, memerlukan respons yang diharapkan. Untuk informasi selengkapnya tentang pengeditan, lihat Memodifikasi set pengujian.

  5. Pilih Simpan untuk memperbarui set pengujian tanpa menjalankan kasus pengujian atau Evaluasi untuk segera menjalankan set pengujian.