Membuat satu set pengujian respons tunggal

Evaluasi respons tunggal menguji agen Anda menggunakan satu pertanyaan yang tidak terkait secara bergantian, daripada percakapan penuh. Misalnya, evaluasi respons tunggal untuk agen layanan pelanggan bertanya Apa jam kerja Anda?, mencatat respons agen terhadap pertanyaan tersebut, lalu dimulai dengan pertanyaan baru, Bagaimana cara menemukan riwayat pesanan saya?

Evaluasi respons tunggal sangat cocok ketika Anda ingin menguji agen Anda tentang bagaimana cara ia menjawab pertanyaan spesifik, kemampuan apa yang dipanggilnya, dan kata-kata spesifik yang digunakannya dalam jawabannya. Anda juga dapat menjalankan evaluasi percakapan, yang memungkinkan Anda menilai perilaku agen Anda selama interaksi yang lebih lama.

Evaluasi menggunakan kelompok uji. Set pengujian untuk evaluasi respons tunggal terdiri dari sekelompok hingga 100 kasus pengujian. Saat menjalankan evaluasi agen, Anda memilih set pengujian dan Copilot Studio menjalankan setiap kasus pengujian di dalam set tersebut terhadap agen Anda.

Anda dapat membuat kasus pengujian dalam set pengujian secara manual, mengimpornya menggunakan spreadsheet, atau menggunakan AI untuk menghasilkan pesan berdasarkan desain dan sumber daya agen Anda. Anda kemudian dapat memilih bagaimana Anda ingin mengukur kualitas respons agen Anda untuk setiap kasus pengujian dalam set pengujian.

Untuk informasi selengkapnya tentang cara kerja evaluasi agen, lihat Tentang evaluasi agen.

Untuk mempelajari cara mengedit set pengujian yang ada, lihat Mengubah detail set pengujian.

Important

Hasil pengujian tersedia di Copilot Studio selama 89 hari. Untuk menyimpan hasil pengujian untuk jangka waktu yang lebih lama, ekspor hasilnya ke file CSV.

Membuat set pengujian baru

  1. Pergi ke halaman Evaluasi agen Anda.

    Tangkapan layar yang menunjukkan cara memilih tab Evaluasi saat pemilihan tab dikompresi karena ukuran layar.

  2. Pilih Evaluasi baru, lalu pilih Respons tunggal.

    Tangkapan layar yang menunjukkan tombol Buat pengujian baru di halaman Evaluasi.

  3. Pilih metode yang ingin Anda gunakan untuk membuat set pengujian Anda. Satu set pengujian dapat memiliki hingga 100 kasus pengujian.

    • Serangkaian pertanyaan cepat agar Copilot Studio dapat menghasilkan kasus uji secara otomatis berdasarkan deskripsi, instruksi, dan kapabilitas agen Anda. Opsi ini menghasilkan 10 pertanyaan untuk menjalankan evaluasi kecil dan cepat atau untuk mulai membangun set pengujian yang lebih besar.
    • Set lengkap pertanyaan agar Copilot Studio dapat menghasilkan kasus pengujian menggunakan sumber pengetahuan atau topik dan memilih jumlah pertanyaan yang akan dihasilkan.
    • Gunakan percakapan obrolan percobaan Anda untuk secara otomatis mengisi set pengujian dengan pertanyaan yang Anda berikan di obrolan uji coba Anda. Cara ini menggunakan pertanyaan dari obrolan percobaan terbaru. Anda juga dapat memulai evaluasi dari obrolan uji coba dengan menggunakan tombol evaluasi . Tangkapan layar yang menunjukkan tombol Buat pengujian baru di obrolan pengujian.
    • Impor kasus pengujian dari file dengan menyeret file Anda ke area yang ditentukan, memilih Telusuri untuk mengunggah file, atau memilih salah satu opsi upload lainnya.
    • Atau, tulis beberapa pertanyaan sendiri untuk membuat set pengujian secara manual. Ikuti langkah-langkah untuk mengedit set pengujian untuk menambahkan dan mengedit kasus pengujian.
    • Gunakan data produksi berdasarkan tema dari analitik agen Anda. Tangkapan layar yang menunjukkan opsi Evaluasi untuk tema dalam daftar Tema untuk satu tema.
  4. Di bawah Nama, masukkan nama untuk set pengujian Anda.

  5. Ubah atau tambahkan metode pengujian yang ingin Anda gunakan:

    • Tambahkan metode baru:
      1. Pilih Tambahkan metode pengujian.
      2. Pilih semua metode yang ingin Anda uji, lalu pilih OK.
      3. Beberapa metode memerlukan nilai kelulusan. Skor lulus menentukan nilai mana yang menyebabkan lulus atau gagal. Atur skor, lalu pilih OK.
      4. Beberapa metode memerlukan penambahan respons atau kata kunci yang diharapkan untuk setiap kasus pengujian Anda. Untuk informasi selengkapnya, lihat Memilih metode evaluasi
    • Pilih metode pengujian yang ada untuk diedit atau dihapus.
    Metode pengujian Tindakan Jenis set pengujian Penilaian Konfigurasi
    Kualitas umum Seberapa baik respons dari suatu kasus pengujian berdasarkan kriteria kualitas tertentu. Tanggapan atau percakapan tunggal Diberi skor dari 100% None
    Bandingkan makna Seberapa baik arti jawaban kasus uji sesuai dengan jawaban yang diharapkan Respons tunggal Diberi skor dari 100% Skor lulus, jawaban yang diharapkan
    Penggunaan kemampuan Apakah kasus pengujian menggunakan semua atau sebagian dari sumber daya yang diharapkan Respons tunggal Lulus/gagal Kemampuan yang diharapkan
    Pencocokan kata kunci Apakah kasus pengujian menggunakan semua atau salah satu kata kunci atau frasa yang diharapkan Tanggapan atau percakapan tunggal Lulus/gagal Kata kunci atau frasa yang diharapkan
    Kesamaan teks Seberapa baik teks jawaban kasus uji cocok dengan jawaban yang diharapkan Respons tunggal Diberi skor dari 100% Skor lulus, jawaban yang diharapkan
    Kecocokan persis Apakah jawaban kasus uji sama persis dengan jawaban yang diharapkan Respons tunggal Lulus/gagal Jawaban yang diharapkan
    Khusus Apakah respons kasus pengujian memenuhi kriteria atau ekspektasi yang Anda tentukan. Tanggapan atau percakapan tunggal Lulus/gagal (melewati kriteria label yang ditentukan) Nama, instruksi evaluasi, label
  6. Sunting rincian kasus pengujian. Semua metode pengujian, kecuali kualitas umum, memerlukan respons atau kata kunci yang diharapkan. Untuk informasi selengkapnya tentang mengedit kasus pengujian, lihat Mengubah set pengujian.

  7. Pilih Profil pengguna, lalu pilih atau tambahkan akun yang ingin Anda gunakan untuk set pengujian ini, atau lanjutkan tanpa autentikasi. Evaluasi menggunakan akun ini untuk terhubung ke sumber pengetahuan dan alat selama pengujian. Jika akun lain dipilih untuk evaluasi selain akun yang terautentikasi dengan konektor, agen yang menggunakan konektor atau alat akan mengalami kegagalan. Untuk informasi tentang menambahkan dan mengelola profil pengguna, lihat Mengelola profil dan koneksi pengguna.

    Note

    Pengujian otomatis menggunakan autentikasi akun pengujian yang dipilih. Jika agen Anda memiliki sumber pengetahuan atau koneksi yang memerlukan autentikasi tertentu, pilih akun yang sesuai untuk pengujian Anda. Saat Copilot Studio menghasilkan kasus pengujian, ia menggunakan kredensial autentikasi akun yang terhubung untuk mengakses sumber pengetahuan dan alat agen Anda. Kasus pengujian yang dihasilkan dapat menyertakan data sensitif yang dapat diakses akun yang terhubung. Setiap pembuat dengan akses ke agen juga dapat melihat set pengujian yang ditautkan ke agen tersebut.

  8. Pilih Simpan untuk memperbarui set pengujian tanpa menjalankan kasus pengujian atau Evaluasi untuk segera menjalankan set pengujian.

Batasan pembuatan kasus uji

Pembuatan kasus pengujian gagal jika satu atau beberapa pertanyaan melanggar setelan moderasi konten agen Anda. Kemungkinan alasannya meliputi:

  • Instruksi atau topik dari agen menyebabkan model menghasilkan konten yang ditandai oleh sistem.
  • Sumber pengetahuan yang terhubung mencakup konten sensitif atau terbatas.
  • Pengaturan moderasi konten agen terlalu ketat.

Untuk mengatasi masalah, coba tindakan yang berbeda, seperti menyesuaikan sumber pengetahuan, memperbarui instruksi, atau mengubah pengaturan moderasi.

Satu set pengujian dapat berisi hingga 100 kasus pengujian.

Menghasilkan kumpulan pengujian dari pengetahuan atau topik

Anda dapat menguji agen Anda dengan membuat pertanyaan menggunakan informasi dan sumber percakapan yang sudah dimiliki agen Anda. Metode pengujian ini baik untuk menguji bagaimana agen Anda menggunakan sumber pengetahuan atau topik yang sudah dimilikinya, tetapi tidak baik untuk menguji kesenjangan informasi.

Anda dapat membuat kasus pengujian dengan menggunakan sumber pengetahuan berikut:

  • Teks

  • Microsoft Word

  • Microsoft Excel

Anda dapat menggunakan file hingga 5 MB untuk menghasilkan pertanyaan pengujian.

Untuk menghasilkan set pengujian:

  1. Di Evaluasi baru, pilih Kumpulan pertanyaan lengkap.

  2. Pilih Pengetahuan atau Topik.

    • Pengetahuan bekerja paling baik untuk agen yang menggunakan orkestrasi generatif. Metode ini membuat pertanyaan dengan menggunakan salah satu sumber pengetahuan agen Anda.
    • Topik berfungsi dengan sangat baik untuk agen yang menggunakan orkestrasi klasik. Metode ini membuat pertanyaan dengan menggunakan topik agen Anda.
  3. Untuk Pengetahuan, pilih sumber pengetahuan yang ingin Anda gunakan untuk menghasilkan pertanyaan.

    Cuplikan layar yang menunjukkan pilihan sumber pengetahuan untuk disertakan dalam pembuatan kasus pengujian.

  4. Untuk Pengetahuan dan Topik, pilih dan seret penggeser untuk memilih jumlah pertanyaan yang akan dibuat.

    Tangkapan layar yang menunjukkan penggeser untuk memilih berapa banyak pertanyaan yang akan dibuat.

  5. Pilih Hasilkan.

  6. Di bawah Nama, masukkan nama untuk set pengujian Anda.

    1. Ubah atau tambahkan metode pengujian yang ingin Anda gunakan:
    • Tambahkan metode baru:
      1. Pilih Tambahkan metode pengujian.
      2. Pilih semua metode yang ingin Anda uji, lalu pilih OK. Anda dapat menambahkan beberapa metode.
      3. Untuk beberapa metode, atur skor lulus, lalu pilih OK. Skor lulus menentukan nilai mana yang menyebabkan lulus atau gagal.
      4. Beberapa metode memerlukan penambahan respons atau kata kunci yang diharapkan untuk setiap kasus pengujian Anda. Untuk informasi selengkapnya, lihat Memilih metode evaluasi
    • Pilih metode pengujian yang ada untuk diedit atau dihapus.
  7. Sunting rincian kasus pengujian. Semua kasus pengujian yang menggunakan metode, kecuali kualitas umum, memerlukan respons yang diharapkan. Untuk informasi selengkapnya tentang pengeditan, lihat Memodifikasi set pengujian.

  8. Pilih Simpan untuk memperbarui set pengujian tanpa menjalankan kasus pengujian atau Evaluasi untuk segera menjalankan set pengujian.

Membuat file set pengujian untuk diimpor

Alih-alih membuat kasus pengujian secara langsung di Copilot Studio, Anda dapat membuat file spreadsheet dengan semua kasus pengujian dan mengimpornya untuk membuat set pengujian Anda. Anda dapat menyusun setiap pertanyaan pengujian, menentukan metode pengujian yang ingin Anda gunakan, dan menyatakan respons yang diharapkan untuk setiap pertanyaan. Setelah selesai membuat file, simpan sebagai file .csv atau .txt dan impor ke Copilot Studio.

Important

  • File dapat berisi hingga 100 pertanyaan.
  • Setiap pertanyaan dapat mencapai 1.000 karakter, termasuk spasi.
  • File harus dalam nilai yang dipisahkan koma (CSV) atau format teks.

Untuk membuat file impor:

  1. Buka aplikasi spreadsheet (misalnya, Microsoft Excel). Anda dapat mengunduh templat CSV di bawah Sumber data setelah memilih Evaluasi baru.

  2. Tambahkan judul berikut, dalam urutan ini, di baris pertama:

    • Pertanyaan
    • Respons yang diharapkan
    • Metode pengujian
  3. Masukkan pertanyaan pengujian Anda di kolom Pertanyaan. Setiap pertanyaan bisa 1.000 karakter atau kurang, termasuk spasi.

  4. Masukkan salah satu metode pengujian berikut untuk setiap pertanyaan di kolom Metode pengujian :

    • Kualitas umum
    • Bandingkan makna
    • Kesamaan
    • Kecocokan persis
    • Pencocokan kata kunci
  5. Masukkan respons yang diharapkan untuk setiap pertanyaan di kolom Respons yang diharapkan. Respons yang diharapkan bersifat opsional untuk mengimpor set pengujian. Namun, Anda memerlukan respons yang diharapkan untuk menjalankan kasus pengujian kecocokan, kemiripan, dan membandingkan makna.

  6. Simpan file sebagai file .csv atau .txt.

  7. Impor file dengan mengikuti langkah-langkah dalam Membuat set pengujian baru.

Membuat set pengujian berdasarkan tema

Buat set pengujian dengan pertanyaan dari percakapan dengan pengguna nyata. Metode ini menggunakan tema (pratinjau) yang terdapat dalam analitik agen Anda.

Tema adalah pengelompokan pertanyaan yang diambil dari kumpulan pertanyaan pengguna yang memicu jawaban generatif. Saat Anda membuat set pengujian menggunakan tema, Anda membuat kasus pengujian dari pertanyaan yang diajukan oleh pengguna yang terkait dengan tema tersebut.

Gunakan set pengujian ini untuk melakukan evaluasi yang berfokus pada satu area atau topik cakupan agen Anda. Misalnya, jika Anda memiliki agen layanan pelanggan, Anda dapat melacak kualitas jawaban untuk pertanyaan penagihan dan pembayaran secara terpisah dari kasus penggunaan lain seperti pemecahan masalah.

Note

Sebelum membuat set pengujian dari tema, Anda memerlukan akses ke tema di analitik. Tinjau prasyarat untuk tema (pratinjau).

  1. Di halaman Analytics agen Anda, buka daftar Tema-Tema.

  2. Arahkan kursor ke tema, lalu pilih Evaluasi.

    Tangkapan layar yang menunjukkan opsi Evaluasi untuk tema dalam daftar Tema.

    Anda juga dapat memilih Lihat semua untuk melihat lebih banyak tema, lalu pilih Evaluasi.

  3. Pilih Buat dan buka.

  4. Sunting detail dari set pengujian dan kasus pengujian. Semua kasus pengujian yang menggunakan metode, kecuali kualitas umum, memerlukan respons yang diharapkan. Untuk informasi selengkapnya tentang pengeditan, lihat Memodifikasi set pengujian.

  5. Pilih Simpan untuk memperbarui set pengujian tanpa menjalankan kasus pengujian atau Evaluasi untuk segera menjalankan set pengujian.