Bagikan melalui


Merencanakan dan membuat tes performa agen percakapan

Agen percakapan yang dibangun dengan Copilot Studio berjalan pada platform yang secara otomatis menskalakan untuk mendukung peningkatan permintaan dan beban. Namun, agen percakapan sering menggunakan logika kustom atau panggilan ke API backend, yang memperkenalkan latensi karena logika kustom tidak efisien atau API dan sistem backend yang mendasarinya tidak dapat diskalakan dengan baik.

Pengujian kinerja mengevaluasi kinerja dan stabilitas agen di bawah berbagai pola beban. Ini mengidentifikasi potensi masalah seiring bertambahnya basis pengguna, memastikan agen tetap fungsional dan responsif. Jika Anda tidak menguji agen percakapan Anda di bawah beban, agen percakapan mungkin berfungsi dengan baik selama pengembangan dan pengujian, tetapi gagal di bawah lalu lintas pengguna nyata.

Sebelum membahas aspek teknis pengujian kinerja, tentukan kriteria penerimaan yang menangkap pengalaman pengguna yang diinginkan dan identifikasi kasus penggunaan percakapan yang menghasilkan pola beban yang berbeda. Artikel ini secara singkat membahas tahap perencanaan pengujian kinerja dan memberikan panduan tentang spesifikasi teknis menghasilkan beban untuk agen percakapan Anda.

Merencanakan pengujian performa Anda

Rencana uji kinerja harus memiliki tujuan yang ditentukan dan kriteria penerimaan khusus. Misalnya, beberapa pengujian mengukur kinerja sistem di bawah beban standar, sementara pengujian lain menghasilkan tekanan yang lebih ekstrem yang dengan sengaja menyebabkan sistem menjadi tidak responsif. Saat mengukur performa agen percakapan yang dibuat dengan Copilot Studio, rancang pengujian untuk mengukur performa dasar agen atau beban berat yang diantisipasi, tetapi jangan mengonfigurasi pengujian untuk menghasilkan stres yang berlebihan.

Peringatan

Beban yang dihasilkan yang melebihi perilaku pengguna yang diharapkan dapat menyebabkan kelebihan konsumsi pesan dan pembatasan lingkungan yang tidak diinginkan. Untuk menghindari pelambatan dan konsumsi berlebih, pastikan bahwa:

  • Pengujian Anda meniru perilaku pengguna yang realistis.
  • Penyewa dan lingkungan Anda memiliki lisensi dan kebijakan penagihan yang memadai yang ditetapkan.

Memahami perilaku pengguna

Mulailah rencana pengujian Anda dengan menganalisis bagaimana pengguna diharapkan untuk berperilaku di berbagai kasus penggunaan percakapan. Dari perspektif pengujian beban, perilaku pengguna mungkin bervariasi di seluruh kasus penggunaan dalam hal apa yang dikatakan atau ditanyakan pengguna (misalnya, "Saya ingin memesan penerbangan" atau "Apa kebijakan pengembalian Anda?"), jumlah pengguna yang mendorong kasus penggunaan tertentu, dan pola keterlibatan pengguna (misalnya, pengguna terhubung sekaligus pada siang hari versus penumpukan bertahap sepanjang hari).

Tabel berikut menjelaskan perilaku pengguna yang diantisipasi untuk agen percakapan perbankan.

Kasus Penggunaan Ucapan pengguna umum Pola keterlibatan
Pengajuan pinjaman Saya butuh pinjaman
baru Saya ingin mengajukan pinjaman
baru...
Rata-rata 1.000 pengguna bersamaan sepanjang hari
Pertanyaan saldo Berapa saldo akun saya?
Tampilkan saldo
akun saya...
10.000 pengguna bersamaan, semuanya terhubung sekitar tengah hari
Kasus penggunaan tambahan

Membuat rencana pengujian

Setelah Anda menentukan perilaku pengguna dalam hal kasus penggunaan dan pola keterlibatan, pikirkan tentang spesifik rencana pengujian kinerja Anda. Minimal, rencana pengujian kinerja untuk agen percakapan harus menentukan tujuan, skenario pengujian, indikator kinerja utama, data pengujian terperinci, dan kriteria keberhasilan.

Jika tim Anda sudah menentukan skenario percakapan untuk evaluasi, baik melalui pembuatan kasus pengujian dalam produk atau dengan menggunakan kit Copilot Studio, Anda dapat menggunakan kembali skenario ini untuk mulai membuat rencana pengujian.

Contoh rencana pengujian berikut adalah untuk agen percakapan perbankan. Rencana ini menggunakan kasus penggunaan percakapan yang sebelumnya diidentifikasi untuk menentukan skenario pengujian dasar dan skenario pengujian beban. Menguji garis besar menilai kinerja normal, mengidentifikasi masalah selama penggunaan rutin, sementara beban yang lebih besar mungkin mengungkapkan bagaimana sistem menangani aktivitas pengguna puncak.

Section Detail lebih lanjut
Objective Mengevaluasi kinerja agen percakapan perbankan dalam kondisi dasar dan beban
Ruang lingkup Dalam cakupan: Pengujian
dasar dan bebanDi luar cakupan: Pengujian stres
Indikator Kinerja Utama (KPI)
  • Waktu respons: Waktu untuk menanggapi kueri pengguna
  • Tingkat kesalahan: Persentase respons yang gagal
Skenario pengujian Pengujian dasar
  • Pengajuan pinjaman
    • Beban pengguna: 1.000 pengguna bersamaan
    • Durasi: 15 menit.
Pengujian beban
  • Pengajuan pinjaman
    • Beban pengguna: 1.000 pengguna bersamaan
    • Durasi: 15 menit.
  • Pertanyaan saldo
    • Beban pengguna: 10.000 pengguna bersamaan
    • Durasi: 5 menit
Menguji data
  • Ucapan multi-putaran aplikasi pinjaman
  • Pertanyaan keseimbangan ucapan multi-putaran
Tools
  • Alat pengujian kinerja: Apache JMeter
  • Pelaporan: Laporan bawaan JMeter
Kriteria keberhasilan
  • Baseline: 95% respons di bawah 2 detik; Tingkat <kesalahan 0,5%
  • Beban: 90 respons% di bawah 3 detik; tingkat kesalahan <1%

Bekerja sama dengan pemangku kepentingan teknis dan bisnis untuk mengembangkan rencana pengujian yang sesuai dengan kebutuhan organisasi Anda. Setujui parameter utama yang diuraikan dalam contoh. Pelajari cara menggunakan alat seperti Apache JMeter untuk membuat skrip pengujian di contoh referensi dan panduan pengujian performa.

Mensimulasikan percakapan multi-giliran

Data pengujian yang ditentukan dalam rencana menyiratkan pengujian kinerja yang direncanakan mendorong percakapan multi-putaran. Percakapan multi-giliran adalah serangkaian pesan bolak-balik yang dikirim antara pengguna yang disimulasikan dan agen percakapan. Pengujian performa harus mendorong percakapan multi-putaran sehingga beban yang dihasilkan menyerupai perilaku pengguna yang sebenarnya. Selain itu, beberapa tindakan yang berjalan lama atau panggilan API hanya dipanggil saat pengguna membuat serangkaian pilihan tertentu atau mengirim pola pesan tertentu dalam percakapan.

Dalam contoh berikut, API backend bank hanya memanggil setelah pengguna memilih rekening tabungan. Waktu respons untuk pesan pertama lebih rendah dari satu detik karena hanya mesin pengenalan maksud agen yang terlibat. Pesan terakhir menunggu respons dari API backend, yang memperkenalkan latensi ekstra. Tanpa mensimulasikan percakapan multi-putaran, masalah kinerja tidak akan muncul.

Tangkapan layar skrip pengujian yang mensimulasikan percakapan multi-giliran, menampilkan input pengguna dan respons agen dengan waktu respons yang bervariasi.

Mensimulasikan percakapan multi-giliran memerlukan perencanaan saat Anda menyiapkan data pengujian dan membuat skrip pengujian. Sertakan serangkaian ucapan pengguna dalam data pengujian Anda yang memanggil alur percakapan lengkap, seperti yang ditunjukkan dalam contoh. Pastikan skrip pengujian Anda mengirim beberapa ucapan dalam satu percakapan.