Aracılığıyla paylaş


Bir konuşma ajanı performans testi planlayın ve oluşturun

Copilot Studio ile oluşturulan sohbet ajanları, talep ve yük artışlarını desteklemek için otomatik olarak ölçeklenen bir platformda çalışır. Ancak, konuşma ajanları genellikle özel mantık veya arka uç API'lerine çağrılar kullanır; bu da gecikme sağlar; çünkü özel mantık verimsiz olur veya temel API'ler ile arka uç sistemleri iyi ölçeklenemez.

Performans testi, bir ajanın farklı yük kalıpları altında performansını ve stabilitesini değerlendirir. Kullanıcı tabanı büyüdükçe potansiyel sorunları belirler ve ajanın işlevsel ve duyarlı kalmasını sağlar. Konuşma ajanınızı yükleme altında test etmezseniz, geliştirme ve test sırasında iyi çalışabilir ama gerçek kullanıcı trafiğinde başarısız olabilir.

Performans testinin teknik yönlerine değinmeden önce, istenen kullanıcı deneyimini yakalayan kabul kriterlerini belirleyin ve belirgin yük kalıpları oluşturan konuşma kullanım durumlarını belirleyin. Bu makale, performans testinin planlama aşamasını kısaca ele alır ve konuşma ajanlarınız için yük oluşturmanın teknik detayları hakkında rehberlik sağlar.

Performans testinizi planlayın

Bir performans testi planının tanımlanmış bir hedefi ve belirli kabul kriterleri olmalıdır. Örneğin, bazı testler bir sistemin standart yük altında performansını ölçürken, diğer testler daha aşırı stres üretir ve bu da sistemin kasıtlı olarak tepki vermemesine neden olur. Copilot Studio ile oluşturulan konuşma ajanlarının performansını ölçerken, ajanın temel performansını veya beklenen ağır yükü ölçmek için test edilir, ancak testleri aşırı stres yaratacak şekilde yapılandırmaz.

Uyarı

Beklenen kullanıcı davranışını aşan üretilen yük, mesaj tüketiminin aşmasına ve ortamların istenmeyen kısıtlanmasına yol açabilir. Kısıtlama ve aşırı tüketim kaçınmak için, aşağıdakilerden emin olun:

  • Testleriniz gerçekçi kullanıcı davranışını taklit ediyor.
  • Kiracınız ve çevreleriniz yeterli lisans ve faturalandırma politikalarına sahiptir.

Kullanıcı davranışını anlamak

Test planınıza kullanıcıların farklı konuşma kullanım senaryolarında nasıl davranması beklendiğini analiz ederek başlayın. Yük testi açısından, kullanıcı davranışları kullanım durumlarına göre değişkenlik gösterebilir; kullanıcıların söyledikleri veya sordukları (örneğin, "Uçak rezervasyonu istiyorum" veya "İade politikanız nedir?"), belirli bir kullanım durumunu yönlendiren kullanıcı sayısı ve kullanıcıların etkileşim kalıpları (örneğin, kullanıcıların öğlen saatlerinde hepsini birden bağlaması ile gün boyunca yavaş yavaş birikmesi gibi).

Aşağıdaki tablo, bir bankacılık konuşma ajanı için beklenen kullanıcı davranışını açıklar.

Kullanım Örneği Yaygın kullanıcı ifadeleri Çatışma düzeni
Kredi başvurusu Yeni bir krediye
ihtiyacım var,
yeni bir kredi için başvurmak istiyorum...
Gün boyunca ortalama 1.000 eşzamanlı kullanıcı
Denge sorgusu Hesap bakiyem ne kadar?
Hesap bakiyemi
göster...
10.000 eşzamanlı kullanıcı, hepsi öğle civarında bağlantı kuran
Ek kullanım alanları

Test planı oluşturma

Kullanıcı davranışını kullanım senaryoları ve etkileşim kalıpları açısından tanımladıktan sonra, performans test planınızın ayrıntılarını düşünün. En azından, bir konuşma ajanı için bir performans test planı bir hedef, test senaryoları, temel performans göstergeleri, ayrıntılı test verileri ve başarı kriterleri belirtmelidir.

Ekibiniz zaten değerlendirmeler için sohbet senaryoları tanımladıysa, ya ürün içinde test vakaları oluşturarak ya da Copilot Studio kitini kullanarak, bu senaryoları test planınızı oluşturmak için yeniden kullanabilirsiniz.

Aşağıdaki örnek test planı bir bankacılık konuşma ajanı içindir. Plan, daha önce belirlenen konuşma kullanım senaryolarını kullanarak bir temel test senaryosu ve yük testi senaryosunu tanımlıyor. Temel test edildiğinde, normal performans değerlendirilir, düzenli kullanım sırasında sorunları tespit edilirken, daha fazla yük sistemin zirve kullanıcı aktivitesini nasıl yönettiğini ortaya çıkarabilir.

Bölüm Ayrıntılar
Objective Bankacılık konuşma ajanının performansını temel ve yük koşulları altında değerlendirin
Scope Kapsam İçinde: Temel ve yük testi
Kapsam dışında: Stres testi
Ana Performans Göstergeleri (KPI'ler)
  • Yanıt süresi: Kullanıcı sorularına yanıt verme süresi
  • Hata oranı: Başarısız yanıtların yüzdesi
Test senaryoları Temel testler
  • Kredi başvurusu
    • Kullanıcı yükü: 1.000 eşzamanlı kullanıcı
    • Süre: 15 dakika.
Yük testi
  • Kredi başvurusu
    • Kullanıcı yükü: 1.000 eşzamanlı kullanıcı
    • Süre: 15 dakika.
  • Denge sorgusu
    • Kullanıcı yükü: 10.000 eşzamanlı kullanıcı
    • Süre: 5 dakika
Test verileri
  • Kredi başvurusu çoklu tur ifadeleri
  • Denge sorgusu çoklu turlu ifadeler
Tools
  • Performans test aracı: Apache JMeter
  • Raporlama: JMeter yerleşik raporları
Başarı ölçütleri
  • Başlangıç: 2 saniye% 95 yanıt; Hata oranı <0.5%
  • Yük: 3 saniye içinde 90% yanıtı; Hata oranı <1%

Organizasyonunuzun ihtiyaçlarına uygun bir test planı geliştirmek için teknik ve iş paydaşlarıyla birlikte çalışın. Örnekte belirtilen temel parametreler üzerinde hemfikir. Performans testi referans örneği ve kılavuzlarında test betikleri oluşturmak için Apache JMeter gibi araçları kullanmayı öğrenin.

Çok turlu konuşmaları simüle et

Planda belirtilen test verileri, planlanan performans testinin çoklu turlu konuşmalar sürmesini ima eder. Çok turlu konuşmalar, simüle edilen kullanıcılar ile konuşma ajanı arasında gönderilen bir dizi mesajdır. Performans testleri, üretilen yükün gerçek kullanıcı davranışına benzemesini sağlamak için çoklu turlu konuşmaları yönlendirmelidir. Ayrıca, bazı uzun süreli eylemler veya API çağrıları yalnızca kullanıcılar belirli bir dizi seçim yaptığında veya bir konuşma içinde belirli bir mesaj desenini gönderdiğinde çağrılır.

Aşağıdaki örnekte, bankanın arka uç API'si yalnızca kullanıcı tasarruf hesabını seçtikten sonra çağrılmaya başlar. İlk mesajın yanıt süresi bir saniyeden daha düşüktür çünkü sadece ajanın niyet tanıma motoru bu motoru kullanılıyor. Son mesaj, bir arka uç API'den yanıt bekler, bu da ekstra gecikme sağlar. Çok turlu bir konuşma simüle edilmezse, performans sorunları ortaya çıkmazdı.

Kullanıcı girişlerini ve ajan yanıtlarını farklı yanıt süreleriyle gösteren, çoklu turlu bir konuşmayı simüle eden test bekinin ekran görüntüsü.

Çok turlu konuşmaları simüle etmek, test verilerini hazırlayırken ve test betikleri oluştururken planlama gerektirir. Test verinize, örnekte gösterildiği gibi, tam konuşma akışlarını çağıran bir dizi kullanıcı ifadesi ekleyin. Test beneklerinizin tek bir konuşmada birden fazla ifade gönderdiğinden emin olun.