Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
[Bu makale bir sürüm öncesi belgesidir ve değiştirilebilir.]
YZ ajanları iş süreçlerinde kritik roller üstlendikçe, güvenilir ve tekrarlanabilir test ihtiyacı hayati hale gelir. Ajan değerlendirmesi, ajanınız için gerçek dünya senaryolarını simüle eden testler oluşturmanıza olanak tanır. Bu testler, manuel ve vaka bazında testlerden daha hızlı bir şekilde daha fazla soruyu kapsar. Sonra, ajanın erişebileceği bilgilere dayanarak sorulan soruların doğruluğunu, alaka düzeyini ve kalitesini ölçebilirsiniz . Test setinden elde edilen sonuçları kullanarak, temsilcinizin davranışını optimize edebilir ve temsilcinizin iş ve kalite gereksinimlerinizle karşılandığını doğrulayabilirsiniz.
Önemli
Bu madde, Microsoft Copilot Studio önizleme belgelerini içerir ve değişikliğe tabidir.
Önizleme özellikleri üretim kullanımına yönelik değildir ve sınırlı işlevselliğe sahip olabilir. Bu özellikler, önceden erişebilmeniz ve geri bildirim sağlamanız amacıyla resmi sürümden önce kullanıma sunulur.
Üretime hazır bir aracı oluşturuyorsanız, Microsoft Copilot Studio Genel Bakış'a bakın.
Neden otomatik test kullanılıyor?
Ajan değerlendirmesi otomatik, yapılandırılmış test sağlar. Sorunları erken yakalamaya yardımcı olur, kötü cevap riskini azaltır ve ajan geliştikçe kaliteyi korur. Bu süreç, ajan testine otomasyonlu, tekrarlanabilir bir kalite güvencesi biçimi getirir. Bu, acentenin işletmenizin doğruluk ve güvenilirlik standartlarını karşılamasını sağlar ve performansına şeffaflık sağlar. Test sohbetini kullanarak test yapmaktan farklı güçlü yönleri var.
Ajan değerlendirmesi, doğruluk ve performansı ölçür, yapay zeka etiği veya güvenlik sorunları değil. Bir ajan, tüm değerlendirme testlerini geçebilir ama örneğin yine de bir soruya uygunsuz bir cevap verebilir. Müşteriler yine de sorumlu yapay zeka incelemeleri ve içerik güvenliği filtreleri kullanmalı; Değerlendirmeler bu incelemeleri ve filtreleri yerine koymaz.
Ajan değerlendirmesi nasıl çalışır
Copilot Studio her ajan değerlendirmesi için bir test vakası kullanır. Test vakası, kullanıcının ajanınıza ne soracağını simüle eden tek bir mesaj veya sorudur. Bir test vakası, temsilcinizin cevap vermesini beklediğiniz cevabı da içerebilir. Örneğin:
Soru şu: İş saatleriniz nedir?
Beklenen yanıt: Pazartesiden cuma'ya sabah 9:00-17:00 arasında açıkız.
Ajan değerlendirmesini kullanarak, bir grup test vakası oluşturabilir, içe aktarabilir veya manuel olarak yazabilirsiniz . Bu test vakaları grubuna test seti denir. Bir test seti size şunları sağlar:
Ajanınıza tek bir soru sormak yerine, aynı anda çok çeşitli yetenekleri kapsayan birden fazla test vakası çalıştırın.
Ajantınızın performansını kolayca sindirilebilir bir toplam puanla analiz edin ve ayrıca bireysel test vakalarına yakınlaştırın.
Ajanlarınızdaki değişiklikleri aynı test seti kullanarak test edin, böylece performans değişikliklerini ölçmek ve karşılaştırmak için nesnel bir standardınız olur.
Hızla yeni test setleri oluşturun veya mevcut olanları, değişen ajan yetenekleri veya gereksinimleri karşılayacak şekilde değiştirin.
Test seti ayrıca kullanmak istediğiniz test yöntemlerini de içerir. Temsilcinizin performansını şu temellere göre ölçebilirsiniz:
Tam eşleşme veya anahtar kelime eşleşmesi: Temsilcinizin bir soruya verdiği cevabın beklenen yanıtla ne kadar yakınlaşması.
Anlamsal benzerlik: Ajanınızın cevabı, beklenen yanıtınızın fikri veya niyetiyle ne kadar yakından eşleşiyor.
Kalite: Temsilcinizin yanıtlarının LLM tabanlı bir değerlendirme ile ne kadar iyi performans gösterdiği.
Ayrıca, soruları gönderen kullanıcı olarak görev yapacak bir kullanıcı profili seçebilirsiniz. Ajan, farklı kullanıcılara farklı şekillerde yanıt verecek şekilde yapılandırılabilir veya kaynaklara farklı şekillerde erişim izni verebilir.
Bir test seti seçip ajan değerlendirmesi yaptığınızda, Copilot Studio test vakalarındaki soruları gönderir, ajanın yanıtlarını kaydeder, bu yanıtları beklenen yanıtlar veya kalite standardıyla karşılaştırır ve her test vakasına puan atar. Ayrıca her test vakası için detayları, tutanları ve etkinlik haritasını ve temsilcinizin yanıtı oluşturmak için kullandığı kaynakları görebilirsiniz.
Test sohbeti ve ajan değerlendirmesi
Her test yöntemi, ajanınızın özellikleri ve davranışları hakkında size farklı bilgiler sunar:
Bir soruyu birer alır ve yanıtlar. Aynı testleri birden fazla kez tekrar etmek zor.
Birden fazla mesaj içeren tam bir oturumu test etmenizi sağlar.
Bir sohbet arayüzü kullanarak kullanıcı olarak temsilcinizle etkileşim kurmanıza olanak tanır.
Ajan değerlendirmesi:
Aynı anda birden fazla test vakası oluşturup çalıştırabiliyor. Aynı test setini kullanarak testleri tekrarlayabilirsiniz.
Her test vakası için sadece bir soru ve bir yanıt test edebiliyorum. Tam bir konuşma oturumunu test etmiyor.
Etkileşimleri kendiniz tamamlamanıza gerek kalmadan farklı kullanıcıları simüle etmek için farklı kullanıcı profilleri seçin.
Bir ajanı test ederken, hem test sohbetini hem de ajan değerlendirmesini kullanarak ajanınızın tam bir resmini elde edin.