Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Ajan değerlendirmesi, ajan tasarlama ve vizyon aşamasından başlayıp ajan dağıtımı ve regresyon tespitine kadar devam eden yinelemeli bir süreç olmalıdır. Bu şablon, değerlendirme test setleri oluşturmak ve bir ajanın yaşam döngüsü boyunca dört aşamalı bir yapının nasıl uygulanıp yineleme yapılacağı için temel unsurları sağlar.
- Aşama 1: Temel değerlendirme test setleri oluşturun
- Aşama 2: Bir temel oluştur, yineleme ve test seti ile ajan komutunu geliştir
- Aşama 3: Sistematik genişletme uygulayın (regresyon, varyasyon, tanı, kenar durumları)
- 4. Aşama: Sürekli kalite iyileştirme değerlendirme operasyonu kurmak
Tavsiye
Aşama 1: Temel değerlendirme test setleri oluşturun
Amaç: Ajanın temel senaryolarını değerlendiren temel bir değerlendirme test seti oluşturmak ve çalıştırmak.
Bir değerlendirme test seti , bir test vakaları grubudur. Test vakası , bir ajanın belirli bir soruya verdiği yanıtı değerlendirmek için bireysel bir önerme-cevap çiftidir. Bir test isteği ve doğrudan ajan komut gereksiniminden ortaya çıkan isteğe bağlı beklenen yanıt (assertion) içerir. Bir test vakası ayrıca kaliteyi değerlendirmek için kabul kriterlerini ve test yöntemini belirtmelidir.
| Ajansenaryosu 1 | Test sorusu (Ajana örnek soru sorusu) |
Beklenen yanıt | Kabulkriterleri 2 (Başarılı bir yanıtın nasıl göründüğünü tanımlayın: Ne geçer, ne geçer) |
|---|---|---|---|
| Temsilci, politika bilgisi makalesine göre politika içeriğine yanıt vermelidir. | "Bir çalışan kaç hastalık izni günü alır?" | "30 gün. <alıntı>" | Yanıt, politika bilgisi ve metin eşleşmesi ile tam metni içermelidir. Yanıtta bir atıf yer almalıdır. |
| Temsilci, politika bilgi makalesinin ötesinde soruları yanıtlamamalıdır. İK insan desteğine doğrudan yanıtlar. | "Bir çalışan kaç hastalık izni günü alır?" | "Politika belgesinde hastalık izni günleri belirtilmiyor. Hastalık izni politikanız için İK ile görüşün." | Yasaklı vakaya yanıt insan insan insan destek tarafına yönlendirilmelidir. |
Tavsiye
1Ajan senaryosu: Temel bir test seti, ajanın temel senaryolarını veya kullanım durumlarını kapsayan test vakalarını içermelidir. Ajan senaryosunu rehberlik olarak kullanın ve ajanın neyle ilgileneceğine veya kaçınacağına odaklanın. Bu süreç, hedef bir test isteği listesini derlemenize yardımcı olur ve ajan talimatlarının geliştirilmesiyle yakından koordine edilmelidir. Doğru test vakası sayısını belirlemek için, her anahtar senaryo için bir test isteği ile başlayın. Küçük bir test vakası setiyle başlayın, sonra içgörüler kazandıkça ve kapsamı geliştirdikçe yineleme ve geliştirme sürecini geliştirin.
2Kabul kriterleri: Başarıyı açıkça tanımlayın. Bu tanım başta zor olabilir, bu yüzden kriterlerinizi yinelemeyle geliştirmeyi düşünün. Test sorusunu çalıştırın, cevabı gözden geçirin ve kalitesini şu soruya sorarak değerlendirin: Ana soruya cevap verir mi? Doğru bilgileri kullanıyor mu? Ton ve tarz uygun mu? Paylaşım izinlerine saygı gösteriyor mu? Bu sorulardan aldığınız içgörüler, kabul kriterlerini belirlemenize ve gerekirse beklenen yanıtı belirlemenize yardımcı olur.
Aşama 2: Bir temel oluştur ve geliştir
Amaç: Değerlendirmeler yapmak ve kıyaslama yapmak ve geliştirmek için temel metrikler belirleyin.
Değerlendirmeyi manuel olarak yapabilir veya özel araçlar kullanabilirsiniz. Manuel değerlendirme için, test promptunu ajana gönderin, yanıtı gözden geçirin, kabul kriterlerine uyup karşılamadığını insan yargısı ile değerlendirin ve sonucu kaydedin. Microsoft, Copilot Studio ajan değerlendirme özelliği dahil olmak üzere ajan değerlendirmesi için araçlar sunmaktadır.
Temel çizgiyi belirleyin
- Temel test setini ajana karşı çalıştır.
- Her test vakası için belge geçti veya başarısız olsun.
- Genel geçiş oranını hesaplayın: ______%.
- Ajan versiyonunu ve temel tarihi kaydedin: ___________.
Kök neden analizi ve yineleme
Yanlış pozitifleri ve gerçek negatifleri belirlemek için değerlendirme sonuçlarını gözden geçirerek daha fazla analiz için değerlendirin. Yanlış pozitif, geçti olarak işaretlenen ancak insan yargısına göre başarısız olması gereken bir cevaptır. Gerçek olumsuz, başarısızlık olarak doğru tanımlanan bir cevaptır. Başarısız vakaları iki açıdan değerlendirin:
- Test vakası sorunu: Test istemi, beklenen cevap veya kabul kriterleri başarısızlığa neden mi?
- Ajan tasarımı sorunu: Arıza, ajanların talimatlarının belirsiz olduğunu veya bilgi veya araç yapılandırmasında eksiklikleri mi gösteriyor?
Temel nedeni belirleyin ve ya test vakasını geliştirerek ya da ajan tasarımını iyileştirerek geliştirin.
Tavsiye
Değerlendirme geçme puanı: Ajanlar, olasılıksal doğaları nedeniyle aynı prompta farklı yanıtlar verebilirler. Bu değişkenlik, kabul kriterlerinin ne kadar katı olduğuna bağlı olarak cevapların geçmesine veya başarısız olmasına neden olabilir. Güvenilir değerlendirme sağlamak için, her test setini birden fazla kez çalıştırın ve ortalama başarı oranını hesaplayın. İşletmenizin ihtiyaçlarına göre gerçekçi bir geçiş oranı olan 80-90%hedefleyin.
Aşama 3: Sistematik genişleme uygulayın
Amaç: Farklı ajan kalite kategorileri üzerinde kapsamlı değerlendirme paketleri oluşturmak.
1. ve 2. aşamalar, ajanın birincil kullanım durumları için temel test setini oluşturdu. Sonra, çeşitli ajan kalite kategorilerini değerlendiren test setleri oluşturarak değerlendirmenizi genişletin. Aşağıdaki liste, kalitenin farklı yönlerini ele alan kategoriler önerir.
| Kalite kategorisi | Amaç |
|---|---|
| Temel çekirdek | "Geçmeli" seti. Konuşlandırmada temel tepki kalitesini ölçür ve operasyon sırasında regresyon tespiti gerçekleştirir. |
| Ajan dayanıklılığı | Bir ajanın geleneksel yazılıma göre temel değeri, farklı kullanım durumlarını yönetmedeki dayanıklılığıdır. Bu değer şunları içerebilir:
|
| Mimari testi | Ajanın işlevsel performansını değerlendirin. Boyutlar şunları içerebilir:
|
| Kenar durumlar | Temsilcinin kenar durumunu korumalarla nasıl ele alması gerektiği.
|
Tavsiye
Kategori amaç referansı:
- Çekirdek arızalanıyor: Bir şey bozulmuş ya da çalışmıyor. Son değişiklikleri araştırın.
- Dayanıklılık başarısız olur: Ajan çok katı. Belirli ifadelere fazla odaklanmış olabilir.
- Mimari başarısız: Belirli bir bileşen veya iş akışı hata ayıklama gerektirir.
- Kenar durumlar başarısız olur: Korkuluklar geliştirilmelidir. Sınırları güçlendirin.
4. Aşama: Sürekli kalite iyileştirme değerlendirme operasyonu kurmak
Amaç: İşletme sırasında ajan kalitesini korumak için sürekli değerlendirme izleme kurmak.
Bir ajanı üretime yerleştirdiğinizde, istikrarlı bir aşamaya girer. Kaliteyi korumak ve ürün değişikliklerinden (örneğin model yükseltmeleri veya bilgi sistemi güncellemeleri) veya gelişen kullanım durumlarından kaynaklanan regresyon veya sorunları hızlıca tespit etmek için sürekli bir değerlendirme operasyonu kurun. Düzenli değerlendirme çalışmaları planlayın veya kalite güvencesi için belirli etkinliklere göre bunları tetikleyin.
- Düzenli bir değerlendirme bakım ritmi oluşturun.
- Önerilen tam paket değerlendirme tetikleyicileri:
- Model değişikliği
- Büyük bilgi kurulumu güncellemesi
- Yeni araç veya konnektör entegrasyonları
- Yapım olayı
Tavsiye
Başarı göstergesi: Paydaşların endişelerine ayrıntılarla yanıt verebildiğinizde başarılı bir şekilde operasyonel hale gelirsiniz, "Temsilci iyi görünüyor" demek yerine.
Şöyle diyorsunuz: "Politika uyumu 98%, ama kişiselleştirme 87%'ye düştü—özellikle kadro temelli politikalar uygulanmıyor. Temel nedeni tespit ettik ve yenileme yapıyoruz."