Ajan değerlendirme kontrol listesini gözden geçirin

Ajan değerlendirmesi, ajan tasarlama ve vizyon aşamasından başlayıp ajan dağıtımı ve regresyon tespitine kadar devam eden yinelemeli bir süreç olmalıdır. Bu şablon, değerlendirme test setleri oluşturmak ve bir ajanın yaşam döngüsü boyunca dört aşamalı bir yapının nasıl uygulanıp yineleme yapılacağı için temel unsurları sağlar.

Aşama 1: Temel değerlendirme test setleri oluşturun
Aşama 2: Bir temel oluştur, yineleme ve test seti ile ajan komutunu geliştir
Aşama 3: Sistematik genişletme uygulayın (regresyon, varyasyon, tanı, kenar durumları)
4. Aşama: Sürekli kalite iyileştirme değerlendirme operasyonu kurmak

Tavsiye

Düzenlenebilir kontrol listesi şablonunu indirin.

Aşama 1: Temel değerlendirme test setleri oluşturun

Amaç: Ajanın temel senaryolarını değerlendiren temel bir değerlendirme test seti oluşturmak ve çalıştırmak.

Bir değerlendirme test seti , bir test vakaları grubudur. Test vakası , bir ajanın belirli bir soruya verdiği yanıtı değerlendirmek için bireysel bir önerme-cevap çiftidir. Bir test isteği ve doğrudan ajan komut gereksiniminden ortaya çıkan isteğe bağlı beklenen yanıt (assertion) içerir. Bir test vakası ayrıca kaliteyi değerlendirmek için kabul kriterlerini ve test yöntemini belirtmelidir.

Ajan^{senaryosu 1}	Test sorusu (Ajana örnek soru sorusu)	Beklenen yanıt	Kabul^{kriterleri 2} (Başarılı bir yanıtın nasıl göründüğünü tanımlayın: Ne geçer, ne geçer)
Temsilci, politika bilgisi makalesine göre politika içeriğine yanıt vermelidir.	"Bir çalışan kaç hastalık izni günü alır?"	"30 gün. <alıntı>"	Yanıt, politika bilgisi ve metin eşleşmesi ile tam metni içermelidir. Yanıtta bir atıf yer almalıdır.
Temsilci, politika bilgi makalesinin ötesinde soruları yanıtlamamalıdır. İK insan desteğine doğrudan yanıtlar.	"Bir çalışan kaç hastalık izni günü alır?"	"Politika belgesinde hastalık izni günleri belirtilmiyor. Hastalık izni politikanız için İK ile görüşün."	Yasaklı vakaya yanıt insan insan insan destek tarafına yönlendirilmelidir.

Tavsiye

¹Ajan senaryosu: Temel bir test seti, ajanın temel senaryolarını veya kullanım durumlarını kapsayan test vakalarını içermelidir. Ajan senaryosunu rehberlik olarak kullanın ve ajanın neyle ilgileneceğine veya kaçınacağına odaklanın. Bu süreç, hedef bir test isteği listesini derlemenize yardımcı olur ve ajan talimatlarının geliştirilmesiyle yakından koordine edilmelidir. Doğru test vakası sayısını belirlemek için, her anahtar senaryo için bir test isteği ile başlayın. Küçük bir test vakası setiyle başlayın, sonra içgörüler kazandıkça ve kapsamı geliştirdikçe yineleme ve geliştirme sürecini geliştirin.

²Kabul kriterleri: Başarıyı açıkça tanımlayın. Bu tanım başta zor olabilir, bu yüzden kriterlerinizi yinelemeyle geliştirmeyi düşünün. Test sorusunu çalıştırın, cevabı gözden geçirin ve kalitesini şu soruya sorarak değerlendirin: Ana soruya cevap verir mi? Doğru bilgileri kullanıyor mu? Ton ve tarz uygun mu? Paylaşım izinlerine saygı gösteriyor mu? Bu sorulardan aldığınız içgörüler, kabul kriterlerini belirlemenize ve gerekirse beklenen yanıtı belirlemenize yardımcı olur.

Aşama 2: Bir temel oluştur ve geliştir

Amaç: Değerlendirmeler yapmak ve kıyaslama yapmak ve geliştirmek için temel metrikler belirleyin.

Değerlendirmeyi manuel olarak yapabilir veya özel araçlar kullanabilirsiniz. Manuel değerlendirme için, test promptunu ajana gönderin, yanıtı gözden geçirin, kabul kriterlerine uyup karşılamadığını insan yargısı ile değerlendirin ve sonucu kaydedin. Microsoft, Copilot Studio ajan değerlendirme özelliği dahil olmak üzere ajan değerlendirmesi için araçlar sunmaktadır.

Temel çizgiyi belirleyin

Temel test setini ajana karşı çalıştır.
Her test vakası için belge geçti veya başarısız olsun.
Genel geçiş oranını hesaplayın: ______%.
Ajan versiyonunu ve temel tarihi kaydedin: ___________.

Kök neden analizi ve yineleme

Yanlış pozitifleri ve gerçek negatifleri belirlemek için değerlendirme sonuçlarını gözden geçirerek daha fazla analiz için değerlendirin. Yanlış pozitif, geçti olarak işaretlenen ancak insan yargısına göre başarısız olması gereken bir cevaptır. Gerçek olumsuz, başarısızlık olarak doğru tanımlanan bir cevaptır. Başarısız vakaları iki açıdan değerlendirin:

Test vakası sorunu: Test istemi, beklenen cevap veya kabul kriterleri başarısızlığa neden mi?
Ajan tasarımı sorunu: Arıza, ajanların talimatlarının belirsiz olduğunu veya bilgi veya araç yapılandırmasında eksiklikleri mi gösteriyor?

Temel nedeni belirleyin ve ya test vakasını geliştirerek ya da ajan tasarımını iyileştirerek geliştirin.

Tavsiye

Değerlendirme geçme puanı: Ajanlar, olasılıksal doğaları nedeniyle aynı prompta farklı yanıtlar verebilirler. Bu değişkenlik, kabul kriterlerinin ne kadar katı olduğuna bağlı olarak cevapların geçmesine veya başarısız olmasına neden olabilir. Güvenilir değerlendirme sağlamak için, her test setini birden fazla kez çalıştırın ve ortalama başarı oranını hesaplayın. İşletmenizin ihtiyaçlarına göre gerçekçi bir geçiş oranı olan 80-90%hedefleyin.

Aşama 3: Sistematik genişleme uygulayın

Amaç: Farklı ajan kalite kategorileri üzerinde kapsamlı değerlendirme paketleri oluşturmak.

1. ve 2. aşamalar, ajanın birincil kullanım durumları için temel test setini oluşturdu. Sonra, çeşitli ajan kalite kategorilerini değerlendiren test setleri oluşturarak değerlendirmenizi genişletin. Aşağıdaki liste, kalitenin farklı yönlerini ele alan kategoriler önerir.

Kalite kategorisi	Amaç
Temel çekirdek	"Geçmeli" seti. Konuşlandırmada temel tepki kalitesini ölçür ve operasyon sırasında regresyon tespiti gerçekleştirir.
Ajan dayanıklılığı	Bir ajanın geleneksel yazılıma göre temel değeri, farklı kullanım durumlarını yönetmedeki dayanıklılığıdır. Bu değer şunları içerebilir: Temsilci, aynı soruya farklı terimlerle nasıl yanıt verir? Ajan, promptta verilen zengin bağlamı nasıl yönetiyor? Tek bir promptta çoklu niyetli nasıl ölçülür? Temsilci, kullanıcıya özgü talepleri doğru şekilde yanıtlayabilir mi? Ajan, kullanım vakası varyansını zarifçe ele almalı ve özel test vakalarıyla değerlendirilebilir.
Mimari testi	Ajanın işlevsel performansını değerlendirin. Boyutlar şunları içerebilir: Araç çağrısı, eylem Bilgi alım ve kaynak davranışı Yönlendirme mantığı Teslimatların entegrasyonu
Kenar durumlar	Temsilcinin kenar durumunu korumalarla nasıl ele alması gerektiği. Sınır koşulları İzin verilmemiş ve kapsam dışı davranışlar

Tavsiye

Kategori amaç referansı:

Çekirdek arızalanıyor: Bir şey bozulmuş ya da çalışmıyor. Son değişiklikleri araştırın.
Dayanıklılık başarısız olur: Ajan çok katı. Belirli ifadelere fazla odaklanmış olabilir.
Mimari başarısız: Belirli bir bileşen veya iş akışı hata ayıklama gerektirir.
Kenar durumlar başarısız olur: Korkuluklar geliştirilmelidir. Sınırları güçlendirin.

4. Aşama: Sürekli kalite iyileştirme değerlendirme operasyonu kurmak

Amaç: İşletme sırasında ajan kalitesini korumak için sürekli değerlendirme izleme kurmak.

Bir ajanı üretime yerleştirdiğinizde, istikrarlı bir aşamaya girer. Kaliteyi korumak ve ürün değişikliklerinden (örneğin model yükseltmeleri veya bilgi sistemi güncellemeleri) veya gelişen kullanım durumlarından kaynaklanan regresyon veya sorunları hızlıca tespit etmek için sürekli bir değerlendirme operasyonu kurun. Düzenli değerlendirme çalışmaları planlayın veya kalite güvencesi için belirli etkinliklere göre bunları tetikleyin.

Düzenli bir değerlendirme bakım ritmi oluşturun.
Önerilen tam paket değerlendirme tetikleyicileri:
- Model değişikliği
- Büyük bilgi kurulumu güncellemesi
- Yeni araç veya konnektör entegrasyonları
- Yapım olayı

Tavsiye

Başarı göstergesi: Paydaşların endişelerine ayrıntılarla yanıt verebildiğinizde başarılı bir şekilde operasyonel hale gelirsiniz, "Temsilci iyi görünüyor" demek yerine.

Şöyle diyorsunuz: "Politika uyumu 98%, ama kişiselleştirme 87%'ye düştü—özellikle kadro temelli politikalar uygulanmıyor. Temel nedeni tespit ettik ve yenileme yapıyoruz."

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2026-02-10

Aracılığıyla paylaş

Ajan değerlendirme kontrol listesini gözden geçirin

Aşama 1: Temel değerlendirme test setleri oluşturun

Aşama 2: Bir temel oluştur ve geliştir

Temel çizgiyi belirleyin

Kök neden analizi ve yineleme

Aşama 3: Sistematik genişleme uygulayın

4. Aşama: Sürekli kalite iyileştirme değerlendirme operasyonu kurmak

Geri Bildirim

Ek kaynaklar