Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Önemli
Bu makalede işaretlenen (önizleme) öğeler şu anda genel önizleme aşamasındadır. Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri için Ek Kullanım Koşulları.
Bu Azure DevOps uzantısı , CI/CD işlem hatlarınızdaki Microsoft Foundry Aracılarının çevrimdışı değerlendirilmesini sağlar. Çevrimdışı değerlendirme sürecini kolaylaştırdığından, üretimde bir güncelleştirme yayınlamadan önce olası sorunları belirleyebilir ve iyileştirmeler yapabilirsiniz.
Bu uzantıyı kullanmak için test sorgularını içeren bir veri kümesi ve değerlendirici listesi sağlayın. Bu görev sorgularla aracılarınızı çağırır, bunları değerlendirir ve bir özet raporu oluşturur.
Özellikler
- Aracı Değerlendirmesi: CI/CD iş akışınızda Microsoft Foundry aracılarının üretim öncesi değerlendirmesini otomatikleştirin.
- Değerlendiriciler: Foundry değerlendirici kataloğundaki herhangi bir değerlendiriciyi kullanın.
- İstatistiksel Analiz: Değerlendirme sonuçları, değişikliklerin anlamlı olup olmadığını ve rastgele varyasyondan kaynaklanmadığını saptamak için olasılık aralıklarını ve istatistiksel anlamlılık testini içerir.
Değerlendirici kategorileri
- Aracı değerlendiricileri: İş akışları için işlem ve sistem düzeyinde aracı değerlendiriciler.
- RAG değerlendiricileri: RAG sistemlerinde uçtan uca ve alma işlemlerini değerlendirin.
- Risk ve güvenlik değerlendiricileri: Yanıtlardaki riskleri ve güvenlik endişelerini değerlendirin.
- Genel amaçlı değerlendiriciler: Tutarlılık ve akıcılık gibi kalite değerlendirmesi.
- OpenAI tabanlı not verenler: Dize denetimi, metin benzerliği, puan/etiket modeli gibi OpenAI notlayıcılarını kullanın.
- Özel değerlendiriciler: Python kodunu veya llm-as-a-judge desenlerini kullanarak kendi özel değerlendiricilerinizi tanımlayın.
Önkoşullar
- Bir proje. Daha fazla bilgi edinmek için bkz. Proje oluşturma.
- AI Aracısı AI değerlendirme uzantısını yükleyin.
Girişler
Parametreler
| İsim | Gerekli mi? | Description |
|---|---|---|
| azure yapay zeka proje son noktası | Evet | Microsoft Foundry Projenizin uç noktası. |
| dağıtım adı | Evet | Değerlendirme için kullanılacak Azure yapay zeka modeli dağıtımının adı. |
| veri yolu | Evet | Değerlendirmeler için değerlendiricileri ve giriş sorgularını içeren veri dosyasının yolu. |
| ajan kimlikleri | Evet | Değerlendirilecek bir veya daha fazla aracı kimliği agent-name:version şeklinde (örneğin, my-agent:1 veya my-agent:1,my-agent:2). Birden çok aracı virgülle ayrılır ve istatistiksel test sonuçlarıyla karşılaştırılır. |
| baseline-agent-id | Hayı | Birden çok ajan değerlendirilirken karşılaştırma yapılacak olan temel ajan kimliği. Sağlanmazsa, ilk temsilci kullanılır. |
Veri dosyası
Giriş veri dosyası aşağıdaki yapıya sahip bir JSON dosyası olmalıdır:
| Alan | Türü | Gerekli mi? | Description |
|---|---|---|---|
| name | String | Evet | Değerlendirme veri kümesinin adı. |
| Değerlendiriciler | string[] | Evet | Kullanılacak değerlendirici adlarının listesi. Foundry portalında projenizin değerlendirici kataloğundaki kullanılabilir değerlendiricilerin listesine göz atın: Derleme > Değerlendirme Değerlendirici > kataloğu. |
| veriler | object[] | Evet |
query ve isteğe bağlı değerlendirici alanları olan ground_truth, context gibi giriş nesneleri dizisi. Değerlendiricilere otomatik olarak eşlenir; data_mapping kullanarak geçersiz kılın. |
| openai_graders | nesne | Hayı | OpenAI tabanlı değerlendiriciler için yapılandırma (label_model, score_model, string_check vb.). |
| değerlendirici_parametreler | nesne | Hayı | Değerlendiriciye özgü başlatma parametreleri (örneğin, eşikler, özel ayarlar). |
| veri eşleme | nesne | Hayı | Özel veri alanı eşlemeleri (sağlanmazsa verilerden otomatik olarak oluşturulur). |
Temel örnek veri dosyası
{
"name": "test-data",
"evaluators": [
"builtin.fluency",
"builtin.task_adherence",
"builtin.violence",
],
"data": [
{
"query": "Tell me about Tokyo disneyland"
},
{
"query": "How do I install Python?"
}
]
}
Ek örnek veri dosyaları
| Filename | Description |
|---|---|
| dataset-tiny.json | Az sayıda test sorgusu ve değerlendirici içeren veri kümesi. |
| dataset.json | Tüm desteklenen değerlendirici türlerini ve güvenilirlik aralığı hesaplaması ve istatistiksel test için yeterli sorgu içeren veri kümesi. |
| dataset-builtin-evaluators.json | Yerleşik Foundry değerlendiricileri örneği (örneğin, tutarlılık, akıcılık, ilgi, temellilik, ölçümler). |
| dataset-openai-graders.json | OpenAI tabanlı not verenler örneği (etiket modelleri, puan modelleri, metin benzerliği, dize denetimleri). |
| dataset-custom-evaluators.json | Değerlendirici parametreleriyle özel değerlendirici örneği. |
| dataset-data-mapping.json | Özel veri sütunu adlarıyla otomatik alan eşlemelerini geçersiz kılmayı gösteren veri eşleme örneği. |
Örnek işlem hattı
Bu Azure DevOps uzantısını kullanmak için görevi Azure Pipeline'ınıza ekleyin ve Microsoft Foundry projenize erişmek için kimlik doğrulamasını yapılandırın.
steps:
- task: AIAgentEvaluation@2
displayName: "Evaluate AI Agents"
inputs:
azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
deployment-name: "$(DeploymentName)"
data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
agent-ids: "$(AgentIds)"
Değerlendirme sonuçları ve çıkışları
Değerlendirme sonuçları Azure DevOps işlem hattı özetinde, birden çok değerlendirme yapıldığında aracılar arasındaki ayrıntılı ölçümler ve karşılaştırmalarla birlikte görünür.
Her yapay zeka değerlendirme görevi çalıştırmasının değerlendirme sonuçları Azure DevOps işlem hattınızdaki özet bölümüne oluşturulur.
Aşağıdaki ekran görüntüsü, iki aracıyı karşılaştırmaya yönelik örnek bir rapordur.