Azure DevOps'ta değerlendirme çalıştırma (önizleme)

Önemli

Bu makalede işaretlenen (önizleme) öğeler şu anda genel önizleme aşamasındadır. Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri için Ek Kullanım Koşulları.

Bu Azure DevOps uzantısı , CI/CD işlem hatlarınızdaki Microsoft Foundry Aracılarının çevrimdışı değerlendirilmesini sağlar. Çevrimdışı değerlendirme sürecini kolaylaştırdığından, üretimde bir güncelleştirme yayınlamadan önce olası sorunları belirleyebilir ve iyileştirmeler yapabilirsiniz.

Bu uzantıyı kullanmak için test sorgularını içeren bir veri kümesi ve değerlendirici listesi sağlayın. Bu görev sorgularla aracılarınızı çağırır, bunları değerlendirir ve bir özet raporu oluşturur.

Özellikler

Aracı Değerlendirmesi: CI/CD iş akışınızda Microsoft Foundry aracılarının üretim öncesi değerlendirmesini otomatikleştirin.
Değerlendiriciler: Foundry değerlendirici kataloğundaki herhangi bir değerlendiriciyi kullanın.
İstatistiksel Analiz: Değerlendirme sonuçları, değişikliklerin anlamlı olup olmadığını ve rastgele varyasyondan kaynaklanmadığını saptamak için olasılık aralıklarını ve istatistiksel anlamlılık testini içerir.

Değerlendirici kategorileri

Aracı değerlendiricileri: İş akışları için işlem ve sistem düzeyinde aracı değerlendiriciler.
RAG değerlendiricileri: RAG sistemlerinde uçtan uca ve alma işlemlerini değerlendirin.
Risk ve güvenlik değerlendiricileri: Yanıtlardaki riskleri ve güvenlik endişelerini değerlendirin.
Genel amaçlı değerlendiriciler: Tutarlılık ve akıcılık gibi kalite değerlendirmesi.
OpenAI tabanlı not verenler: Dize denetimi, metin benzerliği, puan/etiket modeli gibi OpenAI notlayıcılarını kullanın.
Özel değerlendiriciler: Python kodunu veya llm-as-a-judge desenlerini kullanarak kendi özel değerlendiricilerinizi tanımlayın.

Önkoşullar

Bir proje. Daha fazla bilgi edinmek için bkz. Proje oluşturma.
AI Aracısı AI değerlendirme uzantısını yükleyin.

Girişler

Parametreler

İsim	Gerekli mi?	Description
azure yapay zeka proje son noktası	Evet	Microsoft Foundry Projenizin uç noktası.
dağıtım adı	Evet	Değerlendirme için kullanılacak Azure yapay zeka modeli dağıtımının adı.
veri yolu	Evet	Değerlendirmeler için değerlendiricileri ve giriş sorgularını içeren veri dosyasının yolu.
ajan kimlikleri	Evet	Değerlendirilecek bir veya daha fazla aracı kimliği `agent-name:version` şeklinde (örneğin, `my-agent:1` veya `my-agent:1,my-agent:2`). Birden çok aracı virgülle ayrılır ve istatistiksel test sonuçlarıyla karşılaştırılır.
baseline-agent-id	Hayı	Birden çok ajan değerlendirilirken karşılaştırma yapılacak olan temel ajan kimliği. Sağlanmazsa, ilk temsilci kullanılır.

Veri dosyası

Giriş veri dosyası aşağıdaki yapıya sahip bir JSON dosyası olmalıdır:

Alan	Türü	Gerekli mi?	Description
name	String	Evet	Değerlendirme veri kümesinin adı.
Değerlendiriciler	string[]	Evet	Kullanılacak değerlendirici adlarının listesi. Foundry portalında projenizin değerlendirici kataloğundaki kullanılabilir değerlendiricilerin listesine göz atın: Derleme > Değerlendirme Değerlendirici > kataloğu.
veriler	object[]	Evet	`query` ve isteğe bağlı değerlendirici alanları olan `ground_truth`, `context` gibi giriş nesneleri dizisi. Değerlendiricilere otomatik olarak eşlenir; `data_mapping` kullanarak geçersiz kılın.
openai_graders	nesne	Hayı	OpenAI tabanlı değerlendiriciler için yapılandırma (label_model, score_model, string_check vb.).
değerlendirici_parametreler	nesne	Hayı	Değerlendiriciye özgü başlatma parametreleri (örneğin, eşikler, özel ayarlar).
veri eşleme	nesne	Hayı	Özel veri alanı eşlemeleri (sağlanmazsa verilerden otomatik olarak oluşturulur).

Temel örnek veri dosyası


{
  "name": "test-data",
  "evaluators": [
    "builtin.fluency",
    "builtin.task_adherence",
    "builtin.violence",
  ],
  "data": [
    {
      "query": "Tell me about Tokyo disneyland"
    },
    {
      "query": "How do I install Python?"
    }
  ]
}

Ek örnek veri dosyaları

Filename	Description
dataset-tiny.json	Az sayıda test sorgusu ve değerlendirici içeren veri kümesi.
dataset.json	Tüm desteklenen değerlendirici türlerini ve güvenilirlik aralığı hesaplaması ve istatistiksel test için yeterli sorgu içeren veri kümesi.
dataset-builtin-evaluators.json	Yerleşik Foundry değerlendiricileri örneği (örneğin, tutarlılık, akıcılık, ilgi, temellilik, ölçümler).
dataset-openai-graders.json	OpenAI tabanlı not verenler örneği (etiket modelleri, puan modelleri, metin benzerliği, dize denetimleri).
dataset-custom-evaluators.json	Değerlendirici parametreleriyle özel değerlendirici örneği.
dataset-data-mapping.json	Özel veri sütunu adlarıyla otomatik alan eşlemelerini geçersiz kılmayı gösteren veri eşleme örneği.

Örnek işlem hattı

Bu Azure DevOps uzantısını kullanmak için görevi Azure Pipeline'ınıza ekleyin ve Microsoft Foundry projenize erişmek için kimlik doğrulamasını yapılandırın.

steps:
  - task: AIAgentEvaluation@2
    displayName: "Evaluate AI Agents"
    inputs:
      azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
      deployment-name: "$(DeploymentName)"
      data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
      agent-ids: "$(AgentIds)"

Değerlendirme sonuçları ve çıkışları

Değerlendirme sonuçları Azure DevOps işlem hattı özetinde, birden çok değerlendirme yapıldığında aracılar arasındaki ayrıntılı ölçümler ve karşılaştırmalarla birlikte görünür.

Her yapay zeka değerlendirme görevi çalıştırmasının değerlendirme sonuçları Azure DevOps işlem hattınızdaki özet bölümüne oluşturulur.

Aşağıdaki ekran görüntüsü, iki aracıyı karşılaştırmaya yönelik örnek bir rapordur.

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2026-02-28