Aracılığıyla paylaş


Azure DevOps'ta değerlendirme çalıştırma (önizleme)

Önemli

Bu makalede işaretlenen (önizleme) öğeler şu anda genel önizleme aşamasındadır. Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri için Ek Kullanım Koşulları.

Bu Azure DevOps uzantısı , CI/CD işlem hatlarınızdaki Microsoft Foundry Aracılarının çevrimdışı değerlendirilmesini sağlar. Çevrimdışı değerlendirme sürecini kolaylaştırdığından, üretimde bir güncelleştirme yayınlamadan önce olası sorunları belirleyebilir ve iyileştirmeler yapabilirsiniz.

Bu uzantıyı kullanmak için test sorgularını içeren bir veri kümesi ve değerlendirici listesi sağlayın. Bu görev sorgularla aracılarınızı çağırır, bunları değerlendirir ve bir özet raporu oluşturur.

Özellikler

  • Aracı Değerlendirmesi: CI/CD iş akışınızda Microsoft Foundry aracılarının üretim öncesi değerlendirmesini otomatikleştirin.
  • Değerlendiriciler: Foundry değerlendirici kataloğundaki herhangi bir değerlendiriciyi kullanın.
  • İstatistiksel Analiz: Değerlendirme sonuçları, değişikliklerin anlamlı olup olmadığını ve rastgele varyasyondan kaynaklanmadığını saptamak için olasılık aralıklarını ve istatistiksel anlamlılık testini içerir.

Değerlendirici kategorileri

Önkoşullar

Girişler

Parametreler

İsim Gerekli mi? Description
azure yapay zeka proje son noktası Evet Microsoft Foundry Projenizin uç noktası.
dağıtım adı Evet Değerlendirme için kullanılacak Azure yapay zeka modeli dağıtımının adı.
veri yolu Evet Değerlendirmeler için değerlendiricileri ve giriş sorgularını içeren veri dosyasının yolu.
ajan kimlikleri Evet Değerlendirilecek bir veya daha fazla aracı kimliği agent-name:version şeklinde (örneğin, my-agent:1 veya my-agent:1,my-agent:2). Birden çok aracı virgülle ayrılır ve istatistiksel test sonuçlarıyla karşılaştırılır.
baseline-agent-id Hayı Birden çok ajan değerlendirilirken karşılaştırma yapılacak olan temel ajan kimliği. Sağlanmazsa, ilk temsilci kullanılır.

Veri dosyası

Giriş veri dosyası aşağıdaki yapıya sahip bir JSON dosyası olmalıdır:

Alan Türü Gerekli mi? Description
name String Evet Değerlendirme veri kümesinin adı.
Değerlendiriciler string[] Evet Kullanılacak değerlendirici adlarının listesi. Foundry portalında projenizin değerlendirici kataloğundaki kullanılabilir değerlendiricilerin listesine göz atın: Derleme > Değerlendirme Değerlendirici > kataloğu.
veriler object[] Evet query ve isteğe bağlı değerlendirici alanları olan ground_truth, context gibi giriş nesneleri dizisi. Değerlendiricilere otomatik olarak eşlenir; data_mapping kullanarak geçersiz kılın.
openai_graders nesne Hayı OpenAI tabanlı değerlendiriciler için yapılandırma (label_model, score_model, string_check vb.).
değerlendirici_parametreler nesne Hayı Değerlendiriciye özgü başlatma parametreleri (örneğin, eşikler, özel ayarlar).
veri eşleme nesne Hayı Özel veri alanı eşlemeleri (sağlanmazsa verilerden otomatik olarak oluşturulur).

Temel örnek veri dosyası


{
  "name": "test-data",
  "evaluators": [
    "builtin.fluency",
    "builtin.task_adherence",
    "builtin.violence",
  ],
  "data": [
    {
      "query": "Tell me about Tokyo disneyland"
    },
    {
      "query": "How do I install Python?"
    }
  ]
}

Ek örnek veri dosyaları

Filename Description
dataset-tiny.json Az sayıda test sorgusu ve değerlendirici içeren veri kümesi.
dataset.json Tüm desteklenen değerlendirici türlerini ve güvenilirlik aralığı hesaplaması ve istatistiksel test için yeterli sorgu içeren veri kümesi.
dataset-builtin-evaluators.json Yerleşik Foundry değerlendiricileri örneği (örneğin, tutarlılık, akıcılık, ilgi, temellilik, ölçümler).
dataset-openai-graders.json OpenAI tabanlı not verenler örneği (etiket modelleri, puan modelleri, metin benzerliği, dize denetimleri).
dataset-custom-evaluators.json Değerlendirici parametreleriyle özel değerlendirici örneği.
dataset-data-mapping.json Özel veri sütunu adlarıyla otomatik alan eşlemelerini geçersiz kılmayı gösteren veri eşleme örneği.

Örnek işlem hattı

Bu Azure DevOps uzantısını kullanmak için görevi Azure Pipeline'ınıza ekleyin ve Microsoft Foundry projenize erişmek için kimlik doğrulamasını yapılandırın.

steps:
  - task: AIAgentEvaluation@2
    displayName: "Evaluate AI Agents"
    inputs:
      azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
      deployment-name: "$(DeploymentName)"
      data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
      agent-ids: "$(AgentIds)"

Değerlendirme sonuçları ve çıkışları

Değerlendirme sonuçları Azure DevOps işlem hattı özetinde, birden çok değerlendirme yapıldığında aracılar arasındaki ayrıntılı ölçümler ve karşılaştırmalarla birlikte görünür.

Her yapay zeka değerlendirme görevi çalıştırmasının değerlendirme sonuçları Azure DevOps işlem hattınızdaki özet bölümüne oluşturulur.

Aşağıdaki ekran görüntüsü, iki aracıyı karşılaştırmaya yönelik örnek bir rapordur.

Aracı değerlendirme sonucunun ekran görüntüsü.