Sdílet prostřednictvím


Jak provést vyhodnocení v Azure DevOps (verze Preview)

Důležité

Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v tématu Supplementální podmínky použití pro Microsoft Azure Preview.

Toto rozšíření Azure DevOps umožňuje offline vyhodnocení agentů Microsoft Foundry v rámci vašeho pipelines CI/CD. Zjednodušuje proces offline vyhodnocení, takže můžete identifikovat potenciální problémy a před vydáním aktualizace do produkčního prostředí provést vylepšení.

Pokud chcete toto rozšíření použít, zadejte datovou sadu s testovacími dotazy a seznam vyhodnocovačů. Tato úloha vyvolá agenty s dotazy, vyhodnotí je a vygeneruje souhrnnou sestavu.

Features

  • Vyhodnocení agenta: Automatizace předprodukčního posouzení agentů Microsoft Foundry v pracovním postupu CI/CD
  • Vyhodnocovače: Použijte všechny vyhodnocovače z katalogu vyhodnocovače Foundry.
  • Statistická analýza: Výsledky vyhodnocení zahrnují intervaly spolehlivosti a test statistické významnosti, aby bylo možné určit, jestli jsou změny smysluplné, a ne kvůli náhodné variaci.

Kategorie vyhodnocovače

Předpoklady

Vstupy

Parametry

Název Povinné? Description
azure-ai-project-endpoint Ano Koncový bod vašeho projektu Microsoft Foundry.
název nasazení Ano Název nasazení modelu Azure AI, který se má použít k vyhodnocení.
cesta k datům Ano Cesta k datovému souboru, který obsahuje vyhodnocovače a vstupní dotazy pro vyhodnocení
ID agentů Ano ID jednoho nebo více agentů k vyhodnocení ve formátu agent-name:version (například my-agent:1 nebo my-agent:1,my-agent:2). Více agentů je odděleno čárkami a porovná se se statistickými výsledky testů.
základní ID agenta Ne ID základního agenta pro porovnání při vyhodnocování více agentů. Pokud není zadán, použije se první agent.

Datový soubor

Vstupním datovým souborem by měl být soubor JSON s následující strukturou:

Pole Typ Povinné? Description
název řetězec Ano Název vyhodnocovací datové sady
hodnotitelé řetězec[] Ano Seznam názvů vyhodnocovače, které se mají použít Podívejte se na seznam dostupných vyhodnocovačů ve vašem projektu v katalogu vyhodnocovačů na portálu Foundry: Build > Evaluations > katalog vyhodnocovačů.
data object[] Ano Pole vstupních objektů s poli query a volitelnými vyhodnocovačemi, jako jsou ground_truth, context. Automaticky přiřazeno k vyhodnocovačům; pro přepsání použijte data_mapping.
openai_graders objekt Ne Konfigurace pro vyhodnocovače založené na OpenAI (label_model, score_model, string_check atd.).
parametry_hodnotitele objekt Ne Parametry inicializace specifické pro vyhodnocovače (například prahové hodnoty, vlastní nastavení).
mapování dat objekt Ne Mapování vlastních datových polí (automaticky generované z dat, pokud není k dispozici).

Základní ukázkový datový soubor


{
  "name": "test-data",
  "evaluators": [
    "builtin.fluency",
    "builtin.task_adherence",
    "builtin.violence",
  ],
  "data": [
    {
      "query": "Tell me about Tokyo disneyland"
    },
    {
      "query": "How do I install Python?"
    }
  ]
}

Další ukázkové datové soubory

Jméno souboru Description
dataset-tiny.json Datová sada s malým počtem testovacích dotazů a vyhodnocovačů
dataset.json Datová sada se všemi podporovanými typy vyhodnocovače a dostatečnými dotazy na výpočet intervalu spolehlivosti a statistickým testem
dataset-builtin-evaluators.json Vestavěné vyhodnocovače Foundry (například soudržnost, plynulost, relevance, zakotvení, metriky).
dataset-openai-graders.json Příklad známek založených na OpenAI (modely popisků, modely skóre, podobnost textu, kontroly řetězců).
dataset-custom-evaluators.json Příklad vlastních vyhodnocovačů s parametry vyhodnocovače
dataset-data-mapping.json Příklad mapování dat znázorňující přepsání automatického mapování polí vlastními názvy datových sloupců

Ukázkové potrubí

Pokud chcete použít toto rozšíření Azure DevOps, přidejte úlohu do Azure Pipeline a nakonfigurujte ověřování pro přístup k vašemu projektu Microsoft Foundry.

steps:
  - task: AIAgentEvaluation@2
    displayName: "Evaluate AI Agents"
    inputs:
      azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
      deployment-name: "$(DeploymentName)"
      data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
      agent-ids: "$(AgentIds)"

Výsledky vyhodnocení a výstupy

Výsledky vyhodnocení se zobrazí v souhrnu kanálu Azure DevOps s podrobnými metrikami a porovnáními mezi agenty při vyhodnocování více agentů.

Výstup výsledků vyhodnocení se zobrazí v souhrnné části pro každou úlohu vyhodnocení AI ve vašem kanálu Azure DevOps.

Následující snímek je ukázkovou zprávou pro porovnání dvou agentů.

Screenshot výsledku vyhodnocení agenta.