Jak provést vyhodnocení v Azure DevOps (verze Preview)

Důležité

Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v tématu Supplementální podmínky použití pro Microsoft Azure Preview.

Toto rozšíření Azure DevOps umožňuje offline vyhodnocení agentů Microsoft Foundry v rámci vašeho pipelines CI/CD. Zjednodušuje proces offline vyhodnocení, takže můžete identifikovat potenciální problémy a před vydáním aktualizace do produkčního prostředí provést vylepšení.

Pokud chcete toto rozšíření použít, zadejte datovou sadu s testovacími dotazy a seznam vyhodnocovačů. Tato úloha vyvolá agenty s dotazy, vyhodnotí je a vygeneruje souhrnnou sestavu.

Features

Vyhodnocení agenta: Automatizace předprodukčního posouzení agentů Microsoft Foundry v pracovním postupu CI/CD
Vyhodnocovače: Použijte všechny vyhodnocovače z katalogu vyhodnocovače Foundry.
Statistická analýza: Výsledky vyhodnocení zahrnují intervaly spolehlivosti a test statistické významnosti, aby bylo možné určit, jestli jsou změny smysluplné, a ne kvůli náhodné variaci.

Kategorie vyhodnocovače

Vyhodnocovače agentů: Procesy a vyhodnocovače na úrovni systému pro pracovní postupy agenta.
Vyhodnocovače RAG: Vyhodnocují end-to-end procesy a procesy načítání v systémech RAG
Vyhodnocení rizik a bezpečnosti: Posouzení rizik a bezpečnostních obav v reakcích.
General purpose hodnotitelé: Hodnocení kvality, mezi které patří soudržnost a plynulost.
Hodnoticí nástroje založené na OpenAI: Použijte hodnotitele OpenAI, včetně kontroly řetězců, podobnosti textu, modelu skóre/popisku.
Vlastní vyhodnocovače: Definujte vlastní vyhodnocovače pomocí kódu Pythonu nebo vzorů LLM jako soudce.

Předpoklady

Jeden projekt. Další informace najdete v tématu Vytvoření projektu.
Nainstalujte rozšíření AI Agent AI evaluation.

Vstupy

Parametry

Název	Povinné?	Description
azure-ai-project-endpoint	Ano	Koncový bod vašeho projektu Microsoft Foundry.
název nasazení	Ano	Název nasazení modelu Azure AI, který se má použít k vyhodnocení.
cesta k datům	Ano	Cesta k datovému souboru, který obsahuje vyhodnocovače a vstupní dotazy pro vyhodnocení
ID agentů	Ano	ID jednoho nebo více agentů k vyhodnocení ve formátu `agent-name:version` (například `my-agent:1` nebo `my-agent:1,my-agent:2`). Více agentů je odděleno čárkami a porovná se se statistickými výsledky testů.
základní ID agenta	Ne	ID základního agenta pro porovnání při vyhodnocování více agentů. Pokud není zadán, použije se první agent.

Datový soubor

Vstupním datovým souborem by měl být soubor JSON s následující strukturou:

Pole	Typ	Povinné?	Description
název	řetězec	Ano	Název vyhodnocovací datové sady
hodnotitelé	řetězec[]	Ano	Seznam názvů vyhodnocovače, které se mají použít Podívejte se na seznam dostupných vyhodnocovačů ve vašem projektu v katalogu vyhodnocovačů na portálu Foundry: Build > Evaluations > katalog vyhodnocovačů.
data	object[]	Ano	Pole vstupních objektů s poli `query` a volitelnými vyhodnocovačemi, jako jsou `ground_truth`, `context`. Automaticky přiřazeno k vyhodnocovačům; pro přepsání použijte `data_mapping`.
openai_graders	objekt	Ne	Konfigurace pro vyhodnocovače založené na OpenAI (label_model, score_model, string_check atd.).
parametry_hodnotitele	objekt	Ne	Parametry inicializace specifické pro vyhodnocovače (například prahové hodnoty, vlastní nastavení).
mapování dat	objekt	Ne	Mapování vlastních datových polí (automaticky generované z dat, pokud není k dispozici).

Základní ukázkový datový soubor


{
  "name": "test-data",
  "evaluators": [
    "builtin.fluency",
    "builtin.task_adherence",
    "builtin.violence",
  ],
  "data": [
    {
      "query": "Tell me about Tokyo disneyland"
    },
    {
      "query": "How do I install Python?"
    }
  ]
}

Další ukázkové datové soubory

Jméno souboru	Description
dataset-tiny.json	Datová sada s malým počtem testovacích dotazů a vyhodnocovačů
dataset.json	Datová sada se všemi podporovanými typy vyhodnocovače a dostatečnými dotazy na výpočet intervalu spolehlivosti a statistickým testem
dataset-builtin-evaluators.json	Vestavěné vyhodnocovače Foundry (například soudržnost, plynulost, relevance, zakotvení, metriky).
dataset-openai-graders.json	Příklad známek založených na OpenAI (modely popisků, modely skóre, podobnost textu, kontroly řetězců).
dataset-custom-evaluators.json	Příklad vlastních vyhodnocovačů s parametry vyhodnocovače
dataset-data-mapping.json	Příklad mapování dat znázorňující přepsání automatického mapování polí vlastními názvy datových sloupců

Ukázkové potrubí

Pokud chcete použít toto rozšíření Azure DevOps, přidejte úlohu do Azure Pipeline a nakonfigurujte ověřování pro přístup k vašemu projektu Microsoft Foundry.

steps:
  - task: AIAgentEvaluation@2
    displayName: "Evaluate AI Agents"
    inputs:
      azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
      deployment-name: "$(DeploymentName)"
      data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
      agent-ids: "$(AgentIds)"

Výsledky vyhodnocení a výstupy

Výsledky vyhodnocení se zobrazí v souhrnu kanálu Azure DevOps s podrobnými metrikami a porovnáními mezi agenty při vyhodnocování více agentů.

Výstup výsledků vyhodnocení se zobrazí v souhrnné části pro každou úlohu vyhodnocení AI ve vašem kanálu Azure DevOps.

Následující snímek je ukázkovou zprávou pro porovnání dvou agentů.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-03-10