Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Důležité
Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v tématu Supplementální podmínky použití pro Microsoft Azure Preview.
Toto rozšíření Azure DevOps umožňuje offline vyhodnocení agentů Microsoft Foundry v rámci vašeho pipelines CI/CD. Zjednodušuje proces offline vyhodnocení, takže můžete identifikovat potenciální problémy a před vydáním aktualizace do produkčního prostředí provést vylepšení.
Pokud chcete toto rozšíření použít, zadejte datovou sadu s testovacími dotazy a seznam vyhodnocovačů. Tato úloha vyvolá agenty s dotazy, vyhodnotí je a vygeneruje souhrnnou sestavu.
Features
- Vyhodnocení agenta: Automatizace předprodukčního posouzení agentů Microsoft Foundry v pracovním postupu CI/CD
- Vyhodnocovače: Použijte všechny vyhodnocovače z katalogu vyhodnocovače Foundry.
- Statistická analýza: Výsledky vyhodnocení zahrnují intervaly spolehlivosti a test statistické významnosti, aby bylo možné určit, jestli jsou změny smysluplné, a ne kvůli náhodné variaci.
Kategorie vyhodnocovače
- Vyhodnocovače agentů: Procesy a vyhodnocovače na úrovni systému pro pracovní postupy agenta.
- Vyhodnocovače RAG: Vyhodnocují end-to-end procesy a procesy načítání v systémech RAG
- Vyhodnocení rizik a bezpečnosti: Posouzení rizik a bezpečnostních obav v reakcích.
- General purpose hodnotitelé: Hodnocení kvality, mezi které patří soudržnost a plynulost.
- Hodnoticí nástroje založené na OpenAI: Použijte hodnotitele OpenAI, včetně kontroly řetězců, podobnosti textu, modelu skóre/popisku.
- Vlastní vyhodnocovače: Definujte vlastní vyhodnocovače pomocí kódu Pythonu nebo vzorů LLM jako soudce.
Předpoklady
- Jeden projekt. Další informace najdete v tématu Vytvoření projektu.
- Nainstalujte rozšíření AI Agent AI evaluation.
Vstupy
Parametry
| Název | Povinné? | Description |
|---|---|---|
| azure-ai-project-endpoint | Ano | Koncový bod vašeho projektu Microsoft Foundry. |
| název nasazení | Ano | Název nasazení modelu Azure AI, který se má použít k vyhodnocení. |
| cesta k datům | Ano | Cesta k datovému souboru, který obsahuje vyhodnocovače a vstupní dotazy pro vyhodnocení |
| ID agentů | Ano | ID jednoho nebo více agentů k vyhodnocení ve formátu agent-name:version (například my-agent:1 nebo my-agent:1,my-agent:2). Více agentů je odděleno čárkami a porovná se se statistickými výsledky testů. |
| základní ID agenta | Ne | ID základního agenta pro porovnání při vyhodnocování více agentů. Pokud není zadán, použije se první agent. |
Datový soubor
Vstupním datovým souborem by měl být soubor JSON s následující strukturou:
| Pole | Typ | Povinné? | Description |
|---|---|---|---|
| název | řetězec | Ano | Název vyhodnocovací datové sady |
| hodnotitelé | řetězec[] | Ano | Seznam názvů vyhodnocovače, které se mají použít Podívejte se na seznam dostupných vyhodnocovačů ve vašem projektu v katalogu vyhodnocovačů na portálu Foundry: Build > Evaluations > katalog vyhodnocovačů. |
| data | object[] | Ano | Pole vstupních objektů s poli query a volitelnými vyhodnocovačemi, jako jsou ground_truth, context. Automaticky přiřazeno k vyhodnocovačům; pro přepsání použijte data_mapping. |
| openai_graders | objekt | Ne | Konfigurace pro vyhodnocovače založené na OpenAI (label_model, score_model, string_check atd.). |
| parametry_hodnotitele | objekt | Ne | Parametry inicializace specifické pro vyhodnocovače (například prahové hodnoty, vlastní nastavení). |
| mapování dat | objekt | Ne | Mapování vlastních datových polí (automaticky generované z dat, pokud není k dispozici). |
Základní ukázkový datový soubor
{
"name": "test-data",
"evaluators": [
"builtin.fluency",
"builtin.task_adherence",
"builtin.violence",
],
"data": [
{
"query": "Tell me about Tokyo disneyland"
},
{
"query": "How do I install Python?"
}
]
}
Další ukázkové datové soubory
| Jméno souboru | Description |
|---|---|
| dataset-tiny.json | Datová sada s malým počtem testovacích dotazů a vyhodnocovačů |
| dataset.json | Datová sada se všemi podporovanými typy vyhodnocovače a dostatečnými dotazy na výpočet intervalu spolehlivosti a statistickým testem |
| dataset-builtin-evaluators.json | Vestavěné vyhodnocovače Foundry (například soudržnost, plynulost, relevance, zakotvení, metriky). |
| dataset-openai-graders.json | Příklad známek založených na OpenAI (modely popisků, modely skóre, podobnost textu, kontroly řetězců). |
| dataset-custom-evaluators.json | Příklad vlastních vyhodnocovačů s parametry vyhodnocovače |
| dataset-data-mapping.json | Příklad mapování dat znázorňující přepsání automatického mapování polí vlastními názvy datových sloupců |
Ukázkové potrubí
Pokud chcete použít toto rozšíření Azure DevOps, přidejte úlohu do Azure Pipeline a nakonfigurujte ověřování pro přístup k vašemu projektu Microsoft Foundry.
steps:
- task: AIAgentEvaluation@2
displayName: "Evaluate AI Agents"
inputs:
azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
deployment-name: "$(DeploymentName)"
data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
agent-ids: "$(AgentIds)"
Výsledky vyhodnocení a výstupy
Výsledky vyhodnocení se zobrazí v souhrnu kanálu Azure DevOps s podrobnými metrikami a porovnáními mezi agenty při vyhodnocování více agentů.
Výstup výsledků vyhodnocení se zobrazí v souhrnné části pro každou úlohu vyhodnocení AI ve vašem kanálu Azure DevOps.
Následující snímek je ukázkovou zprávou pro porovnání dvou agentů.