Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Důležité
Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce nemusí být podporované nebo můžou mít omezené možnosti. Další informace najdete v tématu Supplementální podmínky použití pro Microsoft Azure Verze Preview.
Otestujte modely a agenty generující AI spuštěním vyhodnocení, která měří výkon, kvalitu a bezpečnost. Pomocí vyhodnocení před nasazením ověřte chování nebo po nasazení, abyste mohli monitorovat kvalitu produkce. Vyhodnocení spouští model nebo agenta s testovacími daty a vyhodnotí výstupy pomocí předdefinovaných nebo vlastních vyhodnocovačů.
V tomto článku se dozvíte, jak vytvořit a spustit vyhodnocení na portálu Foundry.
Požadavky
Předplatné služby Azure. Vytvořte si ho zdarma.
Projekt Microsoft Foundry. Pokud ho nemáte, vytvořte projekt .
V závislosti na vašem cíli vyhodnocení jednu z následujících možností:
- Vyhodnocení agenta: Agent ve vašem projektu.
- Vyhodnocení modelu: Nasazený model nebo přístup k okamžitým modelům.
- Vyhodnocení datové sady: Testovací datová sada ve formátu CSV nebo JSONL obsahující existující výstupy modelu nebo agenta.
Připojení ke službě Azure OpenAI s nasazeným modelem GPT (například
gpt-4.1-mini). Vyžadováno pro hodnocení kvality s asistencí umělé inteligence.Role uživatele Foundry v projektu Foundry. Další informace najdete v tématu Řízení přístupu na základěrole pro Microsoft Foundry.
Důležité
Nedávno byly přejmenovány role Foundry RBAC. Foundry User, Foundry Owner, Foundry Account Owner a Foundry Project Manager se dříve nazývaly Uživatel Azure AI, Vlastník Azure AI, Vlastník účtu Azure AI a Správce projektů Azure AI. Během zavádění přejmenování se stále můžou zobrazovat předchozí názvy na některých místech. ID rolí a základní oprávnění se při přejmenování nezmění.
Volba přístupu k vyhodnocení
Vyberte přístup k vyhodnocení na základě toho, co chcete testovat:
| Target | Scope | Zdroj dat | Nejlepší pro |
|---|---|---|---|
| Agent | Úplné konverzace | Simulovaná data | Testování chování koncového agenta pomocí syntetických scénářů před nasazením |
| Agent | Úplné konverzace | Stávající konverzace | Vyhodnocení skutečných interakcí uživatelů za účelem monitorování kvality výroby |
| Agent | Jednotlivá otočení | Existující datová sada | Ladění konkrétních odpovědí agenta, testování používání nástrojů, detailní analýzy |
| Agent | Individuální otočení | Syntetická data | Testování jednokolových scénářů Q&A nebo RAG pomocí vygenerovaných dotazů |
| Agent | Jednotlivá otočení | Existující stopy | Vyhodnocení historických záznamů trasování agentů ve vašem projektu |
| model | Individuální otočení | Syntetická data | Testování výstupů modelu pomocí vygenerovaných promptů. |
| model | Individuální otočení | Existující datová sada | Srovnávací testy výkonu modelu na kurátorované testovací sadě |
| Dataset | Jednotlivá otočení | (Datová sada je cílová) | Vyhodnocení existujících výstupů bez opětovného spuštění modelu nebo agenta |
Tip
Začněte s úplnými konverzacemi > agenta > Simulovaná data k otestování chování agenta v kontrolovaných scénářích. Stávající konverzace používejte, jakmile bude váš agent v produkci, abyste mohli sledovat jeho výkon v reálném provozu.
Vytvoření vyhodnocení
Hodnocení můžete zahájit z několika míst na portálu Foundry:
- Zkušební stránka: V levém podokně vyberteVytvořit vyhodnocení>.
- Stránka Modely: Přejděte na model, vyberte kartu Vyhodnocení a pak vyberte Vytvořit.
- Stránka Agenti: Přejděte na svého agenta, vyberte kartu Vyhodnocení a pak vyberte Vytvořit.
- Testovací prostředí agenta: Přejděte na svého agenta, vyberte kartu Testovací prostředí a pak vyberte Metriky>Spusťte úplné vyhodnocení.
Krok 1: Výběr cíle vyhodnocení
Při vytváření vyhodnocení nejprve zvolte cíl vyhodnocení. Cíl určuje, proti čemu se vyhodnocení spouští:
| Target | Description |
|---|---|
| Agent | Vyhodnotí výstup vygenerovaný vybraným agentem a uživatelem definovaný vstup. Funguje pro agenty rychlé odezvy i agenty hostované. |
| model | Vyhodnotí výstup vygenerovaný vybraným modelem a uživatelem definovanou výzvou. |
| Dataset | Vyhodnotí existující výstupy modelu nebo agenta z testovací datové sady. |
| Traces | Vyhodnotí interakce agentů, které jsou už zachycené v Application Insights. Vyberte agenta a časový rozsah a portál načte odpovídající záznamy pro vyhodnocení. Ekvivalent sady SDK najdete v tématu Vyhodnocení trasování. |
Tip
Okamžité modely: Okamžité modely jsou modely bez nasazení, které můžete okamžitě použít bez vytvoření nasazení. Při vytváření vyhodnocení můžete ve výběru modelů přímo vybrat model pro okamžité odpovědi buď jako cíl vyhodnocení, nebo jako hodnoticí model.
Krok 2: Výběr rozsahu vyhodnocení
Poznámka
Tento krok se zobrazí jenom pro cíle agenta a datové sady . Vyhodnocení modelu vždy používají jednotlivé otočení.
Zvolte, jak chcete vyhodnotit výkon agenta:
| Scope | Description | Nejlepší pro |
|---|---|---|
| Celé konverzace (ukázka) | Vyhodnocuje úplné vícekolové konverzace od začátku do konce. Měří celkovou kvalitu konverzace, dokončování úkolů a spokojenost uživatelů. | Testování kompletních prostředí agentů, spokojenosti zákazníků a toku konverzací |
| Individuální otočení | Vyhodnotí jednotlivé reakce agenta v rámci konverzací. Měří metriky pro každý tah, jako je přesnost výběru nástrojů a kvalita odezvy. | Ladění specifického chování agentů, testování používání nástrojů a podrobná analýza. |
Krok 3: Výběr zdroje dat
Možnosti zdroje dat závisí na vašem cíli a rozsahu vyhodnocení.
Pro vyhodnocení konverzací (úplné konverzace agenta >) (Preview)
Zvolte, odkud data konverzace pocházejí:
Simulovaná data
Vygenerujte syntetické konverzace spuštěním agenta pomocí popisu scénáře z datové sady. Tuto možnost použijte k otestování chování agenta v kontrolovaných scénářích před nasazením.
Vyberte Simulovaná data.
Výběrem možnosti Generovat otevřete dialogové okno konfigurace simulace.
Vyberte soubor: Zvolte datovou sadu obsahující popisy scénářů. Každý řádek v datové sadě popisuje scénář, který používáte k vygenerování simulované konverzace.
Výběr modelu: Zvolte model, který simuluje uživatele v konverzaci:
-
gpt-4.1(doporučeno pro složité scénáře) gpt-4ogpt-4o-minigpt-4.1-mini
-
Konfigurace nastavení simulace:
- Počet simulovaných konverzací podle scénáře: Kolik konverzací se má vygenerovat pro každý řádek v datové sadě (1–5). Více konverzací na scénář pomáhá identifikovat odchylku chování agenta.
- Počet otočení na konverzaci: Maximální počet povolených otočení na konverzaci (1–50). Konverzace skončí po dokončení úkolu nebo dosažení tohoto limitu.
Výběrem možnosti Potvrdit uložte konfiguraci simulace.
Stávající konverzace
Vyhodnoťte skutečné konverzace, které už váš agent měl s uživateli.
- Vyberte Existující konverzace.
- Konfigurace možností filtrování:
- Počet konverzací: Maximální počet konverzací, které se mají vzorkovat z rozsahu dat (1–100).
- Časový rozsah: Umožňuje filtrovat konverzace podle časového období. Použijte rychlé filtry (Poslední den, 7D, 1M, 3M) nebo vyberte vlastní rozsah kalendářních dat.
- Projděte a vyberte konkrétní konverzace, které chcete zahrnout do vyhodnocení.
Pro vyhodnocení jednotlivých turnů
Vyberte, odkud data vyhodnocení pocházejí:
Syntetická data
Generování testovacích dotazů pomocí AI Vyberte syntetické a nakonfigurujte počet řádků a výzvu, která popisuje data, která se mají vygenerovat. Soubory můžete také nahrát, aby se zlepšila relevance.
Poznámka
Syntetická generace dat vyžaduje model s funkcí rozhraní API pro odpovědi. Dostupnost najdete v tématu Dostupnost oblastí rozhraní API odpovědí.
Existující datová sada
Použijte připravenou datovou sadu ve formátu CSV nebo JSONL. Vyberte Existující datovou sadu a zvolte soubor z datových prostředků projektu. Podporují se jenom formáty souborů CSV a JSONL.
Stávající trasování (pouze pro agenta)
Vyhodnoťte historické záznamy tras agentů ve svém projektu. Vyberte Existující trasování a filtrujte podle časového rozsahu, abyste vybrali trasování.
Multimodální obsah (Preview)
Všechny cíle hodnocení podporují obsah obrázků a zvuků. Každý typ obsahu používá konkrétní schéma JSONL:
Obsah obrázku:
-
image_url: Obrázek jako identifikátor URI dat (napříkladdata:image/png;base64,...) nebo veřejně přístupná adresa URL. -
caption: Textový popis obsahu obrázku.
{"image_url": "data:image/png;base64,iVBOR...", "caption": "A red to blue color gradient"}
Zvukový obsah:
-
audio_data: Zvuk jako identifikátor URI dat s daty WAV s kódováním base64 (napříkladdata:audio/wav;base64,...). -
expected: Textový popis očekávaného zvukového obsahu.
Poznámka
V současné době se podporuje jenom zvukový formát WAV.
{"audio_data": "data:audio/wav;base64,UklGR...", "expected": "A short beep tone at 440 Hz"}
Datové sady můžou také používat formát konverzace chatu, kde se zvuková data a data obrázků vkládají do jednoho sloupce zprávy chatu jako identifikátory URI dat nebo veřejně přístupné adresy URL.
Následující příklad ukazuje sloupec datové sady konverzací s vloženým obrázkem a zvukovým obsahem:
[
{
"role": "system",
"content": "..."
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "What are in these images?"
},
{
"type": "image_url",
"image_url": {
"url": "https://example.com/path/image.png"
}
},
{
"type": "image_url",
"image_url": {
"url": "data:image/png;base64,iVBORw0KGgo..."
}
}
]
},
{
"role": "assistant",
"content": "..."
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "Tell me the tones for the voices?"
},
{
"type": "input_audio",
"input_audio": {
"data": "https://example.com/path/voice.wav",
"format": "wav"
}
},
{
"type": "input_audio",
"input_audio": {
"data": "data:audio/wav;base64,UklGRigAAA...",
"format": "wav"
}
}
]
}
]
Náhled obrázků a přehrávání zvukových klipů můžete zobrazit přímo v toku vytváření vyhodnocení a v zobrazení výsledků vyhodnocení.
Krok 4: Konfigurace agentů
Poznámka
Tento krok se zobrazí pouze pro hodnocení agenta.
Přizpůsobte chování agenta během vyhodnocení:
- Projděte si seznam agentů, kteří jsou součástí vašeho vyhodnocení.
- U každého agenta vyberte Konfigurovat a přizpůsobte si jeho chování:
- Výzva systému: Upravte pokyny agenta pro vyhodnocení.
- Výzva uživatele: Určete, jak se jednotlivé položky datové sady posílají agentovi během vyhodnocení.
- Zkušební spuštění zachovává konfigurace agenta.
Konfigurace uživatelského pokynu
Výzva uživatele definuje, jak se testovací vstupy předávají vašemu agentu. Ve výchozím nastavení portál používá {{item.query}} k přímému předání dotazu na datovou sadu vašemu agentovi.
Ve většině případů můžete použít výchozí nastavení. Tuto hodnotu změňte pouze v případě, že váš agent očekává jiný vstupní formát. Pokud například váš agent používá protokol hostovaného agenta nebo vyžaduje strukturovaný vstup s dalšími poli.
Obvyklé scénáře:
| Format | Kdy ho použít |
|---|---|
{{item.query}} |
Výchozí. Předá pole dotazu z datové sady přímo. |
{{item.messages}} |
Pro agenty, kteří očekávají historii konverzací jako vstup. |
| Vlastní JSON | Pro hostované agenty nebo rozhraní API, které vyžadují strukturovaná těla požadavků. |
Tip
Pomocí vlastních výzev otestujte hraniční případy nebo konkrétní scénáře, které nemusí v datové sadě nastat přirozeně.
Krok 5: Konfigurace mapování polí
Poznámka
Tento krok se zobrazí, když použijete existující data (existující konverzace, existující datová sada nebo existující trasování).
Přiřaďte svá datová pole k polím, která každý vyhodnocovač očekává. Požadovaná pole závisí na vašem rozsahu vyhodnocení.
Pro vyhodnocení konverzací (vícenásobný)
| Pole | Description | Povinné |
|---|---|---|
| zprávy | Zprávy v konverzaci ve formátu chatu. | Ano |
| tool_definitions | Definice nástrojů nebo funkcí, které jsou pro agenta k dispozici. | Ano |
Pro vyhodnocení jednotlivých turnů (jedno turn)
| Pole | Description | Povinné |
|---|---|---|
| query | Dotaz nebo výzva uživatele. | Ano |
| odpověď | Odpověď modelu nebo agenta. | Ano |
| Kontextu | Načtený kontext pro scénáře RAG | Ne |
| ground_truth | Očekávaná správná odpověď pro porovnání. | Ne |
| tool_calls | Volání nástrojů provedená agentem. | Ne |
| tool_definitions | Dostupné definice nástrojů | Ne |
Portál se automaticky pokusí namapovat pole datové sady. Pokud se pole zobrazí jako nepřiřazené, vyberte rozevírací seznam a ručně přiřaďte sloupec z datové sady.
Poznámka
Povinná pole jsou označené hvězdičkou (*). Vyhodnocovače selžou, pokud jsou požadovaná pole ponechána nepřiřazená.
Krok 6: Výběr kritérií testování
Vyberte vyhodnocovače, které se mají použít pro vaše vyhodnocení. Microsoft Foundry poskytuje tři kategorie předdefinovaných vyhodnocovačů. Dostupné vyhodnocovače závisí na rozsahu vyhodnocení.
Hodnotitelé agentů
Vyhodnoťte, jak efektivně agenti zpracovávají úlohy, nástroje a záměr uživatele. K dispozici pouze pro rozsah jednotlivých tahů.
| Vyhodnocovač | Description |
|---|---|
| Určení intence | Měří, jestli agent správně identifikoval a vyřešil záměr uživatele. |
| Dodržování úkolů | Měří, jak dobře agent postupoval podle pokynů a omezení. |
| Úspěch volání nástroje | Vyhodnocuje, zda byla volání nástrojů úspěšně provedena. |
| Výběr nástrojů | Určuje, zda agent vybral příslušné nástroje pro danou úlohu. |
| Využití výstupu nástroje | Vyhodnocuje, jak efektivně agent využil výstupy nástroje ve svých odpovědích. |
| Přesnost vstupu nástroje | Měří, zda agent poskytl správné vstupy do nástrojů. |
| Přesnost volání nástroje | Celková přesnost využití nástrojů |
Hodnotitelé kvality
Změřte celkovou kvalitu vygenerovaných odpovědí. Většina vyhodnocovačů kvality je k dispozici pro všechny obory hodnocení. Vyhodnocovače označené ★ podporují jak analýzu na úrovni konverzace, tak analýzu na úrovni jednotlivých tahů.
| Vyhodnocovač | Description | Podpora konverzací |
|---|---|---|
| Spokojenost zákazníků | Predikuje spokojenost uživatelů s interakcí agenta. | ★ |
| Dokončení úkolu | Vyhodnotí, jestli agent úspěšně dokončil požadovanou úlohu. | ★ |
| Soudržnost | Měří logický tok a konzistenci odpovědí. | ★ |
| Groundedness | Měří, zda jsou odpovědi založené na poskytnutém kontextu. | ★ |
| Úplnost odpovědi | Vyhodnotí, jestli odpovědi plně řeší dotazy uživatelů. | — |
| Fluency | Vyhodnotí kvalitu přirozeného jazyka. | — |
| Relevance | Vyhodnotí, jak jsou relevantní odpovědi na dotaz. | — |
Bezpečnostní vyhodnocovače
Identifikace potenciálních rizik pro obsah a zabezpečení K dispozici pouze pro rozsah jednotlivých tahů.
| Vyhodnocovač | Description |
|---|---|
| Violence | Detekuje násilné obsah v odpovědích. |
| Sexuální | Rozpozná sexuální obsah. |
| Sebepoškozování | Detekuje obsah související s vlastním poškozením. |
| Nenávist/nespravedlivost | Rozpozná nesnášící nebo zkreslený obsah. |
Portál předem vyhodnocuje doporučené vyhodnocovače na základě vašeho cíle a rozsahu hodnocení:
- Úplné konverzace: Spokojenost zákazníků, dokončení úkolů, soudržnost, uzemnění
- Jednotlivé interakce (existující data): Všichni hodnotitelé agentů a hodnotitelé kvality a bezpečnosti
- Individuální otočení (syntetické/stopy): relevance, uzemnění, plynulost, soudržnost
Tip
Podle potřeby můžete přidávat nebo odebírat vyhodnocovače. Vyberte vlastní vyhodnocovače a použijte vyhodnocovače, které jste definovali v projektu.
Krok 7: Kontrola a odeslání
- Zadejte název svého hodnocení.
- Zkontrolujte konfiguraci:
- Cíl vyhodnocení a rozsah
- Zdroj dat a datová sada
- Vybrané vyhodnocovače
- Mapování polí (pokud je k dispozici)
- Výběrem možnosti Odeslat zahájíte vyhodnocení.
Po odeslání se spustí hodnotící proces. Vyhodnocení se obvykle dokončí během několika minut v závislosti na velikosti datové sady a počtu simulovaných konverzací.
Chcete-li ověřit, že se vyhodnocování úspěšně spustilo:
- V levém podokně vyberte Vyhodnocení.
- Najděte si hodnocení v seznamu. Sloupec Stav zobrazuje aktuální stav:
- Probíhá: Vyhodnocení je spuštěné.
- Dokončeno: Vyhodnocení bylo úspěšně dokončeno.
- Částečné: Některá vyhodnocení byla dokončena, ale jiná selhala.
- Nezdařilo se: Vyhodnocení zjistilo chybu.
Pokud chcete zobrazit podrobné výsledky, vyberte název vyhodnocení nebo si prohlédněte výsledky vyhodnocení.
Tip
V případě programových pracovních postupů vyhodnocení použijte sadu AZURE AI Evaluation SDK. Viz Postup spuštění dávkového vyhodnocení pomocí sady SDK.
Řešení problémů
Vyhodnocení vyprší nebo probíhá pomalu
- Snižte počet konverzací nebo řádků datové sady.
- U simulací snižte maximální počet otočení na konverzaci.
- Zkontrolujte, že model soudce má dostatečnou kvótu.
Chyby mapování polí
- Ověřte, že datová sada obsahuje požadované sloupce pro váš obor vyhodnocení.
- V případě vyhodnocení konverzací se ujistěte, že sloupec zpráv obsahuje správně naformátované zprávy chatu.
- Zkontrolujte, že názvy sloupců v datové sadě odpovídají očekávaným názvům polí.
Byla překročena kvóta modelu
- Hodnoticí model používaný pro hodnocení s pomocí AI se započítává do vaší kvóty Azure OpenAI.
- Použijte menší datovou sadu nebo počkejte na aktualizaci kvóty.
- Pro cenově výhodná hodnocení zvažte použití
gpt-4.1-minimístogpt-4.1.
Osvědčené postupy
Pro vyhodnocení založená na simulacích
- Začněte v malém: Začněte 1 konverzací pro každý scénář a 5 až 10 výměnami, abyste ověřili své nastavení, než vše rozšíříte.
- Různé scénáře: Zahrňte různé popisy scénářů pro testování různých možností agenta.
- Iterace výzev: Pokud se agenti chovají neočekávaně, použijte krok Konfigurace agentů k úpravě výzev.
Pro stávající hodnocení konverzací
- Reprezentativní ukázka: Vyberte konverzace, které představují typické interakce uživatelů.
- Zahrňte okrajové případy: Nevyhodnocujte jen úspěšné konverzace – zahrňte i náročné scénáře.
- Pravidelné vyhodnocení: Naplánování opakovaných vyhodnocení pro sledování výkonu agenta v průběhu času.
Pro vyhodnocení modelu
- Srovnávací datové sady: K porovnání výkonu modelu napříč verzemi použijte standardizované datové sady.
- Otestujte nasazené i instantní modely: Porovnejte svá nasazení jemně doladěných modelů se základními modely.
Pro vyhodnocování datových sad
- Výstupy předběžného výpočetního výkonu: Vygenerujte výstupy offline a vyhodnocujte hromadně z hlediska efektivity nákladů.
- Verze datových sad: Sledujte verzi datové sady, která vytvořila výsledky vyhodnocení.
Obecné tipy
- Porovnání vyhodnocovačů: Spusťte stejná data prostřednictvím více vyhodnocovačů, abyste získali komplexní zobrazení.
- Sledování trendů: Pomocí historie vyhodnocení můžete identifikovat vylepšení výkonu nebo regrese.
- Reakce na výsledky: Pomocí přehledů vyhodnocení můžete upřesnit výzvy agenta, definice nástrojů a konfigurace.
Související obsah
Přečtěte si další informace o vyhodnocování modelů a agentů generující umělé inteligence: