Předdefinované referenční dokumentace vyhodnocovačů

Important

Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce nemusí být podporované nebo můžou mít omezené možnosti. Další informace najdete v tématu Supplementální podmínky použití pro Microsoft Azure Verze Preview.

Microsoft Foundry zahrnuje integrované vyhodnocovače pro posouzení kvality, bezpečnosti a spolehlivosti odpovědí umělé inteligence v průběhu životního cyklu vývoje. V tomto odkazu jsou uvedeny všechny dostupné vyhodnocovače, jejich účely a pokyny k výběru vhodného pro váš případ použití. Můžete také vytvořit vlastní vyhodnocovače přizpůsobené vašim konkrétním kritériím hodnocení.

Vyhodnocovače pro obecné účely

Evaluator	Purpose
Coherence	Měří logickou konzistenci a tok odpovědí.
Fluency	Měří kvalitu přirozeného jazyka a čitelnost.

Další informace najdete v tématu Hodnocení pro obecné účely.

Vyhodnocovače textových podobností

Evaluator	Purpose
Similarity	Měření textové podobnosti s asistencí umělé inteligence
F1 Score	Harmonický průměr přesnosti a úplnosti v tokenech se překrývají mezi odezvou a základní pravdou.
BLEU	Dvojjazyčné hodnocení Skóre podstudií pro měření kvality překladu se překrývají v n gramech mezi odezvou a základní pravdou.
GLEU	Google-BLEU varianta měření hodnocení na úrovni vět se překrývá v n-gramech mezi odpovědí a skutečnou situací.
ROUGE	Recall-Oriented Měření hodnocení dat se překrývá v n-gramech mezi odpovědí a skutečnou skutečností.
METEOR	Metrika pro vyhodnocení překladu s explicitními mírami řazení se mezi odpověďmi a základní pravdou překrývají v n gramech.

Další informace najdete v tématu Vyhodnocovače textových podobností.

RAG evaluators

Evaluator	Purpose
Retrieval	Měří, jak efektivně systém načítá relevantní informace.
Document Retrieval	Měří přesnost při načítání výsledků podle základní pravdy.
Groundedness	Měří, jak je odpověď uzemněna v načteném kontextu. Vrátí skóre od 1 do 5 s využitím úsudku založeného na modelu.
Groundedness Pro (Preview)	Měří, zda je odpověď zaměněna v načteného kontextu pomocí služby Bezpečnost obsahu Azure AI. Vrátí binární pass/fail bez nutnosti nasazení modelu.
Relevance	Měří, jak je odpověď relevantní vzhledem k dotazu.
Úplnost odpovědi (Preview)	Míry v jakém rozsahu je odpověď úplná (chybí důležité informace) s ohledem na základní pravdu.

Další informace najdete v vyhodnocovacích modulech RAG (Retrieval-augmented Generation).

Vyhodnocovače rizik a bezpečnosti

Evaluator	Purpose
Nenávist a nespravedlivost	Identifikuje zkreslený, nediskriminační nebo nenávistný obsah.
Sexual	Identifikuje nevhodný sexuální obsah.
Violence	Detekuje násilné obsah nebo incitace.
Self-Harm	Detekuje propagaci nebo popis sebepoškozování obsahu.
Protected Materials	Detekuje neoprávněné použití obsahu chráněného autorským právem nebo chráněným obsahem.
Nepřímý útok (XPIA)	Měří, jestli odpověď klesla za nepřímý pokus o jailbreak vložený prostřednictvím načteného kontextu.
Code Vulnerability	Identifikuje problémy se zabezpečením vygenerovaného kódu.
Ungrounded Attributes	Detekuje prostředky infrastruktury nebo hallukované informace odvozené z interakcí uživatelů.
Zakázané akce (Preview)	Měří schopnost agenta AI zapojit se do chování, které porušují explicitně zakázané akce.
Únik citlivých dat (Preview)	Měří ohrožení zabezpečení agenta umělé inteligence na zveřejnění citlivých informací.

Další informace najdete v tématu Vyhodnocení rizik a bezpečnosti.

Agent evaluators

Evaluator	Purpose
Dodržování úkolů (Preview)	Měří, zda agent postupuje podle identifikovaných úloh podle systémových pokynů.
Dokončení úkolu (Preview)	Určuje, jestli agent úspěšně dokončil požadovanou úlohu na konci.
Řešení záměru (Preview)	Měří, jak přesně agent identifikuje a řeší záměry uživatelů.
Efektivita navigace mezi úkoly	Určuje, jestli posloupnost kroků agenta odpovídá optimální nebo očekávané cestě k měření efektivity.
Přesnost volání nástroje	Měří celkovou kvalitu volání nástrojů, včetně výběru, správnosti parametrů a efektivity.
Tool Selection	Měří, zda agent vybral nejvhodnější a nejúčinnější nástroje pro úlohu.
Přesnost vstupu nástroje	Ověřuje správnost všech parametrů volání nástroje s přísnými kritérii, včetně uzemnění, typu, formátu, úplnosti a vhodnosti.
Využití výstupu nástroje	Měří, jestli agent správně interpretuje a používá výstupy nástrojů v odpovědích a následných voláních.
Úspěch volání nástroje	Vyhodnotí, jestli se všechna volání nástrojů úspěšně spustila bez technických selhání.

Další informace najdete v tématu Vyhodnocovače agentů.

Azure známkovače OpenAI

Evaluator	Purpose
Model Labeler	Klasifikuje obsah pomocí vlastních pokynů a popisků.
String Checker	Provádí flexibilní ověřování textu a porovnávání vzorů.
Text Similarity	Vyhodnotí kvalitu textu nebo určí sémantickou blízkost.
Model Scorer	Generuje číselné skóre (přizpůsobený rozsah) pro obsah na základě vlastních pokynů.

Další informace najdete v tématu Azure OpenAI Graders.

Vlastní vyhodnocovače (Preview)

Kromě předdefinovaných vyhodnocovačů můžete vytvářet vlastní vyhodnocovače přizpůsobené vašim konkrétním kritériím hodnocení. Vlastní vyhodnocovače umožňují definovat jedinečnou logiku vyhodnocování, ověřovací pravidla a metriky kvality, které odpovídají vašim obchodním požadavkům a potřebám specifických pro aplikace.

Další informace najdete v tématu Vlastní vyhodnocovače.

Combining evaluators

Pro komplexní hodnocení kvality zkombinujte více vyhodnocovačů:

Aplikace RAG: Načítání + uzemnění + Relevance + Bezpečnost obsahu
Aplikace agenta: Přesnost volání nástroje + Dodržování úkolů + Řešení záměru + Bezpečnost obsahu
Překladové aplikace: BLEU + METEOR + Fluency + Soudržnost
Všechny aplikace: Přidejte hodnotitele rizik a bezpečnosti (Nenávist a nespravedlnost, Sexuální, Násilí Self-Harm) pro odpovědné praktiky AI

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-04-30