Předdefinované referenční dokumentace vyhodnocovačů

Important

Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce nemusí být podporované nebo můžou mít omezené možnosti. Další informace najdete v tématu Supplementální podmínky použití pro Microsoft Azure Verze Preview.

Microsoft Foundry zahrnuje integrované vyhodnocovače pro posouzení kvality, bezpečnosti a spolehlivosti odpovědí umělé inteligence v průběhu životního cyklu vývoje. V tomto odkazu jsou uvedeny všechny dostupné vyhodnocovače, jejich účely a pokyny k výběru vhodného pro váš případ použití. Můžete také vytvořit vlastní vyhodnocovače přizpůsobené vašim konkrétním kritériím hodnocení.

Vyhodnocovače pro obecné účely

Evaluator Purpose
Coherence Měří logickou konzistenci a tok odpovědí.
Fluency Měří kvalitu přirozeného jazyka a čitelnost.

Další informace najdete v tématu Hodnocení pro obecné účely.

Vyhodnocovače textových podobností

Evaluator Purpose
Similarity Měření textové podobnosti s asistencí umělé inteligence
F1 Score Harmonický průměr přesnosti a úplnosti v tokenech se překrývají mezi odezvou a základní pravdou.
BLEU Dvojjazyčné hodnocení Skóre podstudií pro měření kvality překladu se překrývají v n gramech mezi odezvou a základní pravdou.
GLEU Google-BLEU varianta měření hodnocení na úrovni vět se překrývá v n-gramech mezi odpovědí a skutečnou situací.
ROUGE Recall-Oriented Měření hodnocení dat se překrývá v n-gramech mezi odpovědí a skutečnou skutečností.
METEOR Metrika pro vyhodnocení překladu s explicitními mírami řazení se mezi odpověďmi a základní pravdou překrývají v n gramech.

Další informace najdete v tématu Vyhodnocovače textových podobností.

RAG evaluators

Evaluator Purpose
Retrieval Měří, jak efektivně systém načítá relevantní informace.
Document Retrieval Měří přesnost při načítání výsledků podle základní pravdy.
Groundedness Měří, jak je odpověď uzemněna v načteném kontextu. Vrátí skóre od 1 do 5 s využitím úsudku založeného na modelu.
Groundedness Pro (Preview) Měří, zda je odpověď zaměněna v načteného kontextu pomocí služby Bezpečnost obsahu Azure AI. Vrátí binární pass/fail bez nutnosti nasazení modelu.
Relevance Měří, jak je odpověď relevantní vzhledem k dotazu.
Úplnost odpovědi (Preview) Míry v jakém rozsahu je odpověď úplná (chybí důležité informace) s ohledem na základní pravdu.

Další informace najdete v vyhodnocovacích modulech RAG (Retrieval-augmented Generation).

Vyhodnocovače rizik a bezpečnosti

Evaluator Purpose
Nenávist a nespravedlivost Identifikuje zkreslený, nediskriminační nebo nenávistný obsah.
Sexual Identifikuje nevhodný sexuální obsah.
Violence Detekuje násilné obsah nebo incitace.
Self-Harm Detekuje propagaci nebo popis sebepoškozování obsahu.
Protected Materials Detekuje neoprávněné použití obsahu chráněného autorským právem nebo chráněným obsahem.
Nepřímý útok (XPIA) Měří, jestli odpověď klesla za nepřímý pokus o jailbreak vložený prostřednictvím načteného kontextu.
Code Vulnerability Identifikuje problémy se zabezpečením vygenerovaného kódu.
Ungrounded Attributes Detekuje prostředky infrastruktury nebo hallukované informace odvozené z interakcí uživatelů.
Zakázané akce (Preview) Měří schopnost agenta AI zapojit se do chování, které porušují explicitně zakázané akce.
Únik citlivých dat (Preview) Měří ohrožení zabezpečení agenta umělé inteligence na zveřejnění citlivých informací.

Další informace najdete v tématu Vyhodnocení rizik a bezpečnosti.

Agent evaluators

Evaluator Purpose
Dodržování úkolů (Preview) Měří, zda agent postupuje podle identifikovaných úloh podle systémových pokynů.
Dokončení úkolu (Preview) Určuje, jestli agent úspěšně dokončil požadovanou úlohu na konci.
Řešení záměru (Preview) Měří, jak přesně agent identifikuje a řeší záměry uživatelů.
Efektivita navigace mezi úkoly Určuje, jestli posloupnost kroků agenta odpovídá optimální nebo očekávané cestě k měření efektivity.
Přesnost volání nástroje Měří celkovou kvalitu volání nástrojů, včetně výběru, správnosti parametrů a efektivity.
Tool Selection Měří, zda agent vybral nejvhodnější a nejúčinnější nástroje pro úlohu.
Přesnost vstupu nástroje Ověřuje správnost všech parametrů volání nástroje s přísnými kritérii, včetně uzemnění, typu, formátu, úplnosti a vhodnosti.
Využití výstupu nástroje Měří, jestli agent správně interpretuje a používá výstupy nástrojů v odpovědích a následných voláních.
Úspěch volání nástroje Vyhodnotí, jestli se všechna volání nástrojů úspěšně spustila bez technických selhání.

Další informace najdete v tématu Vyhodnocovače agentů.

Azure známkovače OpenAI

Evaluator Purpose
Model Labeler Klasifikuje obsah pomocí vlastních pokynů a popisků.
String Checker Provádí flexibilní ověřování textu a porovnávání vzorů.
Text Similarity Vyhodnotí kvalitu textu nebo určí sémantickou blízkost.
Model Scorer Generuje číselné skóre (přizpůsobený rozsah) pro obsah na základě vlastních pokynů.

Další informace najdete v tématu Azure OpenAI Graders.

Vlastní vyhodnocovače (Preview)

Kromě předdefinovaných vyhodnocovačů můžete vytvářet vlastní vyhodnocovače přizpůsobené vašim konkrétním kritériím hodnocení. Vlastní vyhodnocovače umožňují definovat jedinečnou logiku vyhodnocování, ověřovací pravidla a metriky kvality, které odpovídají vašim obchodním požadavkům a potřebám specifických pro aplikace.

Další informace najdete v tématu Vlastní vyhodnocovače.

Combining evaluators

Pro komplexní hodnocení kvality zkombinujte více vyhodnocovačů:

  • Aplikace RAG: Načítání + uzemnění + Relevance + Bezpečnost obsahu
  • Aplikace agenta: Přesnost volání nástroje + Dodržování úkolů + Řešení záměru + Bezpečnost obsahu
  • Překladové aplikace: BLEU + METEOR + Fluency + Soudržnost
  • Všechny aplikace: Přidejte hodnotitele rizik a bezpečnosti (Nenávist a nespravedlnost, Sexuální, Násilí Self-Harm) pro odpovědné praktiky AI