Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Important
Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce nemusí být podporované nebo můžou mít omezené možnosti. Další informace najdete v tématu Supplementální podmínky použití pro Microsoft Azure Verze Preview.
Microsoft Foundry zahrnuje integrované vyhodnocovače pro posouzení kvality, bezpečnosti a spolehlivosti odpovědí umělé inteligence v průběhu životního cyklu vývoje. V tomto odkazu jsou uvedeny všechny dostupné vyhodnocovače, jejich účely a pokyny k výběru vhodného pro váš případ použití. Můžete také vytvořit vlastní vyhodnocovače přizpůsobené vašim konkrétním kritériím hodnocení.
Vyhodnocovače pro obecné účely
| Evaluator | Purpose |
|---|---|
| Coherence | Měří logickou konzistenci a tok odpovědí. |
| Fluency | Měří kvalitu přirozeného jazyka a čitelnost. |
Další informace najdete v tématu Hodnocení pro obecné účely.
Vyhodnocovače textových podobností
| Evaluator | Purpose |
|---|---|
| Similarity | Měření textové podobnosti s asistencí umělé inteligence |
| F1 Score | Harmonický průměr přesnosti a úplnosti v tokenech se překrývají mezi odezvou a základní pravdou. |
| BLEU | Dvojjazyčné hodnocení Skóre podstudií pro měření kvality překladu se překrývají v n gramech mezi odezvou a základní pravdou. |
| GLEU | Google-BLEU varianta měření hodnocení na úrovni vět se překrývá v n-gramech mezi odpovědí a skutečnou situací. |
| ROUGE | Recall-Oriented Měření hodnocení dat se překrývá v n-gramech mezi odpovědí a skutečnou skutečností. |
| METEOR | Metrika pro vyhodnocení překladu s explicitními mírami řazení se mezi odpověďmi a základní pravdou překrývají v n gramech. |
Další informace najdete v tématu Vyhodnocovače textových podobností.
RAG evaluators
| Evaluator | Purpose |
|---|---|
| Retrieval | Měří, jak efektivně systém načítá relevantní informace. |
| Document Retrieval | Měří přesnost při načítání výsledků podle základní pravdy. |
| Groundedness | Měří, jak je odpověď uzemněna v načteném kontextu. Vrátí skóre od 1 do 5 s využitím úsudku založeného na modelu. |
| Groundedness Pro (Preview) | Měří, zda je odpověď zaměněna v načteného kontextu pomocí služby Bezpečnost obsahu Azure AI. Vrátí binární pass/fail bez nutnosti nasazení modelu. |
| Relevance | Měří, jak je odpověď relevantní vzhledem k dotazu. |
| Úplnost odpovědi (Preview) | Míry v jakém rozsahu je odpověď úplná (chybí důležité informace) s ohledem na základní pravdu. |
Další informace najdete v vyhodnocovacích modulech RAG (Retrieval-augmented Generation).
Vyhodnocovače rizik a bezpečnosti
| Evaluator | Purpose |
|---|---|
| Nenávist a nespravedlivost | Identifikuje zkreslený, nediskriminační nebo nenávistný obsah. |
| Sexual | Identifikuje nevhodný sexuální obsah. |
| Violence | Detekuje násilné obsah nebo incitace. |
| Self-Harm | Detekuje propagaci nebo popis sebepoškozování obsahu. |
| Protected Materials | Detekuje neoprávněné použití obsahu chráněného autorským právem nebo chráněným obsahem. |
| Nepřímý útok (XPIA) | Měří, jestli odpověď klesla za nepřímý pokus o jailbreak vložený prostřednictvím načteného kontextu. |
| Code Vulnerability | Identifikuje problémy se zabezpečením vygenerovaného kódu. |
| Ungrounded Attributes | Detekuje prostředky infrastruktury nebo hallukované informace odvozené z interakcí uživatelů. |
| Zakázané akce (Preview) | Měří schopnost agenta AI zapojit se do chování, které porušují explicitně zakázané akce. |
| Únik citlivých dat (Preview) | Měří ohrožení zabezpečení agenta umělé inteligence na zveřejnění citlivých informací. |
Další informace najdete v tématu Vyhodnocení rizik a bezpečnosti.
Agent evaluators
| Evaluator | Purpose |
|---|---|
| Dodržování úkolů (Preview) | Měří, zda agent postupuje podle identifikovaných úloh podle systémových pokynů. |
| Dokončení úkolu (Preview) | Určuje, jestli agent úspěšně dokončil požadovanou úlohu na konci. |
| Řešení záměru (Preview) | Měří, jak přesně agent identifikuje a řeší záměry uživatelů. |
| Efektivita navigace mezi úkoly | Určuje, jestli posloupnost kroků agenta odpovídá optimální nebo očekávané cestě k měření efektivity. |
| Přesnost volání nástroje | Měří celkovou kvalitu volání nástrojů, včetně výběru, správnosti parametrů a efektivity. |
| Tool Selection | Měří, zda agent vybral nejvhodnější a nejúčinnější nástroje pro úlohu. |
| Přesnost vstupu nástroje | Ověřuje správnost všech parametrů volání nástroje s přísnými kritérii, včetně uzemnění, typu, formátu, úplnosti a vhodnosti. |
| Využití výstupu nástroje | Měří, jestli agent správně interpretuje a používá výstupy nástrojů v odpovědích a následných voláních. |
| Úspěch volání nástroje | Vyhodnotí, jestli se všechna volání nástrojů úspěšně spustila bez technických selhání. |
Další informace najdete v tématu Vyhodnocovače agentů.
Azure známkovače OpenAI
| Evaluator | Purpose |
|---|---|
| Model Labeler | Klasifikuje obsah pomocí vlastních pokynů a popisků. |
| String Checker | Provádí flexibilní ověřování textu a porovnávání vzorů. |
| Text Similarity | Vyhodnotí kvalitu textu nebo určí sémantickou blízkost. |
| Model Scorer | Generuje číselné skóre (přizpůsobený rozsah) pro obsah na základě vlastních pokynů. |
Další informace najdete v tématu Azure OpenAI Graders.
Vlastní vyhodnocovače (Preview)
Kromě předdefinovaných vyhodnocovačů můžete vytvářet vlastní vyhodnocovače přizpůsobené vašim konkrétním kritériím hodnocení. Vlastní vyhodnocovače umožňují definovat jedinečnou logiku vyhodnocování, ověřovací pravidla a metriky kvality, které odpovídají vašim obchodním požadavkům a potřebám specifických pro aplikace.
Další informace najdete v tématu Vlastní vyhodnocovače.
Combining evaluators
Pro komplexní hodnocení kvality zkombinujte více vyhodnocovačů:
- Aplikace RAG: Načítání + uzemnění + Relevance + Bezpečnost obsahu
- Aplikace agenta: Přesnost volání nástroje + Dodržování úkolů + Řešení záměru + Bezpečnost obsahu
- Překladové aplikace: BLEU + METEOR + Fluency + Soudržnost
- Všechny aplikace: Přidejte hodnotitele rizik a bezpečnosti (Nenávist a nespravedlnost, Sexuální, Násilí Self-Harm) pro odpovědné praktiky AI
Related content
- Pozorovatelnost v generativní umělé inteligenci
- Vyhodnocovače pro obecné účely
- Vyhodnocovače textových podobností
- Vyhodnocovače rag (Retrieval-augmented Generation)
- Vyhodnocovače rizik a bezpečnosti
- Agent evaluators
- Azure OpenAI Graders
- Custom evaluators
- Vyhodnocení generativních aplikací AI v Foundry