Sdílet prostřednictvím


Vyberte metody hodnocení

[Tento článek téma představuje předběžnou dokumentaci a může se změnit.]

Při vytváření testovacích sad si můžete vybrat z různých testovacích metod pro hodnocení odpovědí vašeho agenta: shoda textu, podobnost a kvalita. Každá testovací metoda má své vlastní síly a je vhodná pro různé typy vyhodnocení.

Metody testu shody textu

Metody testu shody textu porovnávají odpovědi agenta s očekávanými odpověďmi, které definujete v testovací sadě. Existují dva testy shody:

Přesná shoda kontroluje, jestli odpověď agenta přesně odpovídá očekávané odpovědi v testu: znak pro znak, slovo pro slovo. Pokud je to stejné, projde to. Pokud se něco liší, selže. Přesná shoda je užitečná pro krátké, přesné odpovědi, jako jsou čísla, kódy nebo pevné fráze. Neodpovídá tomu, že by lidé mohli frázovat několika správnými způsoby.

Shoda klíčových slov kontroluje, zda odpověď agenta obsahuje některá slova nebo fráze z očekávané odpovědi, kterou definujete. Pokud ano, projde. Pokud ne, selže. Shoda klíčových slov je užitečná, když lze odpověď formulovat různými správnými způsoby, ale klíčová slova nebo myšlenky musí být stále zahrnuty v odpovědi.

Metody testování podobnosti

Metoda testu podobnosti porovnává podobnost odpovědí agenta s očekávanými odpověďmi, které definujete ve své testovací sadě. Je užitečné, když odpověď může být frázována různými správnými způsoby, ale celkový význam nebo záměr se stále musí projít.

Pomocí metriky kosinusové podobnosti posuzuje, jak je odpověď agenta podobná formulaci a významu očekávané odpovědi a určuje skóre. Skóre se pohybuje v rozmezí od 0 do 1, kde 1 označuje, že odpověď úzce odpovídá, a 0 znamená, že ne. Můžete nastavit prahovou hodnotu skóre pro předávání, abyste zjistili, co představuje skóre pro předání odpovědi.

Metody testování kvality

Metody testování kvality vám pomůžou rozhodnout, jestli odpovědi vašeho agenta splňují vaše standardy. Tento přístup zajišťuje, že výsledky jsou spolehlivé a snadno vysvětlitelné.

Tyto metody používají rozsáhlý jazykový model (LLM) k vyhodnocení toho, jak efektivně agent odpovídá na otázky uživatelů. Jsou užitečné zejména v případě, že neexistuje žádná přesná odpověď a nabízí flexibilní a škálovatelný způsob, jak vyhodnotit odpovědi na základě načtených dokumentů a toku konverzace.

Metody testování kvality zahrnují dvě metody testování:

Obecná kvalita vyhodnocuje odpovědi agenta. Používá tato klíčová kritéria a používá konzistentní prompt pro vedení skórování:

  • Relevance: Do jaké míry odpověď agenta řeší otázku. Zůstává odpověď agenta u tématu a přímo odpovídá na otázku?

  • Zemnění: Do jaké míry je odpověď agenta založena na zadaném kontextu. Například, odkazuje odpověď agenta na informace uvedené v kontextu nebo se na ně spoléhá, místo aby uváděla nesouvisející nebo nepodložené informace?

  • Úplnost: Do jaké míry odpověď agenta poskytuje všechny potřebné informace. Například, pokrývá odpověď agenta všechny aspekty otázky a poskytuje dostatečné podrobnosti?

  • Zdržení se hlasování: Zda se agent pokusil odpovědět na otázku.

Aby byla odpověď považována za vysoce kvalitní, musí splňovat všechna tato klíčová kritéria. Pokud není splněno jedno kritérium, odpověď je označena ke zlepšení. Tato metoda bodování zajišťuje, že pouze odpovědi, které jsou dokončeny i dobře podporované, obdrží nejvyšší značky. Naproti tomu odpovědi, které nejsou neúplné nebo nemají podpůrné důkazy, dostávají nižší skóre.

Porovnání významu hodnotí, jak dobře odpověď agenta odráží zamýšlený význam očekávané odpovědi. Místo zaměření na přesné formulace používá podobnost záměru, tedy porovnává myšlenky a význam za slovy, aby posoudil, jak přesně odpovídá očekávanému výsledku.

Můžete nastavit prahovou hodnotu skóre pro předávání, abyste zjistili, co představuje skóre pro předání odpovědi. Výchozí úspěšné skóre je 50. Metoda testování významu porovnáním je užitečná v případě, že odpověď lze formulovat různými správnými způsoby, ale celkový význam nebo záměr musí být stále srozumitelný.

Prahové hodnoty a míry úspěšnosti

Úspěch testovacího případu závisí na vybrané metodě testu a prahové hodnotě, kterou jste nastavili pro úspěšné skóre.

Každá testovací metoda, kromě přesné shody, poskytuje číselné skóre na základě sady hodnotících kritérií. Toto skóre odráží, jak dobře odpověď agenta splňuje tato kritéria. Prahová hodnota je bodové skóre, které odděluje úspěšnost od selhání. Můžete nastavit skóre předávání pro podobnost a porovnat význam testovacích případů.

Přesné shodování je přísná testovací metoda, která nevytváří číselné skóre. Odpověď musí přesně odpovídat, aby prošla. Výběrem prahové hodnoty pro testovací případ rozhodujete o tom, jak přísné nebo benevolentní bude hodnocení. Každá testovací metoda vyhodnocuje odpověď agenta odlišně, takže je důležité zvolit takovou, která nejlépe vyhovuje vašim kritériím hodnocení.