Vyberte metody hodnocení

Při vytváření testovacích sad vybírejte z různých testovacích metod pro hodnocení odpovědí vašeho agenta. Každá testovací metoda má své silné stránky a vyhovuje různým typům hodnocení.

Testovací metoda Vyhodnocení Typ testovací sady Vyhodnocování Konfigurace
Obecná kvalita Jak dobré jsou reakce testovacích případů na základě specifických vlastností Jedna odpověď nebo konverzace Ohodnoceno ze 100 % Nic
Porovnejte význam Jak dobře význam odpovědi testovacího případu odpovídá očekávané odpovědi Jedna odpověď Ohodnoceno ze 100 % Úspěšné hodnocení, očekávaná odpověď
Využití schopností Bez ohledu na to, jestli testovací případ použil všechny nebo jakékoli očekávané prostředky Jedna odpověď Úspěšné/neúspěšné Očekávané schopnosti
Shoda klíčových slov Zda testovací případ použil všechna nebo některá očekávaná klíčová slova či fráze Jedna odpověď nebo konverzace Úspěšné/neúspěšné Očekávaná klíčová slova nebo fráze
Podobnost textu Jak dobře text odpovědi testovacího případu odpovídá očekávané odpovědi Jedna odpověď Ohodnoceno ze 100 % Úspěšné hodnocení, očekávaná odpověď
Přesná shoda Zda odpověď testovacího případu přesně odpovídá očekávané odpovědi Jedna odpověď Úspěšné/neúspěšné Očekávaná odpověď
Vlastní Jestli odpověď testovacího případu splňuje vaše definovaná kritéria nebo očekávání. Jedna odpověď nebo konverzace Prospěch/neprospěch (splňuje definovaná kritéria štítku) Název, pokyny k vyhodnocení, popisky

Přidání testovací metody

  1. Při vytváření nebo úpravě testovací sady vyberte Přidat testovací metodu.

  2. Vyberte všechny metody, které chcete testovat, a pak zvolte OK. Můžete přidat více metod.

    1. Některé metody vyžadují úspěšné hodnocení. Průchozí skóre určuje, které skóre vede k úspěchu nebo neúspěchu. Nastavte skóre a pak vyberte OK.

    2. Některé testovací metody vyžadují více kritérií.

  3. Vyberte Uložit pro uložení změn do testovací sady.

Vyberte existující testovací metodu pro úpravu kritérií této metody nebo ji smažte.

Obecná kvalita

K dispozici pro sady s jednotlivými odpověďmi a sady testů konverzace. Obecná kvalita vám pomůže rozhodnout, zda odpovědi vašeho makléře splňují vaše standardy. Používá rozsáhlý jazykový model (LLM) k vyhodnocení toho, jak efektivně agent odpovídá na otázky uživatelů.

Obecná kvalita je obzvlášť užitečná, když se neočekává přesná odpověď. Nabízí flexibilní a škálovatelný způsob hodnocení odpovědí na základě získaných dokumentů a průběhu konverzace.

Používá tato klíčová kritéria a používá konzistentní prompt pro vedení skórování:

  • Relevance: Do jaké míry odpověď agenta řeší otázku. Zůstává odpověď agenta u tématu a přímo odpovídá na otázku?

  • Zemnění: Do jaké míry je odpověď agenta založena na zadaném kontextu. Například, odkazuje odpověď agenta na informace uvedené v kontextu nebo se na ně spoléhá, místo aby uváděla nesouvisející nebo nepodložené informace?

  • Úplnost: Do jaké míry odpověď agenta poskytuje všechny potřebné informace. Například, pokrývá odpověď agenta všechny aspekty otázky a poskytuje dostatečné podrobnosti?

  • Zdržení se hlasování: Zda se agent pokusil odpovědět na otázku.

Aby byla odpověď považována za vysoce kvalitní, musí splňovat všechna tato klíčová kritéria. Pokud není splněno jedno kritérium, odpověď je označena ke zlepšení. Tato metoda bodování zajišťuje, že pouze odpovědi, které jsou dokončeny i dobře podporované, obdrží nejvyšší značky. Naproti tomu odpovědi, které nejsou neúplné nebo nemají podpůrné důkazy, dostávají nižší skóre.

Při přidávání nebo úpravě testovacích metod vyberte Obecnou kvalitu. Všechny testovací sady začínají touto metodou ve výchozím nastavení.

Nemusíte přidávat očekávané odpovědi do testovacích případů, abyste dokončili obecné hodnocení kvality.

Poznámka:

Snížení počtu znalostních zdrojů pro agenta nezaručuje zlepšení celkového hodnocení kvality při hodnocení agenta. Toto omezení existuje, protože načtené znalosti (které model považuje za relevantní pro konkrétní testovací případy) mohou být příliš velké.

Porovnejte význam

K dispozici pro testovací sady s jednou odpovědí. Porovnání významu hodnotí, jak dobře odpověď agenta odráží zamýšlený význam očekávané odpovědi. Místo zaměření na přesné formulace používá podobnost záměru, tedy porovnává myšlenky a význam za slovy, aby posoudil, jak moc odpovídá tomu, co jste očekávali.

Stejně jako obecná kvalita, porovnání významu je obzvlášť užitečné, když se neočekává přesná odpověď. Nabízí flexibilní a škálovatelný způsob hodnocení odpovědí na základě získaných dokumentů a průběhu konverzace.

Můžete nastavit prahovou hodnotu skóre pro předávání, abyste zjistili, co představuje skóre pro předání odpovědi. Výchozí úspěšné skóre je 50. Metoda testování významu porovnáním je užitečná v případě, že odpověď lze formulovat různými správnými způsoby, ale celkový význam nebo záměr musí být stále srozumitelný.

  1. Při přidávání nebo úpravě testovacích metod vyberte Porovnat význam.

  2. Nastavte požadované skóre pro úspěch pro tuto metodu.

  3. Přidejte očekávané odpovědi. Jakýkoli testovací případ bez očekávaných odpovědí způsobí pro tuto metodu testu neplatný výsledek.

    1. Vyberte testovací případ.

    2. Přidejte odpověď, kterou očekáváte.

    3. Vyberte Přihlásit se pro uložení očekávané odpovědi.

    4. Opakujte to pro všechny testovací případy, které chcete otestovat touto metodou.

Použití nástroje

K dispozici pro testovací sady s jednou odpovědí. Použití schopnosti testuje, zda agent použil konkrétní nástroje nebo témata k generování odpovědi. Pokud ano, tak to přejde. Pokud ne, selže.

  1. Při přidávání nebo úpravách testovacích metod vyberte Použít nástroj.

  2. Přidejte očekávané nástroje nebo témata. Jakýkoli testovací případ bez očekávaných odpovědí způsobí pro tuto metodu testu neplatný výsledek.

    1. Vyberte testovací případ. Pokud chcete přidat stejné očekávané nástroje a témata pro všechny testovací případy, vyberte ikonu Upravit v záhlaví sloupce.

    2. V podokně Upravit testovací případ vyberte nástroje, které očekáváte, že váš agent bude pro tento testovací případ používat.

    3. Vyberte OK.

    4. Chcete-li uložit změny, vyberte Použít .

    5. Opakujte pro všechny testovací případy, které chcete otestovat pro použití nástrojů.

Shoda klíčových slov

K dispozici pro sady s jednotlivými odpověďmi a sady testů konverzace. Shoda klíčových slov kontroluje, zda odpověď agenta obsahuje některá nebo všechna slova či fráze z očekávané odpovědi, kterou definujete. Pokud ano, projde. Pokud ne, selže.

Můžete si vybrat, zda pass vyžaduje některá klíčová slova, nebo všechny . Volba libovolného znamená, že pokud alespoň jedno slovo nebo fráze souhlasí, testovací případ projde. Volba Vše znamená, že všechna očekávaná slova nebo fráze musí odpovídat, aby testovací případ prošel.

  1. Při přidávání nebo úpravě testovacích metod vyberte shodu klíčových slov.

  2. Zvolte, zda testovací případ potřebuje , aby se shodovala libovolná nebo všechna klíčová slova.

  3. Přidejte očekávaná klíčová slova. Jakýkoli testovací případ bez očekávaných klíčových slov vytvoří neplatný výsledek pro tuto testovací metodu.

    1. Vyberte testovací případ.

    2. V podokně Upravit testovací případ přidejte klíčové slovo nebo frázi, které očekáváte, že odpověď daného případu bude mít.

    3. Pokud chcete přidat další klíčová slova nebo fráze, vyberte + Přidat . Pokud chcete odebrat klíčové slovo nebo frázi, vyberte ikonu Odstranit .

    4. Vyberte Použít pro uložení očekávaných klíčových slov.

    5. Opakujte to pro všechny testovací případy, které chcete otestovat na shodu klíčových slov.

Podobnost textu

K dispozici pro testovací sady s jednou odpovědí. Metoda testu podobnosti textu porovnává podobnost odpovědí agenta s očekávanými odpověďmi, které definujete v testovací sadě. Je užitečné, když odpověď může být frázována různými správnými způsoby, ale celkový význam nebo záměr se stále musí projít.

Pomocí metriky kosinusové podobnosti posuzuje, jak je odpověď agenta podobná formulaci a významu očekávané odpovědi a určuje skóre. Skóre se pohybuje v rozmezí od 0 do 1, kde 1 označuje, že odpověď úzce odpovídá, a 0 znamená, že ne. Můžete nastavit prahovou hodnotu skóre pro předávání, abyste zjistili, co představuje skóre pro předání odpovědi.

  1. Při přidávání nebo úpravě testovacích metod vyberte podobnost textu.

  2. Nastavte požadované skóre pro úspěch pro tuto metodu.

  3. Přidejte očekávané odpovědi. Jakýkoli testovací případ bez očekávaných odpovědí způsobí pro tuto metodu testu neplatný výsledek.

    1. Vyberte testovací případ.

    2. Přidejte odpověď, kterou očekáváte.

    3. Vyberte Přihlásit se pro uložení očekávané odpovědi.

    4. Opakujte to pro všechny testovací případy, které chcete otestovat touto metodou.

Přesná shoda

K dispozici pro testovací sady s jednou odpovědí. Přesná shoda kontroluje, jestli odpověď agenta přesně odpovídá očekávané odpovědi v testu: znak pro znak, slovo pro slovo. Pokud je to stejné, projde to. Pokud se něco liší, selže. Přesná shoda je užitečná pro krátké, přesné odpovědi, jako jsou čísla, kódy nebo pevné fráze. Neodpovídá tomu, že by lidé mohli frázovat několika správnými způsoby.

  1. Při přidávání nebo úpravě testovacích metod vyberte Přesná shoda.

  2. Přidejte očekávané odpovědi. Jakýkoli testovací případ bez očekávaných odpovědí způsobí pro tuto metodu testu neplatný výsledek.

    1. Vyberte testovací případ.

    2. Přidejte odpověď, kterou očekáváte.

    3. Vyberte Přihlásit se pro uložení očekávané odpovědi.

    4. Opakujte to pro všechny testovací případy, které chcete otestovat touto metodou.

Vlastní

Přizpůsobitelný je přizpůsobitelná testovací metoda. Umožňuje testovat a označovat odpovědi agenta pomocí vlastních kritérií. Můžete například vytvořit test dodržování předpisů pro agenta personálního oddělení, který označí odpovědi jako vyhovující nebonedodržující předpisy s popisem dodržování předpisů personálního oddělení.

Vlastní test má dvě komponenty, které můžete nakonfigurovat:

Pokyny pro vyhodnocení: Popisuje cíl, který chcete s tímto testem provést. Co chcete, aby test zjistil o odpovědích vašeho agenta?

Dobré pokyny pro vyhodnocení by měly:

  • Buďte zaměřeni na cíle.

  • Používejte pouze povolené znaky.

  • Pro organizaci používejte odrážky a nadpisy.

Příklad:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Popisky: Popisuje výsledek přiřazený jednotlivým odpovědím pomocí vlastního testu. Štítky mají také přiřazení pass/fail, která se započítávají do úspěšnosti testovacího souboru pro tuto testovací metodu.

Popisky mají název a popis. Dobrý popis:

  • Je stručná.

  • Obsahuje atributy, které hledáte v odpovídajících odpovědích.

Jednou ze strategií pro označení je mít dvě: jedna je pro odpovědi, které úspěšně splňují kritéria, která hledáte, a druhá pro odpovědi, které ne. Například vlastní test dodržování zásad lidských zdrojů může mít jako popisky vyhovující předpisy a nedodržování předpisů .

  1. Při přidávání nebo úpravách testovacích metod vyberte Vlastní.

  2. Zadejte název tohoto vlastního testu.

  3. Přidejte pokyny pro vyhodnocení.

  4. Přidejte dva nebo více popisků. Každý popisek má název a popis.

    Pokud chcete přidat další popisky, vyberte Přidat popisek.

    Názvy štítků mohou používat pouze písmena, číslice, mezeru, spojovník -, podtržítko _, lomítko /, ampersand &, znaménko plus + a tečku ..

  5. Nastavte výsledek pass nebo fail pro každý popisek.

  6. Vyberte OK.