Sdílet prostřednictvím


Automatizace testování s vyhodnocováním agentů

[Tento článek představuje předběžnou dokumentaci a může se změnit.]

Jak agenti AI přebírají klíčové role v obchodních procesech, stává se potřeba spolehlivého a opakovatelného testování nezbytná. Hodnocení agentů vám umožní generovat testy , které simulují reálné scénáře pro vašeho agenta. Tyto testy pokrývají více otázek rychleji než manuální, případ od případu testování. Poté můžete měřit přesnost, relevanci a kvalitu odpovědí na otázky, které agent dostává, na základě informací, ke kterým má agent. Použitím výsledků z testovací sady můžete optimalizovat chování svého agenta a ověřit, že splňuje požadavky na vaše podnikání a kvalitu.

Důležité

Tento článek obsahuje dokumentaci k funkcím Preview v řešení Microsoft Copilot Studio a může se změnit.

Funkce ve verzi Preview nejsou určené pro produkční použití a můžou mít omezené funkce. Jsou to funkce, které jsou poskytnuté před oficiálním vydáním, abyste si je mohli co nejdříve vyzkoušet a napsat nám své názory.

Pokud vytváříte agenta připraveného do provozního prostředí, podívejte se do tématu Přehled řešení Microsoft Copilot Studio.

Proč používat automatizované testování?

Hodnocení agentů poskytuje automatizované, strukturované testování. Pomáhá to včas odhalit problémy, snižuje riziko špatných odpovědí a udržuje kvalitu, jak se agent vyvíjí. Tento proces přináší automatizovanou, opakovatelnou formu zajištění kvality do testování agentů. Zajišťuje, že makléř splňuje standardy přesnosti a spolehlivosti vašeho podniku a poskytuje transparentnost ohledně jeho výkonu. Má jiné silné stránky než testování, když použijete testovací chat.

Hodnocení agentů měří správnost a výkon, nikoli problémy s etikou nebo bezpečností AI. Agent může projít všemi hodnotícími testy, ale přesto například odpoví nevhodně na otázku. Zákazníci by měli stále používat odpovědné recenze AI a filtry bezpečnosti obsahu; Hodnocení tyto recenze a filtry nenahrazují.

Jak funguje hodnocení agentů

Copilot Studio používá testovací případ pro každé hodnocení agenta. Testovací případ je jediná zpráva nebo otázka, která simuluje to, co by uživatel položil vašemu agentovi. Testovací případ může také obsahovat odpověď, kterou očekáváte , že vám agent odpoví. Například:

  • Otázka: Jaké máte pracovní hodiny?

  • Očekávaná reakce: Jsme otevřeni od 9:00 do 17:00 od pondělí do pátku.

Pomocí vyhodnocení agentů můžete generovat, importovat nebo ručně napsat skupinu testovacích případů. Tato skupina testovacích případů se nazývá testovací množina. Testovací sada vám umožňuje:

  • Spusť více testovacích případů, které pokrývají širokou škálu schopností najednou, místo toho, abys se svého agenta ptal na jednu otázku po druhé.

  • Analyzujte výkon svého agenta pomocí snadno stravitelného souhrnného skóre a také se zaměřte na jednotlivé testovací případy.

  • Testujte změny u svých agentů pomocí stejné testovací sady, abyste měli objektivní standard pro měření a porovnání změn ve výkonu.

  • Rychle vytvořte nové testovací sady nebo upravte stávající tak, aby pokrývaly měnící se schopnosti nebo požadavky agentů.

Testovací sada také obsahuje testovací metody , které chcete použít. Výkon svého makléře můžete měřit na základě:

Můžete si také vybrat uživatelský profil, který bude fungovat jako uživatel posílající otázky. Agent může být nakonfigurován tak, aby reagoval na různé uživatele různými způsoby, nebo umožňoval přístup ke zdrojům různými způsoby.

Když vyberete testovací sadu a provedete hodnocení agenta, Copilot Studio odešle otázky z testovacích případů, zaznamená odpovědi agenta, porovná tyto odpovědi s očekávanými odpověďmi nebo standardem kvality a každému testovému případu přiřadí skóre. Můžete také vidět detaily, přepis a mapu aktivit pro každý testovací případ a jaké zdroje váš agent použil k vytvoření odpovědi.

Testovací chat versus hodnocení agentem

Každá metoda testování vám poskytne odlišný vhled do vlastností a chování vašeho agenta:

Testovací chat:

  • Přijímá a odpovídá na jednu otázku po druhé. Je těžké opakovat stejné testy opakovaně.

  • Umožňuje vám otestovat celou relaci obsahující více zpráv.

  • Umožňuje vám komunikovat s vaším agentem jako uživatelem pomocí chatovacího rozhraní.

Hodnocení agenta:

  • Lze vytvářet a spouštět více testovacích případů najednou. Testy můžete opakovat se stejnou sadou testů.

  • Lze testovat pouze jednu otázku a jednu odpověď na jeden testovací případ. Netestuje to celou konverzační seanci.

  • Vyberte různé uživatelské profily, abyste simulovali různé uživatele, aniž byste museli sami provádět interakce.

Když testujete agenta, použijte jak testovací chat, tak hodnocení agenta, abyste získali úplný obraz o agentovi.