Sdílet prostřednictvím


Plánujte a vytvořte test výkonu konverzačního agenta

Konverzační agenti vytvoření ve studiu Copilot běží na platformě, která se automaticky škáluje a podporuje rostoucí poptávku a zátěž. Konverzační agenti však často používají vlastní logiku nebo volání backendových API, což způsobuje latenci, protože vlastní logika je neefektivní nebo základní API a backendové systémy nejsou dobře škálovatelné.

Testování výkonu hodnotí výkon a stabilitu agenta při různých vzorcích zatížení. Identifikuje možné problémy s růstem uživatelské základny, čímž zajišťuje, že agent zůstává funkční a pohotový. Pokud netestujete konverzačního agenta pod zátěží, může během vývoje a testování fungovat dobře, ale při skutečném uživatelském provozu selhat.

Než se pustíte do technických aspektů testování výkonu, definujte kritéria přijetí, která zachycují požadovaný uživatelský zážitek, a identifikujte konverzační případy použití, které generují odlišné vzorce zatížení. Tento článek stručně pokrývá fázi plánování testování výkonu a poskytuje pokyny k technickým specifikům generování zátěže pro vaše konverzační agenty.

Naplánujte si svůj výkonnostní test

Plán výkonnostního testu by měl mít definovaný cíl a konkrétní kritéria přijetí. Například některé testy měří výkon systému při standardním zatížení, zatímco jiné generují extrémnější stres, který záměrně způsobuje, že systém přestane reagovat. Při měření výkonu konverzačních agentů vytvořených v Copilot Studio navrhněte testy tak, aby měřily buď základní výkon agenta, nebo očekávanou velkou zátěž, ale nekonfigurujte testy tak, aby generovaly nadměrný stres.

Výstraha

Generované zatížení, které překračuje očekávané chování uživatele, může vést k překročení spotřeby zpráv a nechtěnému omezení prostředí. Aby se předešlo zpomalování a překročení spotřeby, ujistěte se, že:

  • Vaše testy napodobují realistické chování uživatelů.
  • Váš tenant a prostředí mají přidělené dostatečné licence a fakturační politiky.

Pochopte chování uživatelů

Začněte svůj testovací plán analýzou toho, jak se očekává, že se uživatelé budou chovat napříč různými konverzačními případy. Z pohledu zátěžového testování se chování uživatelů může lišit podle případů použití, pokud jde o to, co říkají nebo ptají (například "Chci si rezervovat let" nebo "Jaká je vaše politika vrácení zboží?"), počet uživatelů, kteří řídí konkrétní případ použití, a vzorce zapojení uživatelů (například uživatelé se připojují najednou v poledne versus postupné narůstání během dne).

Následující tabulka popisuje očekávané chování uživatelů u bankovního konverzačního agenta.

Případ použití Běžné uživatelské výroky Vzorec zapojení
Žádost o půjčku Potřebuji novou půjčku
, chtěla bych požádat o novou půjčku
...
Průměrně 1 000 současných uživatelů během dne
Dotaz na vyvážení Jaký mám zůstatek na účtu?
Ukaž mi zůstatek
na účtu...
10 000 současných uživatelů, všichni se připojují kolem poledne
Další případy použití

Vytvoření testovacího plánu

Poté, co definujete chování uživatelů z hlediska případů použití a vzorců zapojení, zamyslete se nad konkrétními aspekty svého plánu testu výkonu. Minimálně by měl plán výkonnostního testu pro konverzačního agenta specifikovat cíl, testovací scénáře, klíčové ukazatele výkonnosti, podrobná testovací data a kritéria úspěchu.

Pokud váš tým již definoval konverzační scénáře pro hodnocení, ať už vytvářením testovacích případů přímo v produktu nebo pomocí sady Copilot Studio, můžete tyto scénáře znovu použít k zahájení tvorby testovacího plánu.

Následující příklad testovacího plánu je pro bankovního konverzačního agenta. Plán využívá konverzační případy použití, které byly dříve identifikovány, k definování základního testovacího scénáře a scénáře zátěžového testování. Testování základní hodnoty hodnotí běžný výkon, identifikuje problémy při běžném používání, zatímco větší zátěž může odhalit, jak systém zvládá špičkovou uživatelskou aktivitu.

Oddíl Podrobnosti
Objective Vyhodnoťte výkon bankovního konverzačního agenta za základních a zátěžových podmínek
Scope V rozsahu: Základní a zátěžové testování
Mimo rozsah: Zátěžové testování
Klíčové ukazatele výkonu (KPI)
  • Doba odezvy: Doba odpovědí na dotazy uživatelů
  • Míra chybovosti: Procento neúspěšných odpovědí
Testovací scénáře Základní testování
  • Žádost o půjčku
    • Zatížení uživatele: 1 000 současných uživatelů
    • Délka: 15 minut.
Zátěžové testování
  • Žádost o půjčku
    • Zatížení uživatele: 1 000 současných uživatelů
    • Délka: 15 minut.
  • Dotaz na vyvážení
    • Zatížení uživateli: 10 000 současných uživatelů
    • Délka: 5 minut
Testovací data
  • Žádosti o půjčku vícenásobné výroky
  • Výroky s dotazem na rovnováhu s více otáčkami
Tools
  • Nástroj pro testování výkonu: Apache JMeter
  • Reportáž: Vestavěné zprávy JMeter
Kritéria úspěchu
  • Základní hodnota: 95% odpovědí do 2 sekund; Míra <chybovosti 0,5%
  • Zatížení: 90% odpovědí za 3 sekundy; Míra <chybovosti 1%

Spolupracujte s technickými a obchodními zainteresovanými stranami na vytvoření testovacího plánu, který bude vyhovovat potřebám vaší organizace. Souhlasím s klíčovými parametry uvedenými v příkladu. Naučte se používat nástroje jako Apache JMeter pro tvorbu testovacích skriptů v referenčním vzorku a pokynech pro výkonnostní testy.

Simulujte vícetahové rozhovory

Testovací data uvedená v plánu naznačují, že plánovaný výkon testu vede vícetahové konverzace. Vícestupňové konverzace jsou série vzájemně vyměňovaných zpráv mezi simulovanými uživateli a konverzačním agentem. Výkonnostní testy by měly vést vícekolové konverzace tak, aby generované zatížení připomínalo skutečné chování uživatele. Také některé dlouhodobé akce nebo volání API se vyvolávají pouze tehdy, když uživatelé provedou konkrétní sérii voleb nebo odesílají specifický vzor zpráv v rámci konverzace.

V následujícím příkladu backendové API banky vyvolá pouze poté, co uživatel zvolí spořicí účet. Doba odezvy na první zprávu je kratší než sekunda, protože je zapojen pouze nástroj pro rozpoznávání záměru agenta. Poslední zpráva čeká na odpověď z backendového API, což přináší zvýšenou latenci. Bez simulace vícekolového rozhovoru by se problémy s výkonem neobjevily.

Screenshot testovacího skriptu simulujícího vícetahový rozhovor, zobrazující uživatelské vstupy a odpovědi agentů s různými reakčními časy.

Simulace vícetahových konverzací vyžaduje plánování jak při přípravě testovacích dat, tak při tvorbě testovacích skriptů. Zahrňte do testovacích dat sérii uživatelských výroků, které vyvolávají kompletní konverzační toky, jak je ukázáno v příkladu. Ujistěte se, že vaše testovací skripty posílají více výroků v rámci jedné konverzace.