Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Az ügynökértékelésnek iteratív folyamatnak kell lennie az ügynök megálmodási és tervezési fázisától kezdve, valamint az ügynök üzembe helyezésén és regresszió észlelésén keresztül. Ez a sablon tartalmazza az értékelési tesztkészletek készítésének alapvető elemeit, valamint azt, hogy hogyan implementálható és iterálható egy négyfázisú struktúra az ügynök életciklusa során.
- 1. szakasz: Alapszintű kiértékelési tesztkészletek létrehozása
- 2. szakasz: Alapkonfiguráció létrehozása és továbbfejlesztése
- 3. szakasz: Szisztematikus bővítés megvalósítása
- 4. szakasz: Folyamatos minőségjavítási értékelési művelet létrehozása
Tip
Töltse le a szerkeszthető ellenőrzőlista-sablont.
1. szakasz: Alapszintű kiértékelési tesztkészletek létrehozása
Cél: Hozzon létre és futtasson egy alapszintű kiértékelési tesztkészletet, amely értékeli az ügynök alapvető forgatókönyveit.
A kiértékelési tesztkészlet a tesztelési esetek egy csoportja. A teszteset egy önálló prompt–válasz pár, amely egy ügynök adott kérdésre adott válaszának értékelésére szolgál. Tartalmaz egy tesztüzenetet és egy opcionális elvárt választ (helyességi feltételt), amely közvetlenül az ügynök utasítási követelményéből nyilvánul meg. Egy tesztesetben meg kell adni a minőség értékeléséhez az elfogadási feltételeket és a vizsgálati módszert is.
| Ügynökforgatókönyv1 | Tesztkérés (Példa kérdésutasítás az ügynök számára) |
Várt válasz | Elfogadási feltételek2 (Határozza meg, hogy hogyan néz ki egy sikeres válasz: Mi halad át, és mi nem) |
|---|---|---|---|
| Az ügynöknek a szabályzattal kapcsolatos tudáscikk alapján kell válaszolnia a szabályzat tartalmára. | "Hány betegszabadságot kap egy alkalmazott?" | „30 nap. <citation>" | A válasznak tartalmaznia kell a szabályzat ismeretéből és a szövegegyezésből származó pontos szöveget. A válasznak tartalmaznia kell egy idézetet. |
| Az ügynök nem válaszol a szabályzattal kapcsolatos tudáscikken túli kérdésekre. Közvetlen válaszok HR-es munkatársaktól. | "Hány betegszabadságot kap egy alkalmazott?" | "A szabályzatdokumentum nem határozza meg a betegszabadság napjait. Forduljon a HR-hez a betegszabadságra vonatkozó szabályzattal kapcsolatban." | A tiltott esetekre adott választ emberi HR-munkatárshoz kell továbbítani. |
Tip
1Ügynökforgatókönyv: Az alapszintű tesztkészletnek tartalmaznia kell az ügynök fő forgatókönyveit vagy használati eseteit lefedő teszteseteket. Használja az ügynökforgatókönyvet útmutatásként, és összpontosítson arra, hogy az ügynök mit kíván kezelni vagy elkerülni. Ez a folyamat segít összeállítani a tesztüzenetek célzott listáját, és szorosan össze kell hangolni az ügynök utasításainak kidolgozásával. A megfelelő számú tesztelési eset meghatározásához kezdjen egy tesztkéréssel az egyes kulcsfontosságú forgatókönyvekhez. Kezdje egy kis tesztesetekkel, majd iterálja és finomítsa az elemzéseket, és javítsa a lefedettséget.
2Elfogadási kritériumok: Egyértelműen határozza meg, hogy mi számít sikernek. Ez a definíció elsőre kihívást jelenthet, ezért fontolja meg a feltételek iteráción keresztüli finomítását. Futtassa a tesztkérdést, tekintse át a választ, és értékelje ki a minőségét a következő kérdésre válaszolva : Válaszol a fő kérdésre? A megfelelő információkat használja? Megfelelő a hangnem és a stílus? Tiszteletben tartja a megosztási engedélyeket? Az ezekből a kérdésekből származó megállapítások segítenek meghatározni az elfogadási feltételeket, és szükség esetén a várt választ.
2. szakasz: Alapkonfiguráció létrehozása és továbbfejlesztése
Cél: Kiértékelések futtatása és alapmetrikák létrehozása a teljesítményértékeléshez és a fejlesztéshez.
Manuálisan is elvégezheti a kiértékelési műveleteket, vagy speciális eszközöket használhat. Manuális kiértékeléshez küldje el a tesztkérést az ügynöknek, tekintse át a választ, használjon emberi ítéletet annak megállapításához, hogy megfelel-e az elfogadási feltételeknek, és rögzítse az eredményt. Microsoft eszközöket kínál az ügynökértékeléshez, beleértve a Copilot Studio ügynökértékelési funkciót.
Az alapkonfiguráció létrehozása
- Futtassa az alapvető tesztkészletet az ügynökkel szemben.
- Dokumentálja minden tesztesethez, hogy sikeres vagy sikertelen.
- A teljes átviteli sebesség kiszámítása: ______%.
- Jegyezze fel az ügynökprogram verzióját és az alapdátumot: ___________.
Alapvető okok elemzése és iterációja
A további elemzéshez tekintse át a kiértékelési eredményeket a hamis pozitív és a valódi negatív értékek azonosításához. A hamis pozitív olyan válasz, amelyet megfelelőnek jelöltek, de emberi megítélés alapján meg kellene buknia. A valódi negatív a hibaként helyesen azonosított válasz. A sikertelen esetek értékelése két szemszögből:
- Teszteset-probléma: A tesztkérés, a várt válasz vagy az elfogadási feltételek okozzák a hibát?
- Ügynöktervezési probléma: A hiba nem egyértelmű ügynökutasítást, illetve a tudás vagy eszközkonfiguráció hibáit jelzi?
Azonosítsa a kiváltó okot, és javítson a helyzeten a teszteset finomításával vagy az ügynök tervezésének javításával.
Tip
Kiértékelési pontszám: Az ügynökök a valószínűségükből adódóan eltérő válaszokat hozhatnak létre ugyanarra a kérdésre. Ez a változékonyság azt eredményezheti, hogy a válaszok attól függően felelnek meg vagy buknak el, hogy mennyire szigorúak az elfogadási kritériumok. A megbízható értékelés érdekében futtassa az egyes tesztkészleteket többször, és számítsa ki az átlagos sikerességi arányt. Az üzleti igényei alapján tűzzön ki reális, 80–90%-os sikerességi arányt.
3. szakasz: Szisztematikus bővítés megvalósítása
Cél: Átfogó kiértékelési csomagok létrehozása különböző ügynökminőség-kategóriákhoz.
Az 1. és a 2. fázis létrehozta az ügynök elsődleges használati eseteinek alapszintű tesztkészletét. Ezután bővítse ki az értékelést olyan tesztkészletek létrehozásával, amelyek értékelik a különböző ügynökminőségi kategóriákat. Az alábbi lista olyan kategóriákat javasol, amelyek a minőség különböző aspektusait kezelik.
| Minőségi kategória | Cél |
|---|---|
| Alaprendszer | A „kötelezően teljesítendő” halmaz. Méri az alapvető válaszminőséget az üzembe helyezéskor, és elvégzi a regresszió észlelését a működés során. |
| Ügynök robusztussága | Egy ügynök egyik fő előnye a hagyományos szoftverrel szemben, hogy robusztusan kezeli a különböző felhasználási eseteket. Ez az érték a következőket tartalmazhatja:
|
| Architektúrateszt | Értékelje ki az ügynök működési teljesítményét. A dimenziók a következők lehetnek:
|
| Határesetek | Hogyan kezelje az ügynök a szélső eseteket védőkorlátok mellett.
|
Tip
Kategória célhivatkozása:
- A mag meghibásodik: Valami meghibásodott vagy nem működik. Vizsgálja meg a legutóbbi módosításokat.
- A robusztusság sikertelen: Az ügynök túl szigorú. Lehet, hogy túlságosan az adott kifejezésekre összpontosít.
- Az architektúra sikertelen: Egy adott összetevőt vagy munkafolyamatot hibakeresésre van szükség.
- A határesetek kudarcot vallanak: A korlátok javításra szorulnak. Erősítse meg a határokat.
4. szakasz: Folyamatos minőségjavítási értékelési művelet létrehozása
Cél: Folyamatos kiértékelési monitorozás létrehozása az ügynök minőségének fenntartása érdekében a működés során.
Miután üzembe helyez egy ügynököt az éles környezetben, az stabil állapotba kerül. A minőség fenntartása és a termékváltozások (például modellfrissítések vagy tudásrendszer-frissítések) vagy a folyamatosan változó használati esetek regresszióinak vagy problémáinak gyors észlelése érdekében állítson be egy folyamatban lévő kiértékelési műveletet. Ütemezzen rendszeres kiértékelési futtatásokat, vagy aktiválja őket adott események alapján a minőségbiztosítás érdekében.
- Állítson be egy rendszeres kiértékelési karbantartási ütemezést.
- Javasolt teljes csomag-kiértékelési triggerek:
- Modell módosítása
- Főbb tudásbeállítási frissítés
- Új eszköz- vagy összekötőintegrációk
- Éles incidens
Tip
Sikermutató: Sikeresen üzembe helyezheti, ha konkrétumokkal válaszolhat az érdekelt felekkel kapcsolatos aggodalmakra ahelyett, hogy a következőt mondaná: "Az ügynök úgy tűnik, rendben van."
Ön ezt mondja: "A szabályzatnak való megfelelés 98%-on áll, de a személyre szabás 87%-ra csökkent – pontosabban a szolgálati időn alapuló szabályzatok nincsenek alkalmazva." Azonosítottuk a kiváltó okot, és iterálunk."