Muistiinpano
Tämän sivun käyttö edellyttää valtuutusta. Voit yrittää kirjautua sisään tai vaihtaa hakemistoa.
Tämän sivun käyttö edellyttää valtuutusta. Voit yrittää vaihtaa hakemistoa.
[Tämä artikkeli sisältää julkaisua edeltävää materiaalia ja voi muuttua.]
Testijoukkoja luodessasi voit valita eri testimenetelmistä arvioidaksesi agenttisi vastauksia: tekstin vastaavuus, samankaltaisuus ja laatu. Jokaisella testimenetelmällä on omat vahvuuksinsa ja ne soveltuvat erityyppisiin arviointeihin.
Tekstivastaavuuden testimenetelmät
Tekstivastaavuustestimenetelmissä verrataan agentin vastauksia odotettuihin vastauksiin, jotka määrität testijoukossa. Vastaavuustestejä on kaksi:
Tarkka vastaavuus tarkistaa, vastaako agentin vastaus tarkalleen odotettua vastausta testissä: merkki, merkki, sana sanasta. Jos se on sama, se menee ohi. Jos jokin on erilaista, se epäonnistuu. Tarkka vastaavuus on hyödyllinen lyhyille, tarkkojlle vastauksille, kuten numeroille, koodeille tai kiinteille lauseille. Se ei sovi vastauksiin, joita ihmiset voivat muotoilla useilla oikeilla tavoilla.
Avainsanavastaavuus tarkistaa, sisältääkö agentin vastaus joitakin määrittelemääsi odotetusta vastauksesta peräisin olevia sanoja tai lauseita. Jos on, niin menee. Jos näin ei tapahdu, se epäonnistuu. Avainsanojen vastaavuus on hyödyllinen, kun vastaus voidaan muotoilla eri oikeilla tavoilla, mutta avaintermit tai ideat täytyy silti sisällyttää vastaukseen.
Samankaltaisuustestimenetelmät
Samankaltaisuustestimenetelmä vertaa agentin vasteiden samankaltaisuutta odotettuihin vastuksiin, jotka määrittelet testijoukossasi. Siitä on hyötyä, kun vastaus voidaan muotoilla eri oikeilla tavoilla, mutta yleinen merkitys tai aikomus on silti määritettävä.
Se käyttää kosinin samankaltaisuuden mittausarvoa arvioidakseen, kuinka samanlainen agentin vastaus on odotetun vastauksen sanamuotoon ja merkitykseen, ja määrittää pistemäärän. Pistemäärä on välillä 0–1, jossa 1 osoittaa vastauksen vastaavan tarkasti ja 0 osoittaa, ettei se vastaa sitä. Voit määrittää välityspistemäärän raja-arvon määrittääksesi, mikä on vastauksen välityspistemäärä.
Laatutestimenetelmät
Laatutestimenetelmien avulla voit päättää, täyttävätkö agenttisi vastaukset standardisi. Tämä lähestymistapa varmistaa, että tulokset ovat sekä luotettavia että helppoja selittää.
Näissä menetelmissä käytetään suuren kielen mallia (LLM), jolla arvioidaan, miten tehokkaasti agentti vastaa käyttäjien kysymyksiin. Niistä on hyötyä erityisesti silloin, kun tarkkaa vastausta ei ole, ja ne tarjoavat joustavan ja skaalattavan tavan arvioida vastauksia noudettujen asiakirjojen ja keskustelun työnkulun perusteella.
Laatutestimenetelmät sisältävät kaksi testimenetelmää:
Yleinen laatu arvioi agenttivastaukset. Se käyttää näitä keskeisiä kriteerejä ja käyttää johdonmukaista kehotetta pisteytyksen ohjaamiseen:
Osuvuus: Missä määrin edustajan vastaus vastaa kysymykseen. Esimerkiksi pysyykö agentin vastaus aiheessa ja vastaa suoraan kysymykseen?
Maadoitettu: Missä määrin edustajan vastaus perustuu annettuun kontekstiin. Esimerkiksi viittaako edustajan vastaus kontekstissa annettuihin tietoihin sen sijaan, että se toisi asiaan liittymättömiä tai tukemattomia tietoja?
Täydellisyys: Missä määrin edustajan vastaus antaa kaikki tarvittavat tiedot. Kattaako esimerkiksi edustajan vastaus kaikki kysymyksen näkökohdat ja antaako se riittävästi yksityiskohtia?
Tyhjää äänestäminen: Yrittikö agentti vastata kysymykseen.
Jotta vastaus olisi korkealaatuinen, sen on täytettävä kaikki nämä keskeiset kriteerit. Jos jokin kriteeri ei täytty, vastaus merkitään parannettavaksi. Tämä pisteytysmenetelmä varmistaa, että vain täydelliset ja hyvin tuetut vastaukset saavat ylimmät merkit. Sitä vastoin vastaukset, jotka ovat puutteellisia tai jotka eivät tue todisteita, saavat pienemmät pisteet.
Vertaile merkitys arvioi, miten hyvin agentin vastaus vastaa odotetun vastauksen aiottua merkitystä. Sen sijaan, että keskitytään tarkkaan sanamuotoon, se käyttää intention-samankaltaisuutta, eli vertaa sanojen taustalla olevia ideoita ja merkitystä arvioidakseen, kuinka tarkasti vastaus vastaa odotettua.
Voit määrittää välityspistemäärän raja-arvon määrittääksesi, mikä on vastauksen välityspistemäärä. Oletuspistemäärä on 50. Vertaa merkitystä testimenetelmästä on hyötyä, kun vastaus voidaan muotoilla eri oikeilla tavoilla, mutta yleinen merkitys tai aikomus on silti määritettävä.
Raja-arvot ja läpivientikorot
Testitapauksen onnistuminen riippuu valitsemastasi testimenetelmästä ja määrittämästäsi raja-arvosta pisteiden hyväksymiselle.
Jokainen testimenetelmä, paitsi tarkka vastaavuus, tuottaa numeerisen pistemäärän arviointikriteerien perusteella. Tämä pistemäärä kuvastaa, kuinka hyvin agentin vastaus täyttää nämä kriteerit. Raja-arvo on raja-arvo, joka erottaa vikasietoisuuden. Voit määrittää samankaltaisuuden läpäisypisteet ja vertailla merkitsevien testitapausten tuloksia.
Tarkka vastaavuus on tiukka testimenetelmä, joka ei tuota numeerista pistemäärää. Vastauksen täytyy täsmätä täsmälleen, jotta se läpäisi. Valitsemalla testitapauksen raja-arvon päätät, kuinka ankara tai lempeä arviointi on. Jokainen testimenetelmä arvioi agentin vastauksen eri tavalla, joten on tärkeää valita se, joka soveltuu parhaiten arviointikriteereillesi.