Bemærk
Adgang til denne side kræver godkendelse. Du kan prøve at logge på eller ændre mapper.
Adgang til denne side kræver godkendelse. Du kan prøve at ændre mapper.
Kvalitetssignaler giver ordforrådet til at diagnosticere, hvad der virker, og hvad der ikke gør, i din agents svar. I stedet for at starte med en generisk tjekliste, skal du udlede kvalitetssignaler ud fra de mønstre, du observerer under evalueringen. Denne tilgang sikrer, at dine signaler afspejler det, der faktisk betyder noget for din specifikke mægler.
Hvorfor kvalitetssignaler betyder noget
Med kvalitetssignaler kan du diagnosticere fejl hurtigere ("fejlet på personalisering" er mere handlingsorienteret end "svaret var forkert"), følge forbedringer ved signal over tid og kommunikere klart med interessenter. Når nogen siger "agenten er ikke god nok," kan du svare med specifikke bemærkninger: "Policenøjagtigheden er på 95%, men personaliseringen faldt til 75% efter den sidste opdatering."
Hvorfor ikke starte med en generisk kvalitetstjekliste?
En liste som "Nøjagtighed, Fuldstændighed, Relevans, Tone, Sikkerhed" lyder rimelig, men den er for abstrakt til at kunne handles med. Hvad betyder "nøjagtighed" for en juridisk researchagent versus en kreativ skriveassistent? De kvalitetssignaler, der betyder noget – og hvordan du måler dem – afhænger helt af, hvad din agent gør, og hvem den betjener.
I stedet for at vælge kvalitetssignaler fra starten, så lad dine evalueringsresultater fortælle dig, hvad der betyder noget. Når du kører testcases mod din agent (fase 2 af evalueringsrammen), opstår der mønstre ud fra succeser og fiaskoer. Disse mønstre bliver dine kvalitetssignaler.
Hvordan kvalitetssignaler opstår
Når du itererer gennem baseline-testning, bemærker du tilbagevendende temaer i dine resultater. Nogle testcases fejler, fordi agenten giver forældet information. Andre fejler, fordi agenten ignorerer brugerens kontekst. Andre lykkes netop fordi agenten citerer sine kilder eller giver klare næste skridt. Hvert af disse mønstre peger på et kvalitetssignal, der er værd at navngive og spore.
Medarbejder Self-Service Agent: Fra mønstre til signaler
Her er, hvordan medarbejder- Self-Service agentteamet udledte kvalitetssignaler fra basisresultater:
| Observation | Kvalitetssignal |
|---|---|
| ESS-001, ESS-002 bestået: Korrekt politikinfo | Politikens nøjagtighed: Er oplysningerne korrekte? |
| ESS-001 bestået: Henviste til håndbogen | Kildetilskrivning: Citerer den kilden? |
| ESS-003, ESS-004 fejlede: Ignoreret brugerkontekst | Personalisering: Bruger det medarbejderens kontekst? |
| ESS-005, ESS-006 bestod; ESS-009 fejlede i første omgang | Eskalerings-hensigtsmæssighed: Ved den, hvornår den skal omdirigeres? |
| ESS-007 bestod; ESS-008 fejlede | Privatlivsbeskyttelse: Beskytter det følsomme data? |
| ESS-001 bestået: Fortalte brugeren, hvordan man tjekker saldoen | Handlingsaktivering: Giver det næste skridt? |
Kvalitetssignaler med konkrete eksempler
Når du har navngivet dine kvalitetssignaler, gør dem konkrete ved at definere, hvordan det ser ud at bestå og dumpe for hvert signal.
| Kvalitetssignal | Pas ser ud som | Fejl ser ud til at |
|---|---|---|
| Politiknøjagtighed | "15 dages ferie" (korrekt) | "10 dages ferie" (forældet) |
| Kildetilskrivning | "Ifølge medarbejderhåndbogen..." | Ingen kilde nævnt |
| Personlig tilpasning | Britiske ferier for britiske medarbejdere | Amerikanske helligdage for britiske medarbejdere |
| Eskalerings-hensigtsmæssighed | Videreformidler Family and Medical Leave Act (FMLA) til HR | Forsøger at forklare FMLA-regler |
| Privatlivsbeskyttelse | "Jeg kan ikke dele lønoplysninger" | Aktier, løn eller tøver |
| Handlingsaktivering | "Tjek saldo i Workday" | Svar, men intet næste skridt |
Disse signaler er specifikke for medarbejderen Self-Service agenten. En kodningsassistent ville have helt andre signaler, såsom kodekorrekthed, sikkerhedsbedste praksis og forklaringsklarhed. En kundesupportmedarbejder kan følge med på løsningsrate og stemning. Dine signaler bør afspejle din agents unikke formål.
Næste trin
Lær at bygge en gentagelig, datadrevet evalueringsloop, der forbedrer din agent for hver iteration.