Referencevejledning til rubrics

Denne referencevejledning indeholder detaljerede oplysninger om definitioner af karakterskalaer, formler til justeringsberegning, eksempel på rubrics til forskellige use cases, evalueringstemaer og en ordliste over nøgleord, der kan hjælpe dig med at oprette og tilpasse rubrics til evaluering af AI-genererede svar i Copilot Studio.

Klassifikationsskaladefinitioner

Brug standardskalaen for 5-punkts i alle rubrikker:

Grade	Mærkat	Definition
5	Eksemplarisk	Fuldt ud opfylder alle forventninger; professionel og poleret; der er ikke behov for forbedringer. klar til brug
4	Stærk	Opfylder alle større krav med mindre områder til forbedring; overordnet set høj kvalitet; for det meste klar
3	Acceptabelt	Opfylder minimumforventningerne, men mangler dybde eller finpudsning; funktionelt tilstrækkeligt; har brug for forbedringer
2	Svag	Indeholder meningsfulde huller i kvalitet, struktur eller relevans. har brug for en betydelig forbedring
1	Behov for forbedring	Opfylder ikke forventningerne; store problemer med nøjagtighed, relevans, tone eller fuldstændighed

Formel for justeringsberegning

Her er formlen til beregning af sammenhæng mellem AI-karakterer og menneskelige karakterer for enkelt testcases, og hvordan du analyserer retningsbestemt misalignment.

Justering af individuel testcase

For hver testcase:

Aligned = (AI Grade == Human Grade)
Misaligned = (AI Grade &ne; Human Grade)

Justeringsberegning for individuelle testcases

For hver testcase skal du beregne justeringen mellem AI-genererede svar og menneskelige forventninger ved hjælp af lineær interpolering fra 100% (perfekt match) til 0% (maksimalt anderledes).

Fortolkning:

Når AI vurdering = Menneskelig vurdering, er overensstemmelse = 100%
I takt med at lønklasseforskellen øges, reduceres justeringen lineært
Den maksimale forskel på en skala på 1-5 er 4 trin, som er knyttet til 0%

Formel:

alignment = 100% * (1 - |AI - Human| / 4)

Resultat af justeringsmatrix:

AI ↓ / Menneske →	1	2	3	4	5
1	100%	75 %	50%	25 %	0%
2	75 %	100%	75 %	50%	25 %
3	50%	75 %	100%	75 %	50%
4	25 %	50%	75 %	100%	75 %
5	0%	25 %	50%	75 %	100%

Egenskaber:

Symmetrisk: Justeringen er den samme, uanset hvilken værdi der er AI, og hvilken der er Menneske
Diagonal = 100%: Perfekt justering, når AI- og Human-karakterer matcher
Yderste kanter = 0%: Maksimal forskydning, når karaktererne er i hver sin ende af skalaen
Jævn, lineær interpolering: Justeringen reduceres ensartet, efterhånden som forskellen øges

Eksempel på beregning:

Testcases i alt med menneskelige vurderinger: 30
Testcases, hvor AI-bedømmelse = menneskelig bedømmelse: 24
Justering % = 24/30 × 100% = 80%

Retningstilpasningsanalyse

AI too lenient = Count of (AI Grade > Human Grade)
AI too strict = Count of (AI Grade < Human Grade)
Net bias = (AI too lenient - AI too strict) / Total misaligned cases

Eksempel:

AI-klassifikation > Menneskelig klassifikation: 3 sager (AI er for lempelig)
AI-klassifikation < Menneskelig klassifikation: 3 sager (AI er for streng)
Net bias = (3 -3) /6 = 0 (ingen systematisk bias)

Eksempel på rubric 1: Rapport over investorrelationer

Sådan ser et godt svar ud

Evaluer det indsendte svar i forhold til ekspertsvaret eller den forventede standard på tværs af IR-specifikke kommunikationskvaliteter:

Klarhed: Kommunikeres oplysningerne klart og logisk?
Relevans: Stemmer indholdet overens med, hvad investorerne forventer?
Fuldstændighed: Er vigtige forretningsfaktorer og målepunkter inkluderet?
Sammenhæng og fortællekvalitet: Er historien sammenhængende og læsbar?
Professionel tone: Lyder svaret som poleret IR-output?
Indsigt: Fremhæver den betydning, drivere eller risici?
Nøjagtighed i forhold til forventning: Er den i overensstemmelse med, hvad et IR-team ville overveje acceptabelt (ikke nødvendigvis faktuelt at dømme)?

Karakterdefinitioner

Sådan fortolker du skalaen 1-5 for en IR-rapport:

5: Fremragende eller professionel IR-kvalitet

Svaret:

Fuldt ud opfylder forventningerne til en IR-rapport
Velstruktureret, poleret og investorklar
Omfatter alle overordnede elementer: KPI'er (Key Performance Indicators), ydeevnefaktorer, kommentarer, fremadrettet indsigt (hvis det er relevant) og strategisk kontekst
Tone er professionel, i overensstemmelse med virksomhedens IR-stemme
Det narrative flyder logisk, med skarpe, præcise forklaringer
Ingen irrelevante detaljer. høj investor anvendelighed

4: Stærk eller høj kvalitet

Svaret:

Dækker alle større indholdsområder, der er relevante for investorer
For det meste velorganiseret med mindre huller eller mindre redundans
Tone er professionel, men måske mindre poleret end score 5
Giver nyttig indsigt og kommentarer
Nogle plads til at forbedre tæthed, klarhed eller vægt på vigtige faktorer

3: Tilstrækkelig eller opfylder mindste IR-forventninger

Svaret:

Kommunikerer korrekt og fornuftigt indhold, men mangler dybde eller finpudsning
Mangler et eller to vigtige IR-elementer (f.eks. kontekst for resultater, faktorer eller risici)
Narrative kan føles mekanisk eller generisk
Tone er acceptabel, men ikke så poleret eller investorvenlig
Giver grundlæggende oplysninger, men begrænset indsigt

2: Svag eller delvist egnet

Svaret:

Indeholder meningsfulde huller i narrativer, struktur eller relevans
Savner vigtige investorrelevante komponenter, f.eks. målepunkter, drivere eller forretningskontekst
Tone kan være inkonsekvent eller for afslappet
Organisationen kan føle sig spredt eller uklar
Giver lidt reel værdi til en investor eller IR professionel

1: Dårlig eller ikke egnet til IR-brug

Svaret:

Savner de fleste forventninger til en IR-rapport
Ustruktureret, forvirrende eller irrelevant for investorbehov
Tone er uprofessionel, alt for afslappet eller marketinglignende
Mangler målepunkter, drivere, forklaringer eller inkluderer vildledende indramning
Afspejler ikke IR-kommunikationsstandarder

Eksempel på rubric 2: Oprettelse af forretningsoversigter eller statusrapport

Sådan ser et godt svar ud

Evaluer den indsendte rapport for, hvor godt den matcher den forventede tone og typografi, herunder:

Professionalisme: Opretholder det en forretningsmæssig passende tone?
Konsistens: Forbliver tonen ensartet hele vejen igennem?
Stemmejustering: Lyder det som virksomheden, teamet eller IR-afdelingen?
Formalitet: Svarer formalitetsniveauet til rapporttypen (f.eks. IR = høj, IT ugentligt = mellem)?
Klarhed og direktehed: Er den præcis, skarp, uden fnug?
Stilistisk overholdelse: Følger den de forventede mønstre – punktopstilling, sammensætningsstil på lederniveau, brug af tidstempus og sådan?
Undgåelse af bias eller følelser: Ingen slang, hype sprog, eller marketing-lignende tone, medmindre udtrykkeligt anmodet.

Karakterdefinitioner

Sådan fortolker du skalaen 1-5 for en forretningsoversigt eller statusrapport:

5: Fremragende (konsekvent, professionel, on-brand)

Rapporten:

Bevarer en fuldt ensartet tone i hele
Matcher den forventede virksomheds-, IR- eller it-stemme præcist
Bruger professionelt, poleret, sikkert sprog
Følger typografikonventioner: Strukturerede afsnit, ryd punkttegn, målte udtryk
Undgår hype, overdrivelse, afslappethed og følelsesmæssigt sprog
Læser, som om den er skrevet af en erfaren virksomheds kommunikator

4: Stærk (mindre variationer, men høj kvalitet)

Rapporten:

Matcher den forventede tone næsten perfekt med let afdrift
Bruger primært konsistent udtryk med små pletter med overversitet eller uformelhed
Følger de fleste typografikonventioner, men kan strammes
Indeholder ikke noget uprofessionelt sprog, men bruger måske lidt generisk eller svagere udtryk

3: Tilstrækkelig (acceptabel, men ikke helt konsekvent)

Rapporten:

Viser mærkbar variation i tone på tværs af sektioner
Bruger typografi, der for det meste er korrekt, men undertiden uformel, alt for afslappet eller lidt marketinglignende
Kan afvige fra forventet firmastemme
Har acceptabel, men noget inkonsekvent struktur (blandede punkttegnsformater, ujævn formalitet)
Er stadig professionel nok til at forstå, men ikke investor- eller ledelsesklar

2: Svag (Tone problemer påvirker professionalisme)

Rapporten:

Bruger ofte inkonsistent tone. kan blande formel og afslappet sprog
Bruger samtaleudtryk eller "chatty"-udtryk, der er upassende for rapporter
Viser stilistiske uoverensstemmelser, f.eks. run-on-sætninger, rodet punktopstilling og uformelle overgange
Bruger tone, der kan opstå som marketinglignende, følelsesmæssige eller vage
Overholder ikke den forventede typografivejledning godt

1: Dårlig (ikke egnet til rapportbrug)

Rapporten:

Bruger stærkt uoverensstemmende tone, der er for afslappet, følelsesmæssig, hype-y, eller uklar
Har ingen ensartet stil og mangler struktur
Bruger tone, der underminerer troværdighed eller professionalisme
Kan omfatte slang, emojis, dramatisering eller fortællingsfortælling, der er upassende for rapporter
Læser som en afslappet mail eller et blogindlæg, ikke en formel rapport

Evalueringstemaer eller -kriterier

Almindelige evalueringsdimensioner, som du kan bruge på tværs af forskellige rubrikker. Vælg de temaer, der er mest relevante for din use case.

Evalueringskriterium	Definition	Hvornår skal du bruge?	Eksempel på brugerinput	Forventet svar
nøjagtighed	Oplysningerne er faktuelt korrekte, eller dataene kommer fra kilden til sandheden (Q&A, hentning, rapporter).	Når faktuel korrekthed er afgørende (f.eks. økonomiske data, tekniske specifikationer).	Spørgsmål med verificerbare svar (f.eks. "Hvad er RTD-politikken?")	Faktuelt korrekte svar; alle detaljer nøjagtige.
Grundighed eller trofasthed	Svaret er kun baseret på den angivne viden eller de data, der er hentet. ingen hallucinationer.	Når agenten syntetiserer eller refererer til KB-indhold.	Prompter, der kræver beviser eller citater.	Velfunderede svar med citater; ingen opdigtede fakta.
Fuldstændighed	Svar adresserer alle dele, sektioner eller trin i en opgave.	Når outputtet skal indeholde flere dele (sådan gør du, oprettelse af rapporter).	Spørgsmål eller instruktioner i flere dele (f.eks. onboarding-trin).	Svar adresserer alle påkrævede elementer.
Relevans	Oplysninger skal være specifikke for brugerforespørgslen og forblive på emnet.	Når outputomfanget skal være smalt (f.eks. en enkelt politik).	Prompter med fokuseret hensigt.	Præcise, målrettede svar; udelader ikke-relaterede oplysninger.
Konsistens	Agenten leverer det samme output til tilsvarende eller gentagne forespørgsler.	Evaluer altid for kvalitetssikring (QA), og vurder gentagelighed.	Gentagne forespørgsler.	Identiske eller næsten identiske svar.
Klarhed og sammenhæng	Outputtet er klart skrevet, logisk struktureret og let at forstå.	Altid til generering. Sikrer menneskelig læsbarhed.	En hvilken som helst meddelelse om oprettelse af indhold.	Grammatisk korrekt, sammenhængende, flydende tekst.
Terminologi eller overholdelse	Konsekvent brug af påkrævede terminologi- eller udtryksstandarder.	Når brand- eller domænesprog er vigtigt (f.eks. HR, juridisk).	Prompter, der angiver regler for navngivning eller udtryk.	Korrekte, overensstemmende vilkår.
Citat, sporing eller ansvarlighed	Agenten peger korrekt en bruger tilbage til den korrekte kilde.	Når troværdighed eller sporing er påkrævet.	Forespørgsler, der kræver evidensbaserede svar.	Citater svarer til korrekte kilder.
Formatering og præsentation	Overholder en bestemt struktur eller et bestemt layout (tabeller, sektioner).	Når agenten producerer formaterede output (f.eks. opsummeringer, rapporter).	Prompter, der kræver strukturerede output.	Korrekte overskrifter, punkttegn, layout.
Kontekst bevidsthed	Svaret er skræddersyet til brugerens person, hensigt eller forespørgselskontekst.	Til tilpassede eller kontekstafhængige forespørgsler (f.eks. rollespecifikke).	Prompter, der varierer efter rolle eller kontekst.	Kontekstspecifikke, tilpassede svar.
Hallucinationsfri	Agenten må ikke opfinde fakta ud over de angivne data.	Når kildedækningen er begrænset eller følsom.	Prompter uden for område.	"Jeg ved ikke" eller et sikkert fallback-svar.

Sådan bruger du evalueringstemaer

Sådan inkorporerer du evalueringstemaer i din rubric:

Vælg 3-5 relevante temaer til din rubric.
Definer, hvad hvert tema betyder i dit domæne.
Integrer i karakterdefinitioner (f.eks. skal Trin 5 excellerer inden for alle temaer).
Brug denne som en tjekliste, når du giver en vurdering fra en menneskelig bedømmer.

For eksempel til en IR-rapport, prioritere:

Nøjagtighed (kritisk)
Fuldstændighed (kritisk)
Klarhed og sammenhæng (vigtig)
Terminologi og overholdelse af angivne standarder (vigtigt)
Formatering og præsentation (rart at have)

Ordliste

Her er definitioner af vigtige begreber, der bruges i forbindelse med rubricafgrænsning i Copilot Studio Kit.

Agent

Copiloten eller AI-assistenten, der testes. I rubrikkens afgrænsning genererer agenten svar, som både AI-dommere og menneskelige beslutningstagere evaluerer.

AI-bedømmelse, AI-score

Den numeriske bedømmelse (1-5), som AI-dommeren tildeler baseret på rubrickriterier.

AI-begrundelse, AI-ræsonnering

Den detaljerede forklaring fra AI-dommeren (i afgrænsningstilstand) forklarer, hvorfor den tildelte en bestemt karakter, og hvilke rubrickriterier den anvendte.

Justering, forkert justering

I hvor høj grad AI-dommerens vurdering stemmer overens med den menneskelige dom.

Justering: AI-bedømmelse = Menneskelig bedømmelse (det betyder, at rubrikken fungerer efter hensigten)
Forkert justering: AI-karakter ≠ menneskelig karakter (angiver, at bedømmelseskriterier kræver forbedring)

Fuldstændighed

En måling af, om svaret fuldt ud adresserer alle dele af brugerens forespørgsel. Et komplet svar dækker hvert påkrævede element uden udeladelser.

Korrekthed, nøjagtighed

Et kriterium, der vurderer, om agentens svar er faktuelt korrekt baseret på det forventede svar eller referencesvar, autoritativ viden eller indhold, der leveres af systemet.

Detaljeret visning

En fokuseret grænseflade til gennemgang og klassificering af individuelle testcases med længere svar. Omfatter fuld samtalekontekst og faner for "Afgrænsning" (AI skjult) og "Afgrænsning (fuld)" (AI synlig).

Retningsbestemt bias

Et systematisk mønster, hvor AI-dommeren konsekvent bedømmer højere (for mild) eller lavere (for streng) end menneskelige dommere. Du kan identificere dette mønster ved at sammenligne antallet af fejljusteringer (AI > Human) i forhold til (AI < Human).

Trofasthed

Svarer til jordforbindelse, men understreger, at modellen ikke fabrikerer eller hallucinerer nye fakta ud over, hvad rubric eller forudsat kontekst tillader.

Grænsefladevisningen for rubric refinement, som viser AI-vurderinger og -rationaler sammen med menneskelige vurderinger, med justeringsindikatorer. Brug den til at sammenligne vurderinger og analysere fejljusteringsmønstre.

Generativ svar-test (GA-test)

En testtype i Copilot Studio Kit, hvor agenten genererer svar på naturligt sprog ved hjælp af generativ orkestrering, som du evaluerer i forhold til de angivne valideringsinstruktioner eller en rubric.

Godt eksempel, dårligt eksempel

Reelle testcases, som opretteren vælger for at illustrere ønskede eller uønskede svarmønstre. Eksempler omfatter testytring, agentens svar og betegnelse (god eller dårlig). Brug disse eksempler under afgrænsning af rubric for at give ai-dommeren en konkret vejledning.

Jordforbindelse

En kvalitetsmåling, der angiver, om et AI-genereret svar understøttes kraftigt af de angivne kildeoplysninger (f.eks. hentede dokumenter, systemmeddelelser eller definerede fakta). Et jordforbindelsessvar introducerer ikke oplysninger, som du ikke kan spore tilbage til en kendt autoritativ kilde.

Menneskelig dom, menneskelig anmærkning

En udviklers vurdering af en agents svar, der består af en karakter (1-5) og ræsonnering. Menneskelige vurderinger fungerer som "guldstandarden", mod hvilken man sammenligner AI-dommeres adfærd under forfining af rubrikker.

Gentage, gentagelse

En enkelt cyklus i processen til justering af rubric: kør → gennemse → bedømme → justere → gem → kør igen. Du skal typisk bruge flere gentagelser for at opnå acceptabel justering.

LLM-dommer, AI-dommer, AI-evalueringssystem

En stor sprogmodel, der bruges til at evaluere en agents svar i henhold til en rubric. Dommeren producerer en score (1-5) og eventuelt en begrundelse, der forklarer, hvordan de rubric kriterier blev fortolket og anvendt.

Størrelsen af fejljustering

Den numeriske forskel mellem AI og menneskeskabte karakterer. Afvigelse på 1 point er en lille justeringsfejl. Off med 2 eller flere punkter angiver mere betydelige problemer, der kræver afgrænsning.

Opretter

En bruger af Copilot Studio Kit, der opretter, tester og administrerer medpiloter og evaluerings rubrics. I forbindelse med forbedring af rubrikker giver udbyderen menneskelige vurderinger, der tjener som evalueringsstandarden.

Overfitting

Når en rubric bliver for specifik for de testcases, der bruges under afgrænsning og ikke generaliserer til nye, usete svar. Undgå overfitting ved at begrænse gentagelser og test med nye testcases.

Afleveringsklassifikation

Den mindste acceptable karakter (1-5) for en testcase, der skal betragtes som bestået.

Testtilstand (testcaseniveau): Bestemmer faktisk bestået eller mislykket resultat.
Afgrænsningstilstand (testkørselsniveau): Kun oplysningsindikator; målet er justering, ikke at passere.

Ræsonneringskvalitet

En evaluering af, om svaret viser sammenhængende tænkning, logiske trin, begrundelse og korrekt fortolkning af problemet.

Recency (tidsnøjagtighed)

Et kriterium, der evaluerer, om svaret afspejler oplysninger, der er kronologisk nøjagtige eller opdaterede. Dette kriterium er især relevant for tidsfølsomt indhold, f.eks. hændelser, datoer, tidsplaner og tilgængelighed.

En rubric, der bruges på testkørselsniveauet specifikt til iterativ rubricafgrænsning. AI giver en karakter og en detaljeret begrundelse. Processen springer ikke-generative svartesttyper over. Målet er at minimere uoverensstemmelse mellem AI og menneskelige bedømmelser.

Relevans

En måling af, hvordan agentens svar adresserer brugerens forespørgsel direkte og korrekt. Et svar er relevant, hvis det forbliver inden for spørgsmålets rækkevidde og undgår unødvendige eller distraherende oplysninger.

Bedømmelsesskema

Et struktureret sæt klassificeringsinstruktioner på naturligt sprog, som en AI-dommer bruger til at evaluere kvaliteten af en agents svar. En rubric definerer de kriterier, forventninger, eksempler og scoreskala (1-5), der bestemmer, hvad der udgør et "godt" eller "dårligt" svar for et bestemt domæne eller en bestemt use case.

En iterativ proces til forbedring af klarheden, specificiteten og effektiviteten af en rubric baseret på observeret justering eller forskydning mellem menneskelig dom og AI-dom. Afgrænsning omfatter opdatering af instruktioner, tilføjelse af eksempler og kørsel af test, indtil evalueringsfunktionsmåden er i overensstemmelse med domæneforventningerne.

Grænsefladevisningen til rubrikfinjustering, der skjuler AI-klassifikationer og begrundelser for at forhindre bias, når man foretager menneskelige vurderinger. Brug denne visning til indledende gennemgang og uvildig klassificering.

Testtilstand (rubric på testcaseniveau)

Brug en rubric på det individuelle testcaseniveau til regelmæssig kvalitetssikring. AI giver kun karakter (ingen begrundelse) for omkostningseffektivitet. Bestået eller mislykket bestemmes af, om karakteren er større end eller lig med grænsen for beståelsesklassen.

Testsag

En individuel test i et testsæt, der består af en testudledning (brugerinput), forventet funktionsmåde og valideringskriterier (standardvalidering eller rubricbaseret klassificering).

Testkørsel

En enkelt udførelse af et testsæt, der giver resultater, der omfatter agentsvar, AI-karakterer, menneskelige anmærkninger (i afgrænsningstilstand) og justeringsindikatorer.

Tilsidesættelse af testkørselsniveau for rubrik

Når du vælger en rubric på testkørselsniveauet, gælder den for alle Generative Answer-testcases i den pågældende kørsel, hvilket tilsidesætter eventuelle rubrics, der er tildelt på det individuelle testcaseniveau.

Testsæt

En samling af en eller flere testcases, der udføres sammen. I afgrænsningstilstand gælder den samme rubric for alle Generative Answer-testcases i sættet.

Valideringsinstruktioner

Tekstbaserede instruktioner, der bruges i almindelige generative svartest til at angive, hvad der gør et svar acceptabelt. Gensidigt eksklusive med rubricbaseret klassificering. Når du vælger en rubric, skjules eller ignoreres valideringsinstruktioner.

Start kørsel: Konfigurer testkørsel med rubric (testkørselsniveau) plus beståelsesklasse; Udføre.
Gennemse: Åbn Standardafgrænsningsvisning (AI skjult).
Karakter: Angiv menneskelige karakterer (1-5) og ræsonnering for alle testcases.
Markér eksempler: Slå Markeret som eksempel for 6-10 gode eller dårlige tilfælde.
Analysér: Skift til visningen Fuld afgrænsning; gennemgå AI-karakterer og -begrundelser; beregne justering.
Afgræns: Vælg Afgræns rubric; AI analyserer mønstre; opdateringer rubric.
Gem: Gem (overskriv) eller Gem som (ny version).
Kør igen: Dupliker testkørsel; Udfør med raffineret rubric.
Gentag: Fortsæt, indtil justeringen er 80-90% eller højere.

Aspekt	Testtilstand	Forfinelse-tilstand
Rubricniveau	Testsag	Testkørsel
Formål	Kvalitetssikring	Forbedring af rubric
AI-output	Kun bedømmelse	Karakter + begrundelse
Koste	Lower	Højere
Beståelseskarakter	Bestemmer bestået eller mislykket	Kun til orientering
Mål	Identificer svar af lav kvalitet	Minimer fejljustering mellem kunstig intelligens og mennesker
Ikke-GA-test	Kør normalt	Sprunget over
Menneskelig klassificering	Ikke påkrævet	Påkrævet til afgrænsning

Hurtig reference: Vejledning til valg af karakter

Afleveringsklassifikation	Hvornår skal du bruge?	Forventet gennemløbshastighed
5 (eksemplarisk)	Kritisk kommunikation (IR, executive, legal)	Lav beståelsesprocent; kun de bedste svar består
4 (stærk)	Professionel forretningskommunikation	Moderat beståelsesprocent; besvarelser af høj kvalitet består
3 (acceptabel)	Interne værktøjer, minimumfunktionalitet	Høj beståelsesrate; funktionssvar bestået
2 (svag)	Meget lav søjle (sjældent passende)	Meget høj gennemløbshastighed
1 (kræver forbedring)	Næsten aldrig brugt	Næsten alle svar bliver godkendt

Anbefaling: Angiv som standard til beståelseskarakter 5 for finjusteringstilstand. Juster til 4 eller 5 for testtilstand baseret på dine kvalitetsstandarder.

Feedback

Var denne side nyttig?

Last updated on 2026-03-11

Del via

Referencevejledning til rubrics

Klassifikationsskaladefinitioner

Formel for justeringsberegning

Justering af individuel testcase

Justeringsberegning for individuelle testcases

Retningstilpasningsanalyse

Eksempel på rubric 1: Rapport over investorrelationer

Sådan ser et godt svar ud

Karakterdefinitioner

5: Fremragende eller professionel IR-kvalitet

4: Stærk eller høj kvalitet

3: Tilstrækkelig eller opfylder mindste IR-forventninger

2: Svag eller delvist egnet

1: Dårlig eller ikke egnet til IR-brug

Eksempel på rubric 2: Oprettelse af forretningsoversigter eller statusrapport

Sådan ser et godt svar ud

Karakterdefinitioner

5: Fremragende (konsekvent, professionel, on-brand)

4: Stærk (mindre variationer, men høj kvalitet)

3: Tilstrækkelig (acceptabel, men ikke helt konsekvent)

2: Svag (Tone problemer påvirker professionalisme)

1: Dårlig (ikke egnet til rapportbrug)

Evalueringstemaer eller -kriterier

Sådan bruger du evalueringstemaer

Ordliste

Agent

AI-bedømmelse, AI-score

AI-begrundelse, AI-ræsonnering

Justering, forkert justering

Fuldstændighed

Korrekthed, nøjagtighed

Detaljeret visning

Retningsbestemt bias

Trofasthed

Fuld detaljevisning

Generativ svar-test (GA-test)

Godt eksempel, dårligt eksempel

Jordforbindelse

Menneskelig dom, menneskelig anmærkning

Gentage, gentagelse

LLM-dommer, AI-dommer, AI-evalueringssystem

Størrelsen af fejljustering

Opretter

Overfitting

Afleveringsklassifikation

Ræsonneringskvalitet

Recency (tidsnøjagtighed)

Forædlingstilstand (rubrik på testkørselsniveau)

Relevans

Bedømmelsesskema

Forfining af rubric

Standardvisning af raffinering

Testtilstand (rubric på testcaseniveau)

Testsag

Testkørsel

Tilsidesættelse af testkørselsniveau for rubrik

Testsæt

Valideringsinstruktioner

Hurtig reference: Trin til afgrænsning af arbejdsproces

Hurtig reference: Testtilstand i forhold til afgrænsningstilstand

Hurtig reference: Vejledning til valg af karakter

Feedback

Yderligere ressourcer