Arbejdsproces til afgrænsning af rubric

Rubric refinement er en iterativ cyklus, der hjælper med at justere AI-klassificering med menneskelig dom. Hver gentagelse følger en systematisk proces:

Kør → gennemse → grad → afgræns → Gem → Kør → gentag igen

Du har typisk brug for flere gentagelser, før du opnår acceptabel justering. Dette behov for flere gentagelser er forventet og normalt. Rubric refinement er en proces med gradvis forbedring, ikke en engangskonfiguration.

Arbejdsprocestrin

Følg disse trin i arbejdsprocessen for afgrænsning af rubric.

Det første trin er at konfigurere og udføre en testkørsel i rubricafgrænsningstilstand, hvilket muliggør AI-klassificering med den rubric, du definerer. I løbet af denne kørsel genererer systemet AI-karakterer og -rationaler for hver Generative Answer-testcase, men det beregner ikke bestået eller mislykket status, da du stadig finjusterer rubric'en.

Forudsætninger

Et testsæt, der indeholder Generative Answer-testcases .
En rubric (indledende eller forrige gentagelse) til afgrænsning.

Konfiguration

Sådan konfigurerer du en testkørsel for rubricafgrænsning:

Opret eller dupliker en testkørsel:
1. Gå til dit testsæt.
2. Vælg Ny eller Dupliker Kør , hvis du finjusterer fra en tidligere gentagelse.
Konfigurer testkørslen:
- Navn: Angiv et beskrivende navn (f.eks. "Automotive Repair Rubric - Iteration 2").
- Agent-testsæt: Vælg dit testsæt med genererende svar-testcases.
- Agentkonfiguration: Vælg den agentkonfiguration, der skal testes.
- Rubric: Vælg den rubric at afgrænse.
- Beståelseskarakter: Indstil beståelseskarakteren (standard er 5).
  
  I forfiningstilstand er beståelsesgraden kun til orientering. Det hjælper med at identificere svar under din målgrænse.
Udfør testkørslen:
- Vælg Gem & luk, og udfør derefter kørslen.
Systemet kører hver generative Svar-testcase. Den udfører AI-klassificering med detaljeret ræsonnering.

Hvad sker der under udførelsen?

For hver generativ svar-testcase:
- Agenten reagerer på testytlen.
- AI-dommeren evaluerer svaret ved hjælp af rubrikken.
- AI-dommeren tildeler en karakter fra 1 til 5.
- AI-dommeren genererer en detaljeret forklaring, der beskriver bedømmelsen.
Systemet springer ikke-generative svar-testcases over.
- Systemet evaluerer kun "Generative Answer"-testtyper i forfiningstilstand.

** Når testkørslen er afsluttet, skal du bruge specialiserede visninger til forfinelse af rubric til at vurdere overensstemmelsen. Grænsefladen giver to primære synspunkter til støtte for upartisk menneskelig evaluering.

Forskning viser, at det kan påvirke menneskers dømmekraft at se AI-karakterer. For at undgå denne skævhed indeholder grænsefladen følgende to visninger:

Standardafgrænsningsvisning: Skjuler AI-karakterer til uvildig menneskelig evaluering.
Fuld forfiningsvisning: Viser AI-karakterer til sammenligning af tilpasning.

Skift mellem disse visninger, afhængigt af din opgave.

På følgende skærmbillede vises standardafgrænsningsvisningen. Den skjuler AI-karakterer og -rationaler, så du kan angive upartisk menneskelig klassificering:

Formål: Leverer upartisk menneskelig evaluering uden AI-indflydelse.
Hvornår skal du bruge:
- Når du først gennemser svar og giver menneskelige vurderinger.
- Når du angiver gode eller dårlige eksempler.
- Når du vil undgå bias fra AI-vurderinger.
Hvad er synligt:
- Test ytring (hvad brugeren spurgte).
- Agent svar (hvad copiloten svarede).
- Felter til menneskelig klassificering (indledningsvist tomme):
  - Human Grade selektor (1-5).
  - Tekstfeltet Human Reasoning .
  - Markeret som Eksempel skifte.
  - Eksempeltypevælger (godt eksempel eller forkert eksempel).
Hvad er skjult:
- AI-karakter
- AI-begrundelse
Navigation:
- Listevisningen viser alle testcases i en tabel.
- Vælg en række for at åbne detaljeret visning for længere svar.

Det følgende skærmbillede viser den komplette afgrænsningsvisning. Den indeholder AI-karakterer og -begrundelser, så du kan sammenligne vurderinger af mennesker og kunstig intelligens:

Formål: Sammenlign AI- og menneskelige vurderinger for at forstå justering.
Hvornår skal du bruge:
- Når du har angivet menneskelige karakterer, kan du sammenligne med kunstig intelligens.
- For at forstå, hvorfor der opstod fejljustering.
- Til at identificere mønstre i AI-ræsonnering.
  - Når du analyserer, hvilke svar der skal bruges eksempler på.
Hvad er synligt: Alt fra standardvisning plus:
- AI-karakter (1-5)
- AI-begrundelse (detaljeret ræsonnering)
- Justeringsindikator: Visuel indikator, der viser, om human- og AI-kvaliteter stemmer overens.
  - Justeret: AI-karakter = Menneskelig vurdering
  - Forkert justeret: AI-vurdering ≠ menneskelig karakter
Nøgleindsigt: Den fulde visning hjælper dig med at forstå fejljusteringsmønstre.
- Er kunstig intelligens konsekvent for mild eller for streng?
- Hvilke kriterier fremhæver eller savner ai'en?
- Hvilke typer svar forvirrer kunstig intelligens?

Trin 3: Menneskelig klassificeringsproces

At levere nøjagtige, tankevækkende menneskelige vurderinger er afgørende for effektiv justering af vurderingskriterier.

Mulighed A: Klassificering af listevisning

Brug listevisningen (Standard eller Fuld) til hurtig klassificering:

Gennemse hver testcase i tabellen.
Læs testytring og agentsvar.
Tildel en karakter (1-5) baseret på rubrickriterierne.
Angiv en forklarende ræsonnering for din karakter.
Flyt til den næste testcase.

Fordele:

Hurtig til korte svar.
God oversigt over alle sager.
Effektiv til store testsæt.

Ulemper:

Begrænset plads til visning af længere svar.
Mindre detaljeret kontekst.

Mulighed B: Detaljeret visningsklassering

Brug den detaljerede visning til længere komplekse svar:

Vælg en testcase i listevisningen for at åbne en detaljeret visning.
Gennemse hele samtalekonteksten:
- Testytring vises tydeligt.
- Komplet agentsvar med fuld formatering.
Naviger mellem testsager:
- Åbn og brug postbrowservisningen til venstre for at vælge forskellige test-cases.
- Skift mellem fanerne Afgrænsning og Rubric Refinement (Fuld).
Vælg karakteren (1-5) på listen Human Grade .
Angiv menneskelig ræsonnering:
- Forklar, hvorfor du har tildelt denne karakter.
- Henvis til specifikke bedømmelseskriterier.
- Bemærk eventuelle styrker eller svagheder.
- Ræsonnement er obligatorisk for afgrænsning.
Slå Markeret som eksempel til Ja , hvis det er relevant. Få mere at vide i trin 4: Markering af eksempler.

Fordele:

Fuld kontekst for komplekse svar.
Bedre til omhyggelig, eftertænksom evaluering.
Nemmere at referere til rubric under klassificering.

Komponenter i den detaljerede visning

Den detaljerede visning indeholder to faner:

Fanen Afgrænsning (AI Skjult):
- Testudsagn
- Agentsvar
- Human Grade selektor (påkrævet)
- Tekstfeltet Human Reasoning (påkrævet)
- Skiftknappen markeret som eksempel
- Eksempeltypevælger
Fanen Rubric Refinement (Full) (AI Visible):
- Alle ovenstående plus:
- AI-karakter
- AI-begrundelse
- Justeringsindikator

Bedste praksis for menneskelig klassificering

Giv karakter uden at se AI-vurdering først:
- Brug fanen Standardafgrænsningsvisning eller Afgrænsning .
- Form din egen mening, før du sammenligner med AI.
Vær i overensstemmelse med rubrickriterier:
- Henvis til rubricdefinitionerne.
- Anvend de samme standarder på tværs af alle testcases.
- Du skal ikke bedømme "på en kurve" – brug absolutte standarder.

Skriv detaljeret ræsonnering:

Forklar, hvilke rubrickriterier der blev opfyldt eller savnet.
Vær specifik om styrker og svagheder.
Din argumentation hjælper AI med at forstå, hvad du skal fokusere på.

Eksempel på god ræsonnering:

Grade 4 (Strong): Response includes accurate technical information about the
issue and provides clear next steps. Tone is professional and reassuring.
However, it lacks specific timeline estimates that would make it exemplary
(Grade 5). All major IR elements present but could be more investor-ready.

Eksempel på dårlig ræsonnering:

Grade 4: Pretty good.

Vær ikke påvirket af pass eller fail:
- Målet er justering, ikke aflevering af scorer.
- Karakter ærligt baseret på kvalitet, ikke ønskede resultater.
Bedøm alle test-cases konsekvent
- Komplet klassificering for hele testsættet.
- Inkonsekvent klassificering reducerer effektiviteten af afgrænsningen.

Få mere at vide i Bedste fremgangsmåder og tip til afgrænsning af rubric.

Trin 4: Markering af eksempler

Eksempler forbedrer kvaliteten af rubric betydeligt ved at give konkrete illustrationer af gode og dårlige svar.

Formålet med eksempler

Eksempler hjælper AI'en med at forstå:

Hvad godt faktisk ser ud i praksis.
Hvilke dårlige svar indeholder , der gør dem uacceptable.
Edge-tilfælde , hvor kriterier kan være uklare.
Kontekst og nuance , som tekstbeskrivelser ikke kan registreres fuldt ud.

Sådan markerer du eksempler

I enten listevisning eller detaljeret visning:

Slå Markeret som eksempel til Ja.
Vælg eksempeltype:
- Godt eksempel: Illustrerer svar i høj kvalitet.
- Dårligt eksempel: Illustrerer svar af dårlig kvalitet.
Systemet registrerer:
- Testudsagn
- Agentsvar
- Din eksempelangivelse (god eller dårlig)

Hvornår skal eksempler markeres?

Overvej at markere en testcase som et eksempel, hvis:

Godt eksempel:
- Svaret er grade 5 (eksemplarisk) og viser ideel kvalitet.
- Svaret er karakter 4 og viser alle nøglekriterier, selvom det ikke er perfekt.
- Svaret håndterer et komplekst scenarie ekseptionelt godt.
- Du vil styrke specifikke positive funktionsmåder.
Forkert eksempel:
- Svaret er klasse 1 (behov for forbedring) og lever tydeligt ikke op til forventninger.
- Svaret er karakter 2 og viser almindelige fejl, der skal undgås.
- Svaret viser en bestemt faldgrube eller fejltilstand.
- Du vil gerne præcisere, hvordan "ikke acceptabel" ser ud.
Enten:
- Testcasen repræsenterer en kantcase eller et tvetydigt scenarie.
- Der er manglende overensstemmelse mellem AI og menneskelige evalueringer, som hjælper med at tydeliggøre dine standarder.
- Testcasen er særligt repræsentativ for almindelige mønstre.

Hvor mange eksempler skal du markere

Kvalitet over mængde: Et par velvalgte eksempler er bedre end mange middelmådige.
Afvej god og dårlig: Medtag begge typer for at angive tydelige grænser.
Repræsenter variation: Dæk forskellige typer forespørgsler og svar.

Tips

Fokuser på testcases, hvor der er fejljustering. Disse eksempler tydeliggør ofte, hvor rubrikken er tvetydig.

Trin 5: Forstå justering

Sammenligning viser, om AI- og de menneskelige karakterer stemmer overens.

Justering af individuel testcase

For hver testcase:

Justeret: AI-karakter = Menneskelig vurdering
Forkert justeret: AI-vurdering ≠ menneskelig karakter

Justeringsberegning for individuelle testcases

For hver testcase skal du beregne justeringen mellem AI-genererede svar og menneskelige forventninger ved hjælp af lineær interpolering fra 100% (perfekt match) til 0% (maksimalt anderledes).

Fortolkning:

Når AI-vurdering = Menneskelig vurdering, justering = 100%.
I takt med at bedømmelsesforskellen øges, reduceres justeringen lineært.
Den maksimale forskel på en 1-5-skala er 4 trin, som er knyttet til 0%.

Formel:

alignment = 100% * (1 - |AI – Human| / 4)

Resultat af justeringsmatrix:

AI ↓ / Menneske →	1	2	3	4	5
1	100%	75 %	50%	25 %	0%
2	75 %	100%	75 %	50%	25 %
3	50%	75 %	100%	75 %	50%
4	25 %	50%	75 %	100%	75 %
5	0%	25 %	50%	75 %	100%

Egenskaber:

Symmetrisk: Justeringen er den samme, uanset hvilken værdi der er AI, og hvilken der er Human.
Diagonal = 100%: Perfekt justering, når AI- og Human-karakterer matcher.
Fjernkanter = 0%: Maksimal forskydning, når karaktererne er i modsatte ender af skalaen.
Jævn, lineær interpolering: Justeringen reduceres ensartet, efterhånden som forskellen øges.

Hvad er god justering?

Der er ingen absolut standard, men brug disse generelle retningslinjer for den gennemsnitlige justeringsprocent for hele forbedringskørsel af rubrikken.

Justering %	Vurdering	Aktion
90-100%	Udmærket	Rubric er meget pålidelig; overveje at skifte til testtilstand.
75-89%	God	Rubric er for det meste justeret. Forfin kanttilfælde.
60-74%	Rimelig	Rubrikken skal forbedres; fokus på fejljusteringmønstre.
< 60%	Dårlig	Rubric kræver betydelig afgrænsning eller redesign.

Analyser uosamstemmelse

Når der opstår fejljustering, skal du undersøge:

Forkert justeringsretning:
- Er kunstig intelligens konsekvent højere eller lavere end mennesker?
- Dette mønster angiver systematisk bias i rubrikken.
Mønstre i forkert justerede tilfælde:
- Medfører visse svartyper fejljusteringer?
- Bliver specifikke kriterier fejlfortolket?
Størrelse på forkert justering:
- Fra med 1 point (f.eks. AI=4, Human=5) → Mindre afgrænsning er nødvendig.
- Fra med 2+ punkter (f.eks. AI=2, Human=5) → Større præcisering er nødvendig.
Læs AI-begrundelser (fuld visning):
- Hvilke kriterier fokuserede AI'en på?
- Hvad missede AI'en, som mennesker bemærkede?
- Fortolker AI'en rubrik-beskrivelsen forkert?

Trin 6: Forbedr og gem bedømmelseskriterier

Når du har angivet menneskelige karakterer, markeret eksempler og analyseret justering, er du klar til at tilpasse rubrikken.

Når du vælger Afgræns rubric, analyserer AI:

Aktuelt rubricindhold:
- Beskrivelse af "Hvordan godt svar ser ud"
- Karakterdefinitioner (1-5)
- Eksisterende eksempler
Menneskelige karakterer og ræsonnering:
- Sådan vurderede du hvert svar
- Dine forklaringer på karakterer
AI-karakterer og -begrundelser:
- Sådan fortolkede AI rubrikken
- Hvor AI-ræsonnering afveg fra mennesker
Markerede eksempler:
- Test ytrings- og svarpar
- Gode eller dårlige betegnelser
- Kontekst om, hvad der gør dem eksemplariske eller fattige
Justeringsmønstre:
- Hvilke kriterier medfører konsekvent forkert justering
- Hvor rubrikken er tvetydig
- Hvad skal præciseres

AI opdaterer derefter rubrikken for at forbedre justeringen ved at:

Tydeliggør tvetydigt sprog
Tilføjelse af specificitet til karakterdefinitioner
Indarbejdelse af eksempler
Justering af vægt på kriterier
Fjernelse af modsætninger eller forvirring

Afgræns en rubric

Sådan finjuster du en rubric:

I visningen til afgrænsning af rubric skal du vælge Afgræns rubric.
Systemet behandler alle klassificeringsdata og genererer afgrænsning.
Gennemse den raffinerede rubric. Systemet kan vise et eksempel.
Vælg en lagringsindstilling:
- Gem (overskriv): Brug denne indstilling, når du gentagelser på den samme rubric og ikke behøver at bevare historikken.
  - Erstatter den eksisterende rubric med den raffinerede version.
  - Den oprindelige version går tabt (der er ingen versionshistorik i MVP).
- Gem som (Opret ny): Brug denne indstilling, når du vil sammenligne versioner eller bevare en oprindelig plan.
  - Opretter en ny rubric med et andet navn.
  - Bevarer den oprindelige rubric.
Anbefaling: I forbindelse med tidlige gentagelser skal du bruge Gem som for at bevare historikken (f.eks. "IR-rapport v1", "IR-rapport v2"). Når rubriceringen stabiliseres, skal du bruge Gem til iteration.

Trin 7: Kør test igen

Når du har gemt den raffinerede rubric, skal du teste, om justeringen er forbedret:

Dupliker testkørslen:
- Gå til den afsluttede testkørsel.
- Vælg Dupliker kør.
Udfør med den opdaterede rubric:
- Den duplikerede proces bruger den raffinerede rubric.
- Kør den mod det samme testsæt.
Sammenlign justeringsmålepunkter:
- Er justeringsprocenten steget?
- Er tidligere forkert justerede sager nu justeret?
Gennemse resultaterne:
- Brug visningen Fuld afgrænsning til at kontrollere justeringen.
- Bemærk eventuelle resterende fejljusteringer.

Trin 8: Gentagelse

Rubrikforbedring afsluttes sjældent i én cyklus. Fortsæt med at gentage:

Kør → gennemse → → afgræns → Gem → gentag igen.
Følg fremdrift:
- Overvåg justeringsprocenten på tværs af gentagelser.
- Bemærk, hvilke typer fejljustering der reduceres.
Juster strategi:
- Hvis justeringen ikke forbedres, skal du overveje den rubriciske tilgang.
- Tilføj flere eksempler på vedvarende fejljusteringsmønstre.
- Forenkler alt for komplekse kriterier.
Ved, hvornår du skal stoppe:
- Når justeringen når et acceptabelt niveau (typisk 75-90% eller højere).
- Når yderligere gentagelser viser faldende afkast.
- Når rubric pålideligt identificerer kvalitetsproblemer.

Arbejdsprocesoversigt

Trin	Aktion	Resultat
1. Start kørsel	Konfigurer testkørslen med rubric på testkørselsniveau.	AI-karakterer og -rationaler genereret
2. Gennemse	Åbn vinduet Tilpasning af rubric (Standard eller Fuld).	Kontekst for vurdering
3. Klasse (menneskelig)	Angiv karakterer (1-5) og ræsonnering for alle testcases.	Registrerede humane vurderinger
4. Markér eksempler	Vælg gode eller forkerte eksempler.	Eksempler, der er hentet til afgrænsning
5. Forstå justering	Sammenlign AI og menneskelige karakterer; analysere mønstre.	Justeringsprocent og indsigt
6. Afgræns og gem	Vælg Afgræns rubric; vælg en lagringsindstilling.	Opdateret rubrik
7. Kør igen	Kør, udfør og dupliker med forfinet kriteriesæt.	Nye justeringsdata
8. Gentagelse	Gentag, indtil justering er acceptabel.	Pålidelig, troværdig rubric

Arbejdsprocessen for afgrænsning af rubric kan være kompleks. Her er nogle tip, der kan hjælpe dig med at navigere i processen effektivt.

Start med en rimelig baseline-rubric

Forvent ikke perfektion fra din oprindelige rubric. Fokus på:

Definér udsagnet 'hvordan en god standard ser ud'
Grundlæggende karakterdefinitioner med observerbare kriterier
Raffinering derfra

Brug ensartede testcases

Brug det samme testsæt på tværs af gentagelser til at spore forbedring af justeringen. Ændring af test cases gør det svært at måle fremskridt.

Bedøm ærligt og grundigt

Dine menneskelige vurderinger er "den grundlæggende sandhed" for finjustering. Invester tid i:

Eftertænksom evaluering
Detaljeret ræsonnering
Ensartet anvendelse af standarder

Fokuser på mønstre, ikke individuelle sager

En forkert justeret testcase er ikke en krise. Se efter:

Systematiske mønstre i fejljustering
Gentagne fejl på tværs af flere testcases

Brug eksempler strategisk

Eksempler er effektive, men overdrives ikke:

Fokuser på forkert justerede sager og kantsager
Afvej gode og dårlige eksempler

Gennemse AI-begrundelser

Ai'ens ræsonnering (Fuld visning) viser, hvordan den fortolker din rubric:

Hvis AI'en fokuserer på de forkerte kriterier, skal du præcisere rubrikken
Hvis AI'en savner vigtige punkter, skal du gøre dem mere fremtrædende
Hvis ai'en bruger ulige logik, skal du tilføje eksempler for at vejlede den

Gentagelse med formål

Målret specifikke forbedringer for hver gentagelse:

Gentagelse 1: Ret større fejljusteringsmønstre
Gentagelse 2: Tilføj eksempler på edge-sager
Gentagelse 3: Finjuster sprog for resterende fejljustering

Søg ikke 100% overensstemmelse

Perfekt justering er sjældent opnåeligt eller nødvendigt. I stedet skal du fokusere på:

En vis subjektivitet er indbygget i evalueringen
Faldende afkast efter ~85-90% tilpasning
Pålidelig bedømmelse, ikke perfektion

Test med nye data til sidst

Efter flere gentagelser skal du teste rubricen på nye testcases for at:

Sørg for, at rubricen generaliserer ud over dit træningssæt
Undgå overtilpasning til bestemte eksempler

Fejlfinding af almindelige problemer

Under afgrænsning af rubric kan du støde på almindelige udfordringer. Her er nogle problemer, du kan støde på, sammen med mulige årsager og løsninger.

Justeringen forbedres ikke

Mulige årsager:

Rubric kriterier er for subjektive eller vage
Menneskelig klassificering er inkonsekvent
Eksempler illustrerer ikke tydeligt standarder

Løsninger:

Forenkler sproget for rubric; brug konkrete, observerbare kriterier
Ombedøm testtilfælde med ensartede standarder
Tilføj flere eksempler, især i forbindelse med kantsager

KUNSTIG INTELLIGENS er konsekvent for mild eller for streng

Mulige årsager:

Karakterdefinitioner skelner ikke klart mellem niveauer
"Hvad godt ser ud" sætter forkerte forventninger

Løsninger:

Gør forskellen mellem karakterniveauer skarpere
Tilføj eksempler, der viser rammeeksempler
Rediger "hvordan succeskriterier ser ud" for at fastsætte en korrekt referenceniveau

Human og AI fokuserer på forskellige kriterier

Mulige årsager:

Rubric viser for mange kriterier uden prioritering
Vigtige kriterier er begravet eller uklare

Løsninger:

Prioriter kriterier eksplicit i karakterdefinitioner
Start med de vigtigste kriterier
Brug eksempler til at demonstrere prioritet

Lange svar er svære at bedømme

Løsninger:

Brug Detaljeret visning til fuld kontekst
Opdel evalueringen i dimensioner (nøjagtighed, tone, fuldstændighed) og vurder hver
Overvej, om rubrikken skal fokusere på specifikke aspekter i stedet for den overordnede kvalitet

Test cases er for meget ens

Løsninger:

Udvid testsættet, så det omfatter variation
Tilføj testcases, der dækker edge cases, forskellige forespørgselstyper, komplekse scenarier
Brug oprettelse af testcase (P1-funktion), når den er tilgængelig

Næste trin

Bedste fremgangsmåder og tip til afgrænsning af rubrikker

Feedback

Var denne side nyttig?

Last updated on 2026-03-11

Del via

Arbejdsprocestrin

Trin 1: Start en kørsel af en rubricafgrænsning

Forudsætninger

Konfiguration

Hvad sker der under udførelsen?

Trin 2: Gennemse resultater – rubrikforfinende visninger

Standardafgrænsningsvisning

Fuld afgrænsningsvisning

Trin 3: Menneskelig klassificeringsproces

Mulighed A: Klassificering af listevisning

Mulighed B: Detaljeret visningsklassering

Komponenter i den detaljerede visning

Bedste praksis for menneskelig klassificering

Trin 4: Markering af eksempler

Formålet med eksempler

Sådan markerer du eksempler

Hvornår skal eksempler markeres?

Hvor mange eksempler skal du markere

Trin 5: Forstå justering

Justering af individuel testcase

Justeringsberegning for individuelle testcases

Hvad er god justering?

Analyser uosamstemmelse

Trin 6: Forbedr og gem bedømmelseskriterier

Hvordan fungerer forbedring af rubric

Afgræns en rubric

Trin 7: Kør test igen

Trin 8: Gentagelse

Arbejdsprocesoversigt

Tip til vellykket afgrænsning

Start med en rimelig baseline-rubric

Brug ensartede testcases

Bedøm ærligt og grundigt

Fokuser på mønstre, ikke individuelle sager

Brug eksempler strategisk

Gennemse AI-begrundelser

Gentagelse med formål

Søg ikke 100% overensstemmelse

Test med nye data til sidst

Fejlfinding af almindelige problemer

Justeringen forbedres ikke

KUNSTIG INTELLIGENS er konsekvent for mild eller for streng

Human og AI fokuserer på forskellige kriterier

Lange svar er svære at bedømme

Test cases er for meget ens

Næste trin

Feedback

Yderligere ressourcer