Dela via


Utvärdera prestanda: Mått som är viktiga

Den här artikeln beskriver hur du mäter prestanda för ett RAG-program för kvaliteten på hämtning, svar och systemprestanda.

Hämtning, svar och prestanda

Med en utvärderingsuppsättning kan du mäta prestandan för ditt RAG-program över ett antal olika dimensioner, inklusive:

  • Hämtningskvalitet: Hämtningsmått utvärderar hur rag-programmet hämtar relevanta stöddata. Precision och återkallande är två viktiga hämtningsmått.
  • Svarskvalitet: Mått för svarskvalitet utvärderar hur väl RAG-programmet svarar på en användares begäran. Mätningsmetoder kan till exempel mäta om det resulterande svaret är korrekt enligt grundsanningen, hur välgrundat svaret var utifrån den hämtade kontexten (t.ex. om LLM hallucinerade?) eller hur säkert svaret var (med andra ord, utan toxicitet).
  • Systemprestanda (kostnad och svarstid): Måtten samlar in den totala kostnaden och prestandan för RAG-program. Övergripande svarstid och tokenförbrukning är exempel på kedjeprestandamått.

Det är mycket viktigt att samla in både svars- och hämtningsmått. Ett RAG-program kan svara dåligt trots att rätt kontext hämtas. Det kan också ge bra svar baserat på felaktiga hämtningar. Endast genom att mäta båda komponenterna kan vi korrekt diagnostisera och åtgärda problem i programmet.

Metoder för att mäta prestanda

Det finns två viktiga metoder för att mäta prestanda i dessa mått:

  • Deterministisk mätning: Kostnads- och svarstidsmått kan beräknas deterministiskt baserat på programmets utdata. Om utvärderingsuppsättningen innehåller en lista över dokument som innehåller svaret på en fråga kan en delmängd av hämtningsmåtten också beräknas deterministiskt.
  • LLM-bedömningsbaserad mätning: I den här metoden fungerar en separat LLM som domare för att utvärdera kvaliteten på RAG-programmets hämtning och svar. Vissa LLM-domare, såsom korrekthet av svar, jämför människomärkta faktasanningar med appens resultat. Andra bedömningsmodeller för LLM, såsom grundadhet, kräver inte mänskligt märkt sanningsdata för att bedöma resultaten av deras appar.

Viktigt!

För att en LLM-domare ska vara effektiv måste den optimeras för att förstå den specifika användningen. Att göra det kräver noggrann uppmärksamhet för att förstå var domaren fungerar och inte fungerar bra, och sedan justera domaren för att förbättra den i fall där den misslyckas.

Mosaic AI Agent Evaluation tillhandahåller en out-of-the-box-implementering med värdbaserade LLM-domarmodeller för varje mått som beskrivs på den här sidan. Dokumentationen för agentutvärderingen beskriver information om hur dessa mått och domare implementeras och ger funktioner för att finjustera domarna med dina data för att öka deras noggrannhet

Översikt över mått

Nedan visas en sammanfattning av de mått som Databricks rekommenderar för att mäta kvalitet, kostnad och svarstid för ditt RAG-program. Dessa mått implementeras i Mosaic AI Agent Evaluation.

Mått Metriknamn Fråga Mätt enligt Behöver du grundsanning?
Hämtning chunk_relevance/precision Vilka % av de hämtade segmenten är relevanta för begäran? LLM-domare Nej
Hämtning dokumentåterkallelse Vilka % av faktadokumenten representeras i de hämtade segmenten? Deterministisk Ja
Hämtning kontexttillräcklighet Är de hämtade segmenten tillräckligt för att generera det förväntade svaret? LLM-domare Ja
Svar korrekthet Sammantaget, genererade agenten ett korrekt svar? LLM-domare Ja
Svar relevans_till_förfrågan Är svaret relevant för begäran? LLM-domare Nej
Svar grundstötning Är svaret en hallucination eller grundad i sitt sammanhang? LLM-domare Nej
Svar säkerhet Finns det skadligt innehåll i svaret? LLM-domare Nej
Kostnad total_antal_token, totalt_antal_inmatningstoken, totalt_antal_utmatningstoken Vad är det totala antalet token för LLM-generationer? Deterministisk Nej
Svarstid latens_sekunder Vad är svarstiden för att köra appen? Deterministisk Nej

Så här fungerar sökmått

Hämtningsmått hjälper dig att förstå om din retriever levererar relevanta resultat. Hämtningsmått baseras på precision och träffsäkerhet.

Måttnamn Besvarad fråga Detaljer
Noggrannhet Vilka % av de hämtade segmenten är relevanta för begäran? Precision är andelen hämtade dokument som faktiskt är relevanta för användarens begäran. En LLM-domare kan användas för att bedöma relevansen för varje hämtat segment för användarens begäran.
Kom ihåg Vilka % av faktadokumenten representeras i de hämtade segmenten? Återkallningsgrad är andelen av de sanna dokumenten som representeras i de hämtade segmenten. Det här är ett mått på resultatets fullständighet.

Precision och återkallning

Nedan visas en snabb introduktion till precision och minnesåtergivning anpassad från den utmärkta Wikipedia-artikeln.

Precisionsformel

Precisionsmått "Vilka % av de här objekten är faktiskt relevanta för min användares fråga av de segment jag hämtade?" Databehandlingsprecision kräver inte att du känner till alla relevanta objekt.

Formel för beräkning av precision.

Återkallningsformel

Återkalla mått "Av alla dokument som jag vet är relevanta för användarens fråga, vilka % hämtade jag ett segment från?" Databehandlingsåterkallning kräver att din grundsanning innehåller alla relevanta objekt. Objekt kan antingen vara ett dokument eller ett segment av ett dokument.

Formel för beräkning av återkallande.

I exemplet nedan var två av de tre hämtade resultaten relevanta för användarens fråga, så precisionen var 0,66 (2/3). De hämtade dokumenten innehöll två av totalt fyra relevanta dokument, så återkallelsen var 0,5 (2/4).

Diagram som visar precisions- och återkallningsmätning.