Delen via


Prestaties evalueren: metrische gegevens die belangrijk zijn

Dit artikel bevat informatie over het meten van de prestaties van een RAG-toepassing voor de kwaliteit van het ophalen, reageren en systeemprestaties.

Ophalen, reageren en prestaties

Met een evaluatieset kunt u de prestaties van uw RAG-toepassing meten op een aantal verschillende dimensies, waaronder:

  • Kwaliteit ophalen: Meetwaarden beoordelen het succes waarmee uw RAG-toepassing relevante ondersteunende gegevens ophaalt. Precisie en recall zijn twee belangrijke metrieke gegevens voor het ophalen.
  • Antwoordkwaliteit: Metrische gegevens over de responskwaliteit beoordelen hoe goed de RAG-toepassing reageert op de aanvraag van een gebruiker. Metrische antwoordgegevens kunnen bijvoorbeeld meten of het resulterende antwoord nauwkeurig is volgens de grondwaarheid, hoe goed het antwoord was onderbouwd met de opgehaalde context (bijvoorbeeld, heeft de LLM hallucinaties gehad?), of hoe veilig het antwoord was (met andere woorden, niet toxisch).
  • Systeemprestaties (kosten en latentie): metrische gegevens leggen de totale kosten en prestaties van RAG-toepassingen vast. Algemene latentie en tokenverbruik zijn voorbeelden van metrische gegevens over ketenprestaties.

Het is erg belangrijk om metrische gegevens voor zowel reacties als ophalen te verzamelen. Een RAG-toepassing kan slecht presteren ondanks dat de juiste context wordt opgehaald; het kan ook goede antwoorden geven op basis van onjuiste ophaalacties. Alleen door beide onderdelen te meten, kunnen we problemen in de toepassing nauwkeurig diagnosticeren en oplossen.

Methoden voor het meten van prestaties

Er zijn twee belangrijke benaderingen voor het meten van prestaties in deze metrische gegevens:

  • Deterministische meting: Metrische kosten- en latentiegegevens kunnen deterministisch worden berekend op basis van de uitvoer van de toepassing. Als uw evaluatieset een lijst bevat met documenten die het antwoord op een vraag bevatten, kan een subset van de metrische gegevens voor het ophalen ook deterministisch worden berekend.
  • LLM rechtergebaseerde meting: In deze benadering fungeert een afzonderlijke LLM als rechter om de kwaliteit van het ophalen en antwoorden van de RAG-toepassing te evalueren. Sommige LLM-rechters, zoals antwoordcorrectheid, vergelijken de door mensen gelabelde referentiewaarden met de uitvoer van de app. Andere LLM-rechters, zoals gegrondheid, vereisen geen menselijk gelabelde grondwaarheid om hun app-uitvoer te beoordelen.

Belangrijk

Om een LLM-rechter effectief te laten zijn, moet deze worden afgestemd op de gebruikssituatie. Hiervoor is zorgvuldige aandacht vereist om te begrijpen waar het beoordelingssysteem wel en niet goed werkt, en vervolgens het beoordelingssysteem af te stemmen om het aan te passen voor gevallen waarin het faalt.

Mosaic AI Agent Evaluation biedt een kant-en-klare implementatie, met behulp van gehoste LLM-beoordelingsmodellen, voor alle metrieken die op deze pagina worden besproken. De documentatie van de agentevaluatie beschrijft de details van hoe deze metrische gegevens en rechters worden geïmplementeerd en biedt mogelijkheden om de rechters af te stemmen met uw gegevens om de nauwkeurigheid ervan te vergroten

Overzicht van metrische gegevens

Hieronder ziet u een samenvatting van de metrische gegevens die Door Databricks worden aanbevolen voor het meten van de kwaliteit, kosten en latentie van uw RAG-toepassing. Deze metrische gegevens worden geïmplementeerd in de evaluatie van de Mozaïek AI-agent.

Dimensie Naam van meetwaarde Vraag Gemeten door Nodig grondwaarheid?
Ophalen chunk_relevantie/precisie Welk percentage van de opgehaalde segmenten is relevant voor de aanvraag? LLM-rechter Nee
Ophalen documentherinnering Welk percentage van de grondwaarheidsdocumenten wordt weergegeven in de opgehaalde segmenten? Deterministisch Ja
Ophalen contextuele voldoendeheid Zijn de opgehaalde segmenten toereikend om het verwachte antwoord te produceren? LLM-rechter Ja
Antwoord correctheid Over het algemeen heeft de agent een correct antwoord gegenereerd? LLM-rechter Ja
Antwoord relevantie_voor_vraag Is het antwoord relevant voor de aanvraag? LLM-rechter Nee
Antwoord nuchterheid Is het antwoord een hallucinatie of gebaseerd op de context? LLM-rechter Nee
Antwoord veiligheid Is er schadelijke inhoud in het antwoord? LLM-rechter Nee
Kosten totaal_token_telling, totaal_invoer_token_telling, totaal_uitvoer_token_telling Wat is het totale aantal tokens voor LLM-generaties? Deterministisch Nee
Latentie latentie_seconden Wat is de latentie van het uitvoeren van de app? Deterministisch Nee

Hoe retrievalmetrieken werken

Ophaalstatistieken helpen u te begrijpen of uw zoekfunctie relevante resultaten levert. Ophaalmetrics zijn gebaseerd op precisie en recall.

Naam van de meetwaarde Antwoord op vraag Bijzonderheden
Precisie Welk percentage van de opgehaalde segmenten is relevant voor de aanvraag? Precisie is het aandeel opgehaalde documenten dat daadwerkelijk relevant is voor de aanvraag van de gebruiker. Een LLM-rechter kan worden gebruikt om de relevantie van elk opgehaald segment te beoordelen in reactie op de aanvraag van de gebruiker.
Herinnering / Terugroepactie Welk percentage van de grondwaarheidsdocumenten wordt weergegeven in de opgehaalde segmenten? Recall is het aandeel van de grondwaarheidsdocumenten dat is vertegenwoordigd in de opgehaalde stukken. Dit is een meting van de volledigheid van de resultaten.

Precisie en ophaal

Hieronder vindt u een korte inleiding over Precisie en recall, afkomstig uit het uitstekende Wikipedia-artikel.

Precisieformule

Precisiemetingen 'Van de segmenten die ik heb opgehaald, welke % van deze items zijn eigenlijk relevant voor de query van mijn gebruiker?' Rekenprecisie vereist niet dat je kennis hebt van alle relevante items.

Formule voor het berekenen van precisie.

Formule oproepen

Terugroepmaatregelen "Van alle documenten die ik ken en relevant zijn voor de query van mijn gebruiker, uit welk % heb ik een segment opgehaald?" Voor het berekenen van de recall moet uw ground-truth alle relevante items bevatten. Items kunnen een document of een segment van een document zijn.

Formule voor het berekenen van recall.

In het onderstaande voorbeeld waren twee van de drie opgehaalde resultaten relevant voor de query van de gebruiker, dus de precisie was 0,66 (2/3). De opgehaalde documenten bevatten twee van de in totaal vier relevante documenten, dus de terugroepingscapaciteit was 0,5 (2/4).

Diagram met precisie en terugroepmeting.