Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Dit artikel bevat informatie over het meten van de prestaties van een RAG-toepassing voor de kwaliteit van het ophalen, reageren en systeemprestaties.
Ophalen, reageren en prestaties
Met een evaluatieset kunt u de prestaties van uw RAG-toepassing meten op een aantal verschillende dimensies, waaronder:
- Kwaliteit ophalen: Meetwaarden beoordelen het succes waarmee uw RAG-toepassing relevante ondersteunende gegevens ophaalt. Precisie en recall zijn twee belangrijke metrieke gegevens voor het ophalen.
- Antwoordkwaliteit: Metrische gegevens over de responskwaliteit beoordelen hoe goed de RAG-toepassing reageert op de aanvraag van een gebruiker. Metrische antwoordgegevens kunnen bijvoorbeeld meten of het resulterende antwoord nauwkeurig is volgens de grondwaarheid, hoe goed het antwoord was onderbouwd met de opgehaalde context (bijvoorbeeld, heeft de LLM hallucinaties gehad?), of hoe veilig het antwoord was (met andere woorden, niet toxisch).
- Systeemprestaties (kosten en latentie): metrische gegevens leggen de totale kosten en prestaties van RAG-toepassingen vast. Algemene latentie en tokenverbruik zijn voorbeelden van metrische gegevens over ketenprestaties.
Het is erg belangrijk om metrische gegevens voor zowel reacties als ophalen te verzamelen. Een RAG-toepassing kan slecht presteren ondanks dat de juiste context wordt opgehaald; het kan ook goede antwoorden geven op basis van onjuiste ophaalacties. Alleen door beide onderdelen te meten, kunnen we problemen in de toepassing nauwkeurig diagnosticeren en oplossen.
Methoden voor het meten van prestaties
Er zijn twee belangrijke benaderingen voor het meten van prestaties in deze metrische gegevens:
- Deterministische meting: Metrische kosten- en latentiegegevens kunnen deterministisch worden berekend op basis van de uitvoer van de toepassing. Als uw evaluatieset een lijst bevat met documenten die het antwoord op een vraag bevatten, kan een subset van de metrische gegevens voor het ophalen ook deterministisch worden berekend.
- LLM rechtergebaseerde meting: In deze benadering fungeert een afzonderlijke LLM als rechter om de kwaliteit van het ophalen en antwoorden van de RAG-toepassing te evalueren. Sommige LLM-rechters, zoals antwoordcorrectheid, vergelijken de door mensen gelabelde referentiewaarden met de uitvoer van de app. Andere LLM-rechters, zoals gegrondheid, vereisen geen menselijk gelabelde grondwaarheid om hun app-uitvoer te beoordelen.
Belangrijk
Om een LLM-rechter effectief te laten zijn, moet deze worden afgestemd op de gebruikssituatie. Hiervoor is zorgvuldige aandacht vereist om te begrijpen waar het beoordelingssysteem wel en niet goed werkt, en vervolgens het beoordelingssysteem af te stemmen om het aan te passen voor gevallen waarin het faalt.
Mosaic AI Agent Evaluation biedt een kant-en-klare implementatie, met behulp van gehoste LLM-beoordelingsmodellen, voor alle metrieken die op deze pagina worden besproken. De documentatie van de agentevaluatie beschrijft de details van hoe deze metrische gegevens en rechters worden geïmplementeerd en biedt mogelijkheden om de rechters af te stemmen met uw gegevens om de nauwkeurigheid ervan te vergroten
Overzicht van metrische gegevens
Hieronder ziet u een samenvatting van de metrische gegevens die Door Databricks worden aanbevolen voor het meten van de kwaliteit, kosten en latentie van uw RAG-toepassing. Deze metrische gegevens worden geïmplementeerd in de evaluatie van de Mozaïek AI-agent.
| Dimensie | Naam van meetwaarde | Vraag | Gemeten door | Nodig grondwaarheid? |
|---|---|---|---|---|
| Ophalen | chunk_relevantie/precisie | Welk percentage van de opgehaalde segmenten is relevant voor de aanvraag? | LLM-rechter | Nee |
| Ophalen | documentherinnering | Welk percentage van de grondwaarheidsdocumenten wordt weergegeven in de opgehaalde segmenten? | Deterministisch | Ja |
| Ophalen | contextuele voldoendeheid | Zijn de opgehaalde segmenten toereikend om het verwachte antwoord te produceren? | LLM-rechter | Ja |
| Antwoord | correctheid | Over het algemeen heeft de agent een correct antwoord gegenereerd? | LLM-rechter | Ja |
| Antwoord | relevantie_voor_vraag | Is het antwoord relevant voor de aanvraag? | LLM-rechter | Nee |
| Antwoord | nuchterheid | Is het antwoord een hallucinatie of gebaseerd op de context? | LLM-rechter | Nee |
| Antwoord | veiligheid | Is er schadelijke inhoud in het antwoord? | LLM-rechter | Nee |
| Kosten | totaal_token_telling, totaal_invoer_token_telling, totaal_uitvoer_token_telling | Wat is het totale aantal tokens voor LLM-generaties? | Deterministisch | Nee |
| Latentie | latentie_seconden | Wat is de latentie van het uitvoeren van de app? | Deterministisch | Nee |
Hoe retrievalmetrieken werken
Ophaalstatistieken helpen u te begrijpen of uw zoekfunctie relevante resultaten levert. Ophaalmetrics zijn gebaseerd op precisie en recall.
| Naam van de meetwaarde | Antwoord op vraag | Bijzonderheden |
|---|---|---|
| Precisie | Welk percentage van de opgehaalde segmenten is relevant voor de aanvraag? | Precisie is het aandeel opgehaalde documenten dat daadwerkelijk relevant is voor de aanvraag van de gebruiker. Een LLM-rechter kan worden gebruikt om de relevantie van elk opgehaald segment te beoordelen in reactie op de aanvraag van de gebruiker. |
| Herinnering / Terugroepactie | Welk percentage van de grondwaarheidsdocumenten wordt weergegeven in de opgehaalde segmenten? | Recall is het aandeel van de grondwaarheidsdocumenten dat is vertegenwoordigd in de opgehaalde stukken. Dit is een meting van de volledigheid van de resultaten. |
Precisie en ophaal
Hieronder vindt u een korte inleiding over Precisie en recall, afkomstig uit het uitstekende Wikipedia-artikel.
Precisieformule
Precisiemetingen 'Van de segmenten die ik heb opgehaald, welke % van deze items zijn eigenlijk relevant voor de query van mijn gebruiker?' Rekenprecisie vereist niet dat je kennis hebt van alle relevante items.
Formule oproepen
Terugroepmaatregelen "Van alle documenten die ik ken en relevant zijn voor de query van mijn gebruiker, uit welk % heb ik een segment opgehaald?" Voor het berekenen van de recall moet uw ground-truth alle relevante items bevatten. Items kunnen een document of een segment van een document zijn.
In het onderstaande voorbeeld waren twee van de drie opgehaalde resultaten relevant voor de query van de gebruiker, dus de precisie was 0,66 (2/3). De opgehaalde documenten bevatten twee van de in totaal vier relevante documenten, dus de terugroepingscapaciteit was 0,5 (2/4).