Delen via


Evaluatie- en bewakingsgegevens voor generatieve AI

Belangrijk

Sommige van de functies die in dit artikel worden beschreven, zijn mogelijk alleen beschikbaar in de preview-versie. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Met Azure AI Studio kunt u gesprekken met één draai of complexe, multi-turn gesprekken evalueren waarbij u het generatieve AI-model op de grond zet in uw specifieke gegevens (ook wel bekend als Retrieval Augmented Generation of RAG). U kunt ook algemene scenario's met één vraag beantwoorden evalueren, waarbij er geen context wordt gebruikt om uw generatieve AI-model (niet-RAG) te gronden. Momenteel ondersteunen we ingebouwde metrische gegevens voor de volgende taaktypen:

Antwoord op vragen (één beurt)

In deze installatie stellen gebruikers afzonderlijke vragen of prompts op en wordt een generatief AI-model gebruikt om direct antwoorden te genereren.

De indeling van de testset volgt deze gegevensindeling:

{"question":"Which tent is the most waterproof?","context":"From our product list, the Alpine Explorer tent is the most waterproof. The Adventure Dining Table has higher weight.","answer":"The Alpine Explorer Tent is the most waterproof.","ground_truth":"The Alpine Explorer Tent has the highest rainfly waterproof rating at 3000m"} 

Notitie

De velden 'context' en 'ground truth' zijn optioneel en de ondersteunde metrische gegevens zijn afhankelijk van de velden die u opgeeft

Gesprek (één beurt en meerdere beurten)

In deze context maken gebruikers gebruik van gespreksinteracties, hetzij via een reeks beurten of in één uitwisseling. Het generatieve AI-model, uitgerust met ophaalmechanismen, genereert antwoorden en kan informatie uit externe bronnen, zoals documenten, openen en opnemen. Het RAG-model (Retrieval Augmented Generation) verbetert de kwaliteit en relevantie van antwoorden met behulp van externe documenten en kennis.

De indeling van de testset volgt deze gegevensindeling:

{"messages":[{"role":"user","content":"How can I check the status of my online order?"},{"content":"Hi Sarah Lee! To check the status of your online order for previous purchases such as the TrailMaster X4 Tent or the CozyNights Sleeping Bag, please refer to your email for order confirmation and tracking information. If you need further assistance, feel free to contact our customer support at support@contosotrek.com or give us a call at 1-800-555-1234.
","role":"assistant","context":{"citations":[{"id":"cHJvZHVjdF9pbmZvXzYubWQz","title":"Information about product item_number: 6","content":"# Information about product item_number: 6\n\nIt's essential to check local regulations before using the EcoFire Camping Stove, as some areas may have restrictions on open fires or require a specific type of stove.\n\n30) How do I clean and maintain the EcoFire Camping Stove?\n   To clean the EcoFire Camping Stove, allow it to cool completely, then wipe away any ash or debris with a brush or cloth. Store the stove in a dry place when not in use."}]}}]}

Ondersteunde metrische gegevens

Zoals beschreven in de methoden voor het evalueren van grote taalmodellen, zijn er handmatige en geautomatiseerde methoden voor meting. Geautomatiseerde meting is handig voor het meten op schaal met een verhoogde dekking om uitgebreidere resultaten te bieden. Het is ook handig voor doorlopende metingen om te controleren op elke regressie naarmate het systeem, het gebruik en de oplossingen zich ontwikkelen.

We ondersteunen twee belangrijke methoden voor geautomatiseerde meting van generatieve AI-toepassingen:

  • Traditionele metrische gegevens voor machine learning
  • Met AI ondersteunde metrische gegevens

AI-ondersteunde metrische gegevens maken gebruik van taalmodellen zoals GPT-4 om door AI gegenereerde uitvoer te evalueren, met name in situaties waarin verwachte antwoorden niet beschikbaar zijn vanwege het ontbreken van een gedefinieerde grondwaar. Traditionele metrische machine learning-gegevens, zoals F1-score, meten de precisie en relevante overeenkomsten tussen door AI gegenereerde antwoorden en de verwachte antwoorden.

Onze met AI ondersteunde metrische gegevens beoordelen de veiligheid en generatiekwaliteit van generatieve AI-toepassingen. Deze metrische gegevens vallen in twee verschillende categorieën:

  • Metrische gegevens over risico's en veiligheid:

    Deze metrische gegevens richten zich op het identificeren van mogelijke inhouds- en beveiligingsrisico's en het waarborgen van de veiligheid van de gegenereerde inhoud.

    Deze omvatten:

    • Aantal haatvolle en oneerlijke inhoudsdefecten
    • Percentage seksuele inhoudsdefecten
    • Percentage gewelddadige inhoudsdefecten
    • Percentage defecten van inhoud die betrekking heeft op eigen schade
    • Jailbreak defectfrequentie
  • Metrische gegevens over kwaliteit genereren:

    Deze metrische gegevens evalueren de algehele kwaliteit en samenhang van de gegenereerde inhoud.

    Deze omvatten:

    • Samenhang
    • Fluency
    • Geaardheid
    • Relevantie
    • Score ophalen
    • Gelijkenis

We ondersteunen de volgende met AI ondersteunde metrische gegevens voor de bovenstaande taaktypen:

Taaktype Alleen vragen en gegenereerde antwoorden (geen context of grondwaar nodig) Vragen en gegenereerde antwoorden + context Vraag en gegenereerde antwoorden + context + grondwaar
Antwoord op vragen - Metrische gegevens over risico en veiligheid (alle ai-ondersteunde): haatvolle en oneerlijke inhoudsdefectpercentage, percentage seksuele inhoudsdefecten, percentage gewelddadige inhoudsdefecten, zelfverschadigende inhoudsdefectpercentage en jailbreak-defectpercentage
- Metrische gegevens over de kwaliteit van de generatie (alle ai-assisted): coherentie, vloeiendheid
Metrische gegevens van vorige kolom
+
Metrische gegevens over de kwaliteit van de generatie (alle AI-ondersteund):
- Geaardheid
-Relevantie
Metrische gegevens van vorige kolom
+
Metrische gegevens over kwaliteit genereren:
Gelijkenis (ai-ondersteund)
F1-Score (traditionele ML-metrische gegevens)
Gesprek - Metrische gegevens over risico en veiligheid (alle ai-ondersteunde): haatvolle en oneerlijke inhoudsdefectpercentage, percentage seksuele inhoudsdefecten, percentage gewelddadige inhoudsdefecten, zelfverschadigende inhoudsdefectpercentage en jailbreak-defectpercentage
- Metrische gegevens over de kwaliteit van de generatie (alle ai-assisted): coherentie, vloeiendheid
Metrische gegevens van vorige kolom
+
Metrische gegevens over de kwaliteit van de generatie (alle AI-ondersteund):
- Geaardheid
- Ophaalscore
N.v.t.

Notitie

Hoewel we u een uitgebreide set ingebouwde metrische gegevens bieden die de eenvoudige en efficiënte evaluatie van de kwaliteit en veiligheid van uw generatieve AI-toepassing mogelijk maken, is het raadzaam deze aan uw specifieke taaktypen aan te passen en aan te passen. Bovendien stellen we u in staat om volledig nieuwe metrische gegevens te introduceren, zodat u uw toepassingen vanuit nieuwe hoeken kunt meten en de afstemming met uw unieke doelstellingen kunt garanderen.

Metrische gegevens over risico en veiligheid

De metrische gegevens over risico's en veiligheid zijn gebaseerd op inzichten die zijn verkregen uit onze vorige grote taalmodelprojecten zoals GitHub Copilot en Bing. Dit zorgt voor een uitgebreide benadering voor het evalueren van gegenereerde reacties op scores voor risico' s en ernstscores voor veiligheid. Deze metrische gegevens worden gegenereerd via onze veiligheidsevaluatieservice, die gebruikmaakt van een set LLM's. Elk model wordt belast met het beoordelen van specifieke risico's die in het antwoord kunnen voorkomen (bijvoorbeeld seksuele inhoud, gewelddadige inhoud, enzovoort). Deze modellen worden geleverd met risicodefinities en ernstschalen en ze maken aantekeningen bij gegenereerde gesprekken dienovereenkomstig. Op dit moment berekenen we een 'defectpercentage' voor de onderstaande risico- en veiligheidsgegevens. Voor elk van deze metrische gegevens meet de service of deze typen inhoud zijn gedetecteerd en op welk ernstniveau. Elk van de vier typen heeft drie ernstniveaus (Zeer laag, Laag, Gemiddeld, Hoog). Gebruikers geven een drempelwaarde voor tolerantie op en de defectsnelheden worden geproduceerd door onze service, komen overeen met het aantal exemplaren dat is gegenereerd op en boven elk drempelwaardeniveau.

Typen inhoud:

  • Haatvolle en oneerlijke inhoud
  • Seksuele inhoud
  • Gewelddadige inhoud
  • Inhoud met betrekking tot zelfschade

Naast de bovenstaande typen inhoud ondersteunen we ook "Jailbreak defect rate" in een vergelijkende weergave van evaluaties, een metrische waarde die de prevalentie van jailbreaks in modelreacties meet. Jailbreaks zijn wanneer een modelreactie de beperkingen omzeilt die erop zijn geplaatst. Jailbreak treedt ook op wanneer een LLM afwijkt van de beoogde taak of het beoogde onderwerp.

U kunt deze metrische gegevens over risico's en veiligheid meten op uw eigen gegevens of testgegevensset. Vervolgens kunt u evalueren op deze gesimuleerde testgegevensset om een geannoteerde testgegevensset met ernstniveaus voor inhoudsrisico's (zeer laag, laag, gemiddeld of hoog) uit te voeren en uw resultaten in Azure AI weer te geven. Dit biedt u de algehele defectfrequentie voor de hele testgegevensset en de instantieweergave van elk inhoudsrisicolabel en elke redenering.

In tegenstelling tot andere metrische gegevens in de tabel, kan jailbreak-beveiligingsprobleem niet betrouwbaar worden gemeten met aantekeningen door een LLM. Het jailbreakprobleem kan echter worden gemeten door de vergelijking van twee verschillende geautomatiseerde gegevenssets (1) met inhoudsrisicogegevensset versus (2) gegevensset met inhoudsrisicogegevensset met jailbreakinjecties in de eerste keer. Vervolgens evalueert de gebruiker het jailbreakprobleem door de risicopercentages van de inhoudsrisico's van de twee gegevenssets te vergelijken.

Notitie

Met AI ondersteunde risico- en veiligheidsstatistieken worden gehost door de back-endservice van Azure AI Studio-veiligheidsevaluaties en is alleen beschikbaar in de volgende regio's: VS - oost 2, Frankrijk - centraal, VK - zuid, Zweden - centraal.

Beschikbare regio's hebben de volgende capaciteit:

Regio TPM
Zweden - centraal 450k
Frankrijk - centraal 380k
Verenigd Koninkrijk Zuid 280k
VS - oost 2 80K

Haatvolle en oneerlijke inhoudsdefinitie en ernstschaal

Waarschuwing

De inhoudsrisicodefinities en ernstschalen bevatten beschrijvingen die voor sommige gebruikers storen.

Definitie van seksuele inhoud en ernstschaal

Waarschuwing

De inhoudsrisicodefinities en ernstschalen bevatten beschrijvingen die voor sommige gebruikers storen.

Gewelddadige inhoudsdefinitie en ernstschaal

Waarschuwing

De inhoudsrisicodefinities en ernstschalen bevatten beschrijvingen die voor sommige gebruikers storen.

Waarschuwing

De inhoudsrisicodefinities en ernstschalen bevatten beschrijvingen die voor sommige gebruikers storen.

Metrische gegevens over kwaliteit genereren

Metrische gegevens over de generatiekwaliteit worden gebruikt om de algehele kwaliteit van de inhoud te beoordelen die wordt geproduceerd door generatieve AI-toepassingen. Hier volgt een uitsplitsing van wat deze metrische gegevens met zich meebrengen:

AI-ondersteund: Groundedness

Voor geaardheid bieden we twee versies:

  • Groundedness Detection die gebruikmaakt van Azure AI Content Safety Service (AACS) via integratie in de veiligheidsevaluaties van Azure AI Studio. Er is geen implementatie vereist van de gebruiker als een back-endservice. De modellen bieden u de mogelijkheid om een score en redenering uit te voeren. Momenteel ondersteund in de volgende regio's: VS - oost 2 en Zweden - centraal.
  • Op vragen gebaseerde Groundedness met behulp van uw eigen modellen om alleen een score uit te voeren. Momenteel ondersteund in alle regio's.

AACS-geaardheid

Scorekenmerken Details van score
Scorebereik 1-5 waar 1 niet-geaard is en 5 geaard is
Wat is deze metrische waarde? Meet hoe goed de gegenereerde antwoorden van het model overeenkomen met informatie uit de brongegevens (bijvoorbeeld opgehaalde documenten in RAG-vraag en antwoorden of documenten voor samenvatting) en uitvoerredeneringen waarvoor specifieke gegenereerde zinnen niet zijn geaard.
Hoe werkt het? Groundedness Detection maakt gebruik van een aangepast taalmodel van Azure AI Content Safety Service dat is afgestemd op een verwerkingstaak voor natuurlijke taal met de naam Natural Language Inference (NLI), waarmee claims worden geëvalueerd als opgenomen in of niet door een brondocument. 
Wanneer moet ik het gebruiken? Gebruik de metrische basiswaarde wanneer u wilt controleren of ai-gegenereerde antwoorden overeenkomen met en worden gevalideerd door de opgegeven context. Het is essentieel voor toepassingen waarbij feitelijke juistheid en contextuele nauwkeurigheid essentieel zijn, zoals het ophalen van informatie, het beantwoorden van vragen en het samenvatten van inhoud. Deze metrische waarde zorgt ervoor dat de door AI gegenereerde antwoorden goed worden ondersteund door de context.
Wat heeft deze nodig als invoer? Vraag, context, gegenereerd antwoord

Alleen op prompt gebaseerde aarding

Scorekenmerken Details van score
Scorebereik 1-5 waar 1 niet-geaard is en 5 geaard is
Wat is deze metrische waarde? Meet hoe goed de gegenereerde antwoorden van het model overeenkomen met informatie uit de brongegevens (door de gebruiker gedefinieerde context).
Hoe werkt het? De basismeting beoordeelt de correspondentie tussen claims in een door AI gegenereerd antwoord en de broncontext, waarbij deze claims worden gestaafd door de context. Zelfs als de antwoorden van LLM feitelijk correct zijn, worden ze beschouwd als niet-geaard als ze niet kunnen worden geverifieerd op basis van de opgegeven bronnen (zoals uw invoerbron of uw database).
Wanneer moet ik het gebruiken? Gebruik de metrische basiswaarde wanneer u wilt controleren of ai-gegenereerde antwoorden overeenkomen met en worden gevalideerd door de opgegeven context. Het is essentieel voor toepassingen waarbij feitelijke juistheid en contextuele nauwkeurigheid essentieel zijn, zoals het ophalen van informatie, het beantwoorden van vragen en het samenvatten van inhoud. Deze metrische waarde zorgt ervoor dat de door AI gegenereerde antwoorden goed worden ondersteund door de context.
Wat heeft deze nodig als invoer? Vraag, context, gegenereerd antwoord

Ingebouwde prompt die door Large Language Model wordt gebruikt om deze metrische waarde te beoordelen:

You will be presented with a CONTEXT and an ANSWER about that CONTEXT. You need to decide whether the ANSWER is entailed by the CONTEXT by choosing one of the following rating: 

1. 5: The ANSWER follows logically from the information contained in the CONTEXT. 

2. 1: The ANSWER is logically false from the information contained in the CONTEXT. 

3. an integer score between 1 and 5 and if such integer score does not exist,  

use 1: It is not possible to determine whether the ANSWER is true or false without further information. 

Read the passage of information thoroughly and select the correct answer from the three answer labels. 

Read the CONTEXT thoroughly to ensure you know what the CONTEXT entails.  

Note the ANSWER is generated by a computer system, it can contain certain symbols, which should not be a negative factor in the evaluation. 

AI ondersteund: Relevantie

Scorekenmerken Details van score
Scorebereik Geheel getal [1-5]: waarbij 1 slecht is en 5 goed is
Wat is deze metrische waarde? Meet de mate waarin de gegenereerde antwoorden van het model relevant zijn en rechtstreeks gerelateerd zijn aan de gegeven vragen.
Hoe werkt het? De relevantiemeting beoordeelt de mogelijkheid van antwoorden om de belangrijkste punten van de context vast te leggen. Hoge relevantiescores geven aan dat het AI-systeem inzicht heeft in de invoer en de mogelijkheid om coherente en contextafhankelijke uitvoer te produceren. Omgekeerd geven lage relevantiescores aan dat gegenereerde antwoorden mogelijk niet-onderwerp zijn, ontbreken in context of onvoldoende in het aanpakken van de beoogde query's van de gebruiker.
Wanneer moet ik het gebruiken? Gebruik de metrische relevantie bij het evalueren van de prestaties van het AI-systeem bij het begrijpen van de invoer en het genereren van contextuele geschikte antwoorden.
Wat heeft deze nodig als invoer? Vraag, context, gegenereerd antwoord

Ingebouwde prompt die door Large Language Model wordt gebruikt om deze metrische waarde te beoordelen (voor vragen die de gegevensindeling beantwoorden):

Relevance measures how well the answer addresses the main aspects of the question, based on the context. Consider whether all and only the important aspects are contained in the answer when evaluating relevance. Given the context and question, score the relevance of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks relevance 

Two stars: the answer mostly lacks relevance 

Three stars: the answer is partially relevant 

Four stars: the answer is mostly relevant 

Five stars: the answer has perfect relevance 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Ingebouwde prompt die door Large Language Model wordt gebruikt om deze metrische waarde te beoordelen (voor gespreksgegevensindeling) (zonder ground truth beschikbaar):

You will be provided a question, a conversation history, fetched documents related to the question and a response to the question in the {DOMAIN} domain. Your task is to evaluate the quality of the provided response by following the steps below:  
 
- Understand the context of the question based on the conversation history.  
 
- Generate a reference answer that is only based on the conversation history, question, and fetched documents. Don't generate the reference answer based on your own knowledge.  
 
- You need to rate the provided response according to the reference answer if it's available on a scale of 1 (poor) to 5 (excellent), based on the below criteria:  
 
5 - Ideal: The provided response includes all information necessary to answer the question based on the reference answer and conversation history. Please be strict about giving a 5 score.  
 
4 - Mostly Relevant: The provided response is mostly relevant, although it might be a little too narrow or too broad based on the reference answer and conversation history.  
 
3 - Somewhat Relevant: The provided response might be partly helpful but might be hard to read or contain other irrelevant content based on the reference answer and conversation history.  
 
2 - Barely Relevant: The provided response is barely relevant, perhaps shown as a last resort based on the reference answer and conversation history.  
 
1 - Completely Irrelevant: The provided response should never be used for answering this question based on the reference answer and conversation history.  
 
- You need to rate the provided response to be 5, if the reference answer can not be generated since no relevant documents were retrieved.  
 
- You need to first provide a scoring reason for the evaluation according to the above criteria, and then provide a score for the quality of the provided response.  
 
- You need to translate the provided response into English if it's in another language. 

- Your final response must include both the reference answer and the evaluation result. The evaluation result should be written in English.  

Ingebouwde prompt die door Large Language Model wordt gebruikt om deze metrische waarde te beoordelen (voor gespreksgegevensindeling) (met beschikbare Ground Truth):


Your task is to score the relevance between a generated answer and the question based on the ground truth answer in the range between 1 and 5, and please also provide the scoring reason.  
 
Your primary focus should be on determining whether the generated answer contains sufficient information to address the given question according to the ground truth answer.   
 
If the generated answer fails to provide enough relevant information or contains excessive extraneous information, then you should reduce the score accordingly.  
 
If the generated answer contradicts the ground truth answer, it will receive a low score of 1-2.   
 
For example, for question "Is the sky blue?", the ground truth answer is "Yes, the sky is blue." and the generated answer is "No, the sky is not blue.".   
 
In this example, the generated answer contradicts the ground truth answer by stating that the sky is not blue, when in fact it is blue.   
 
This inconsistency would result in a low score of 1-2, and the reason for the low score would reflect the contradiction between the generated answer and the ground truth answer.  
 
Please provide a clear reason for the low score, explaining how the generated answer contradicts the ground truth answer.  
 
Labeling standards are as following:  
 
5 - ideal, should include all information to answer the question comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
4 - mostly relevant, although it might be a little too narrow or too broad comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
3 - somewhat relevant, might be partly helpful but might be hard to read or contain other irrelevant content comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
2 - barely relevant, perhaps shown as a last resort comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  
 
1 - completely irrelevant, should never be used for answering this question comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  

AI-ondersteund: Coherentie

Scorekenmerken Details van score
Scorebereik Geheel getal [1-5]: waarbij 1 slecht is en 5 goed is
Wat is deze metrische waarde? Meet hoe goed het taalmodel uitvoer kan produceren die soepel stroomt, natuurlijk leest en lijkt op menselijke taal.
Hoe werkt het? De coherentiemeting beoordeelt de mogelijkheid van het taalmodel om tekst te genereren die op natuurlijke wijze wordt gelezen, soepel stroomt en lijkt op menselijke taal in de antwoorden.
Wanneer moet ik het gebruiken? Gebruik deze functie bij het beoordelen van de leesbaarheid en gebruiksvriendelijkheid van de gegenereerde reacties van uw model in echte toepassingen.
Wat heeft deze nodig als invoer? Vraag, gegenereerd antwoord

Ingebouwde prompt die door Large Language Model wordt gebruikt om deze metrische waarde te beoordelen:

Coherence of an answer is measured by how well all the sentences fit together and sound naturally as a whole. Consider the overall quality of the answer when evaluating coherence. Given the question and answer, score the coherence of answer between one to five stars using the following rating scale: 

One star: the answer completely lacks coherence 

Two stars: the answer mostly lacks coherence 

Three stars: the answer is partially coherent 

Four stars: the answer is mostly coherent 

Five stars: the answer has perfect coherency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

AI-ondersteund: fluency

Scorekenmerken Details van score
Scorebereik Geheel getal [1-5]: waarbij 1 slecht is en 5 goed is
Wat is deze metrische waarde? Meet de grammaticale vaardigheid van een voorspellend AI-antwoord.
Hoe werkt het? De fluency-meting beoordeelt de mate waarin de gegenereerde tekst voldoet aan grammaticaregels, syntactische structuren en het juiste vocabulaire gebruik, wat resulteert in taalkundige correcte antwoorden.
Wanneer moet ik het gebruiken? Gebruik deze bij het evalueren van de taalkundige juistheid van de door AI gegenereerde tekst, zodat deze voldoet aan de juiste grammaticale regels, syntactische structuren en vocabulaire gebruik in de gegenereerde antwoorden.
Wat heeft deze nodig als invoer? Vraag, gegenereerd antwoord

Ingebouwde prompt die door Large Language Model wordt gebruikt om deze metrische waarde te beoordelen:

Fluency measures the quality of individual sentences in the answer, and whether they are well-written and grammatically correct. Consider the quality of individual sentences when evaluating fluency. Given the question and answer, score the fluency of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks fluency 

Two stars: the answer mostly lacks fluency 

Three stars: the answer is partially fluent 

Four stars: the answer is mostly fluent 

Five stars: the answer has perfect fluency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

AI-ondersteund: Score ophalen

Scorekenmerken Details van score
Scorebereik Float [1-5]: waarbij 1 slecht is en 5 goed is
Wat is deze metrische waarde? Meet de mate waarin de opgehaalde documenten van het model relevant zijn en rechtstreeks gerelateerd zijn aan de gegeven vragen.
Hoe werkt het? De score voor het ophalen meet de kwaliteit en relevantie van het opgehaalde document op de vraag van de gebruiker (samengevat in de hele gespreksgeschiedenis). Stappen: Stap 1: De query van de gebruiker opsplitsen in intenties, de intenties extraheren uit de gebruikersquery, zoals 'Hoeveel is de Virtuele Linux-machine van Azure en Azure Windows?' -> Intentie is ["wat zijn de prijzen van azure Linux-VM?", "Wat zijn de prijzen van Azure Windows-VM?"]. Stap 2: Voor elke intentie van de gebruikersquery vraagt u het model om te beoordelen of de intentie zelf of het antwoord op de intentie aanwezig is of kan worden afgeleid uit opgehaalde documenten. Het antwoord kan 'Nee' of 'Ja, documenten [doc1], [doc2]...' zijn. Ja betekent dat de opgehaalde documenten betrekking hebben op de intentie of het antwoord op de intentie, en omgekeerd. Stap 3: Bereken het deel van de intenties met een antwoord dat begint met Ja. In dit geval hebben alle intenties gelijke urgentie. Stap 4: Ten slotte kwadrateert u de score om de fouten te bestraffen.
Wanneer moet ik het gebruiken? Gebruik de ophaalscore als u wilt garanderen dat de opgehaalde documenten zeer relevant zijn voor het beantwoorden van de vragen van uw gebruikers. Deze score zorgt voor de kwaliteit en geschiktheid van de opgehaalde inhoud.
Wat heeft deze nodig als invoer? Vraag, context, gegenereerd antwoord

Ingebouwde prompt die door Large Language Model wordt gebruikt om deze metrische waarde te beoordelen:

A chat history between user and bot is shown below 

A list of documents is shown below in json format, and each document has one unique id.  

These listed documents are used as contex to answer the given question. 

The task is to score the relevance between the documents and the potential answer to the given question in the range of 1 to 5.  

1 means none of the documents is relevant to the question at all. 5 means either one of the document or combination of a few documents is ideal for answering the given question. 

Think through step by step: 

- Summarize each given document first 

- Determine the underlying intent of the given question, when the question is ambiguous, refer to the given chat history  

- Measure how suitable each document to the given question, list the document id and the corresponding relevance score.  

- Summarize the overall relevance of given list of documents to the given question after # Overall Reason, note that the answer to the question can soley from single document or a combination of multiple documents.  

- Finally, output "# Result" followed by a score from 1 to 5.  

  

# Question 

{{ query }} 

# Chat History 

{{ history }} 

# Documents 

---BEGIN RETRIEVED DOCUMENTS--- 

{{ FullBody }} 

---END RETRIEVED DOCUMENTS--- 

AI-ondersteund: GPT-gelijkenis

Scorekenmerken Details van score
Scorebereik Geheel getal [1-5]: waarbij 1 slecht is en 5 goed is
Wat is deze metrische waarde? Meet de overeenkomst tussen een brongegevens (grondwaar) zin en het gegenereerde antwoord door een AI-model.
Hoe werkt het? De GPT-overeenkomstmeting evalueert de gelijkenis tussen een grondwaarzin (of document) en de gegenereerde voorspelling van het AI-model. Deze berekening omvat het maken van insluitingen op zinsniveau voor zowel de grondwaar als de voorspelling van het model. Dit zijn high-dimensionale vectorweergaven die de semantische betekenis en context van de zinnen vastleggen.
Wanneer moet ik het gebruiken? Gebruik dit wanneer u een objectieve evaluatie van de prestaties van een AI-model wilt, met name in taken voor het genereren van tekst, waar u toegang hebt tot antwoorden op grond van waarheid. Met GPT-gelijkenis kunt u de semantische uitlijning van de gegenereerde tekst met de gewenste inhoud beoordelen, zodat u de kwaliteit en nauwkeurigheid van het model kunt meten.
Wat heeft deze nodig als invoer? Vraag, Ground Truth Answer, Gegenereerd antwoord

Ingebouwde prompt die door Large Language Model wordt gebruikt om deze metrische waarde te beoordelen:

GPT-Similarity, as a metric, measures the similarity between the predicted answer and the correct answer. If the information and content in the predicted answer is similar or equivalent to the correct answer, then the value of the Equivalence metric should be high, else it should be low. Given the question, correct answer, and predicted answer, determine the value of Equivalence metric using the following rating scale: 

One star: the predicted answer is not at all similar to the correct answer 

Two stars: the predicted answer is mostly not similar to the correct answer 

Three stars: the predicted answer is somewhat similar to the correct answer 

Four stars: the predicted answer is mostly similar to the correct answer 

Five stars: the predicted answer is completely similar to the correct answer 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Traditionele machine learning: F1-score

Scorekenmerken Details van score
Scorebereik Float [0-1]
Wat is deze metrische waarde? Meet de verhouding van het aantal gedeelde woorden tussen het genereren van het model en de antwoorden op de grondwaar.
Hoe werkt het? De F1-score berekent de verhouding van het aantal gedeelde woorden tussen het genereren van het model en de grondwaar. De verhouding wordt berekend over de afzonderlijke woorden in het gegenereerde antwoord op de woorden in het antwoord op de grond waarheid. Het aantal gedeelde woorden tussen de generatie en de waarheid is de basis van de F1-score: precisie is de verhouding van het aantal gedeelde woorden tot het totale aantal woorden in de generatie en relevante overeenkomsten is de verhouding van het aantal gedeelde woorden tot het totale aantal woorden in de grondwaar.
Wanneer moet ik het gebruiken? Gebruik de F1-score als u één uitgebreide metriek wilt die zowel relevante overeenkomsten als precisie combineert in de antwoorden van uw model. Het biedt een evenwichtige evaluatie van de prestaties van uw model in termen van het vastleggen van nauwkeurige informatie in het antwoord.
Wat heeft deze nodig als invoer? Vraag, Ground Truth Answer, Gegenereerd antwoord

Volgende stappen