Share via


Utvärderings- och övervakningsmått för generativ AI

Viktigt!

Vissa av de funktioner som beskrivs i den här artikeln kanske bara är tillgängliga i förhandsversionen. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Med Azure AI Studio kan du utvärdera konversationer med en enda tur eller komplexa konversationer med flera svängar där du maler den generativa AI-modellen i dina specifika data (även kallat hämtningsförhöjd generation eller RAG). Du kan också utvärdera allmänna svarsscenarier med en enda svarsfråga, där ingen kontext används för att grunda din generativa AI-modell (icke-RAG). För närvarande stöder vi inbyggda mått för följande aktivitetstyper:

Svar på frågor (enkel tur)

I den här konfigurationen ställer användarna enskilda frågor eller frågor, och en generativ AI-modell används för att omedelbart generera svar.

Testuppsättningsformatet följer det här dataformatet:

{"question":"Which tent is the most waterproof?","context":"From our product list, the Alpine Explorer tent is the most waterproof. The Adventure Dining Table has higher weight.","answer":"The Alpine Explorer Tent is the most waterproof.","ground_truth":"The Alpine Explorer Tent has the highest rainfly waterproof rating at 3000m"} 

Kommentar

Fälten "context" och "ground truth" är valfria och de mått som stöds beror på vilka fält du anger

Konversation (enkel tur och flera svängar)

I det här sammanhanget deltar användarna i konversationsinteraktioner, antingen via en serie svängar eller i ett enda utbyte. Den generativa AI-modellen, utrustad med hämtningsmekanismer, genererar svar och kan komma åt och införliva information från externa källor, till exempel dokument. RAG-modellen (Retrieval Augmented Generation) förbättrar kvaliteten och relevansen för svar med hjälp av externa dokument och kunskaper.

Testuppsättningsformatet följer det här dataformatet:

{"messages":[{"role":"user","content":"How can I check the status of my online order?"},{"content":"Hi Sarah Lee! To check the status of your online order for previous purchases such as the TrailMaster X4 Tent or the CozyNights Sleeping Bag, please refer to your email for order confirmation and tracking information. If you need further assistance, feel free to contact our customer support at support@contosotrek.com or give us a call at 1-800-555-1234.
","role":"assistant","context":{"citations":[{"id":"cHJvZHVjdF9pbmZvXzYubWQz","title":"Information about product item_number: 6","content":"# Information about product item_number: 6\n\nIt's essential to check local regulations before using the EcoFire Camping Stove, as some areas may have restrictions on open fires or require a specific type of stove.\n\n30) How do I clean and maintain the EcoFire Camping Stove?\n   To clean the EcoFire Camping Stove, allow it to cool completely, then wipe away any ash or debris with a brush or cloth. Store the stove in a dry place when not in use."}]}}]}

Mått som stöds

Som beskrivs i metoderna för att utvärdera stora språkmodeller finns det manuella och automatiserade mätmetoder. Automatiserad mätning är användbar för att mäta i stor skala med ökad täckning för att ge mer omfattande resultat. Det är också användbart för löpande mätning att övervaka eventuell regression när systemet, användningen och minskningarna utvecklas.

Vi stöder två huvudsakliga metoder för automatiserad mätning av generativa AI-program:

  • Traditionella maskininlärningsmått
  • AI-assisterade mått

AI-assisterade mått använder språkmodeller som GPT-4 för att utvärdera AI-genererade utdata, särskilt i situationer där förväntade svar inte är tillgängliga på grund av avsaknaden av en definierad grundsanning. Traditionella maskininlärningsmått, till exempel F1-poäng, mäter precisionen och återkallandet mellan AI-genererade svar och förväntade svar.

Våra AI-assisterade mått utvärderar säkerheten och generationskvaliteten för generativa AI-program. Dessa mått delas in i två olika kategorier:

  • Risk- och säkerhetsmått:

    Dessa mått fokuserar på att identifiera potentiella innehålls- och säkerhetsrisker och säkerställa säkerheten för det genererade innehållet.

    De omfattar:

    • Hatiskt och orättvist innehåll defekt hastighet
    • Felfrekvens för sexuellt innehåll
    • Defekt frekvens för våldsamt innehåll
    • Felfrekvens för självskadebeteende för innehåll
    • Jailbreak defekt frekvens
  • Kvalitetsmått för generation:

    Dessa mått utvärderar den övergripande kvaliteten och konsekvensen för det genererade innehållet.

    De omfattar:

    • Samstämmighet
    • Flyt
    • Grundstötning
    • Relevans
    • Hämtningspoäng
    • Likhet

Vi stöder följande AI-assisterade mått för ovanstående aktivitetstyper:

Uppgiftstyp Endast fråga och genererade svar (ingen kontext eller grund sanning behövs) Frågor och genererade svar + kontext Fråga och genererade svar + Kontext + Grund sanning
Svar på frågor - Risk- och säkerhetsmått (alla AI-assisterade): hatiskt och orättvist innehåll defekt frekvens, sexuellt innehåll defekt frekvens, våldsamt innehåll defekt hastighet, självskada-relaterade innehåll defekt frekvens och jailbreak defekt frekvens
– Kvalitetsmått för generation (alla AI-assisterad): Koherens, fluency
Mått för föregående kolumn
+
Kvalitetsmått för generation (alla AI-assisterade):
- Grundstötning
-Relevans
Mått för föregående kolumn
+
Kvalitetsmått för generation:
Likhet (AI-assisterad)
F1-Poäng (traditionellt ML-mått)
Konversation - Risk- och säkerhetsmått (alla AI-assisterade): hatiskt och orättvist innehåll defekt frekvens, sexuellt innehåll defekt frekvens, våldsamt innehåll defekt hastighet, självskada-relaterade innehåll defekt frekvens och jailbreak defekt frekvens
– Kvalitetsmått för generation (alla AI-assisterad): Koherens, fluency
Mått för föregående kolumn
+
Kvalitetsmått för generation (alla AI-assisterade):
- Grundstötning
- Hämtningspoäng
Inte tillgänglig

Kommentar

Vi ger dig en omfattande uppsättning inbyggda mått som underlättar en enkel och effektiv utvärdering av kvaliteten och säkerheten för ditt generativa AI-program, men det är bästa praxis att anpassa dem till dina specifika uppgiftstyper. Dessutom ger vi dig möjlighet att introducera helt nya mått, så att du kan mäta dina program från nya vinklar och säkerställa anpassning till dina unika mål.

Risk- och säkerhetsmått

Risk- och säkerhetsmåtten bygger på insikter från våra tidigare stora språkmodellprojekt som GitHub Copilot och Bing. Detta säkerställer en omfattande metod för att utvärdera genererade svar för risk- och säkerhetspoäng. Dessa mått genereras via vår säkerhetsutvärderingstjänst, som använder en uppsättning LLM:er. Varje modell har till uppgift att bedöma specifika risker som kan finnas i svaret (till exempel sexuellt innehåll, våldsamt innehåll osv.). Dessa modeller är försett med riskdefinitioner och allvarlighetsgradsskalor, och de kommenterar genererade konversationer i enlighet med detta. För närvarande beräknar vi en "defekt hastighet" för risk- och säkerhetsmåtten nedan. För vart och ett av dessa mått mäter tjänsten om dessa typer av innehåll har identifierats och på vilken allvarlighetsgrad. Var och en av de fyra typerna har tre allvarlighetsnivåer (Mycket låg, Låg, Medel, Hög). Användare anger ett tröskelvärde för tolerans, och defektfrekvensen produceras av vår tjänst motsvarar antalet instanser som genererades vid och över varje tröskelvärdesnivå.

Typer av innehåll:

  • Hatiskt och orättvist innehåll
  • Sexuellt innehåll
  • Våldsamt innehåll
  • Självskaderelaterat innehåll

Förutom ovanstående typer av innehåll stöder vi även "Jailbreak defect rate" i en jämförande vy över utvärderingar, ett mått som mäter förekomsten av jailbreaks i modellsvar. Jailbreaks är när ett modellsvar kringgår begränsningarna för det. Jailbreak sker också när en LLM avviker från den avsedda uppgiften eller ämnet.

Du kan mäta dessa risk- och säkerhetsmått på dina egna data eller testa datamängden. Sedan kan du utvärdera den här simulerade testdatauppsättningen för att mata ut en kommenterad testdatauppsättning med allvarlighetsgrad för innehållsrisker (mycket låg, låg, medel eller hög) och visa dina resultat i Azure AI , vilket ger dig en övergripande defektfrekvens i hela testdatauppsättningen och instansvyn för varje innehållsrisketikett och resonemang.

Till skillnad från andra mått i tabellen kan sårbarheter i jailbreak inte mätas på ett tillförlitligt sätt med anteckningar av en LLM. Säkerhetsrisk för jailbreak kan dock mätas genom jämförelsen av två olika automatiserade datamängder (1) datauppsättning för innehållsrisk jämfört med (2) datauppsättning för innehållsrisk med jailbreak-inmatningar i första svängen. Sedan utvärderar användaren sårbarheten för jailbreak genom att jämföra de två datauppsättningarnas felfrekvens för innehållsrisk.

Kommentar

AI-assisterade risk- och säkerhetsmått hanteras av Azure AI Studio-säkerhetsutvärderingars backend-tjänst och är endast tillgänglig i följande regioner: USA, östra 2, Frankrike, centrala, Storbritannien, södra, Sverige, centrala.

Tillgängliga regioner har följande kapacitet:

Region TPM
Sverige, centrala 450k
Centrala Frankrike 380k
Södra Storbritannien 280k
USA, östra 2 80 000

Hatiskt och orättvist innehåll definition och allvarlighetsgrad skala

Varning

Definitioner av innehållsrisker och allvarlighetsgradsskalor innehåller beskrivningar som kan vara störande för vissa användare.

Definition och allvarlighetsgrad för sexuellt innehåll

Varning

Definitioner av innehållsrisker och allvarlighetsgradsskalor innehåller beskrivningar som kan vara störande för vissa användare.

Definition av våldsamt innehåll och allvarlighetsgrad

Varning

Definitioner av innehållsrisker och allvarlighetsgradsskalor innehåller beskrivningar som kan vara störande för vissa användare.

Varning

Definitioner av innehållsrisker och allvarlighetsgradsskalor innehåller beskrivningar som kan vara störande för vissa användare.

Kvalitetsmått för generation

Kvalitetsmått för generation används för att utvärdera den övergripande kvaliteten på innehållet som produceras av generativa AI-program. Här är en uppdelning av vad dessa mått innebär:

AI-assisterad: Groundedness

För grunderna tillhandahåller vi två versioner:

  • Grundavkänning som utnyttjar Azure AI Content Valv ty Service (AACS) via integrering i Azure AI Studio-säkerhetsutvärderingarna. Ingen distribution krävs från användaren eftersom en serverdelstjänst tillhandahåller modeller som du kan använda för att mata ut en poäng och ett resonemang. Stöds för närvarande i följande regioner: USA, östra 2 och Sverige, centrala.
  • Prompt-only-based Groundedness använder dina egna modeller för att endast mata ut en poäng. Stöds för närvarande i alla regioner.

AACS-baserad grund

Poängegenskaper Poänginformation
Poängintervall 1-5 där 1 är ojordad och 5 är jordad
Vad är det här måttet? Mäter hur väl modellens genererade svar överensstämmer med information från källdata (till exempel hämtade dokument i RAG-fråga och svar eller dokument för sammanfattning) och utdataskäl för vilka specifika genererade meningar är ogrundade.
Hur fungerar det? Grundavkänning utnyttjar en anpassad språkmodell för Azure AI Content Valv ty Service som finjusteras till en bearbetningsuppgift för naturligt språk som kallas NLI (Natural Language Inference), som utvärderar anspråk som medförde eller inte medförs av ett källdokument. 
När ska du använda den? Använd måttet groundedness när du behöver kontrollera att AI-genererade svar överensstämmer med och verifieras av den angivna kontexten. Det är viktigt för program där faktisk korrekthet och kontextuell noggrannhet är viktiga, till exempel informationshämtning, frågesvar och innehållssammanfattning. Det här måttet säkerställer att de AI-genererade svaren stöds väl av kontexten.
Vad behöver den som indata? Fråga, kontext, genererat svar

Prompt-only-based groundedness

Poängegenskaper Poänginformation
Poängintervall 1-5 där 1 är ojordad och 5 är jordad
Vad är det här måttet? Mäter hur väl modellens genererade svar överensstämmer med information från källdata (användardefinierad kontext).
Hur fungerar det? Grundmåttet utvärderar korrespondensen mellan anspråk i ett AI-genererat svar och källkontexten, vilket säkerställer att dessa anspråk underbyggs av kontexten. Även om svaren från LLM är faktamässigt korrekta betraktas de som ogrundade om de inte kan verifieras mot de angivna källorna (till exempel din indatakälla eller din databas).
När ska du använda den? Använd måttet groundedness när du behöver kontrollera att AI-genererade svar överensstämmer med och verifieras av den angivna kontexten. Det är viktigt för program där faktisk korrekthet och kontextuell noggrannhet är viktiga, till exempel informationshämtning, frågesvar och innehållssammanfattning. Det här måttet säkerställer att de AI-genererade svaren stöds väl av kontexten.
Vad behöver den som indata? Fråga, kontext, genererat svar

Inbyggd prompt som används av large language model judge för att bedöma det här måttet:

You will be presented with a CONTEXT and an ANSWER about that CONTEXT. You need to decide whether the ANSWER is entailed by the CONTEXT by choosing one of the following rating: 

1. 5: The ANSWER follows logically from the information contained in the CONTEXT. 

2. 1: The ANSWER is logically false from the information contained in the CONTEXT. 

3. an integer score between 1 and 5 and if such integer score does not exist,  

use 1: It is not possible to determine whether the ANSWER is true or false without further information. 

Read the passage of information thoroughly and select the correct answer from the three answer labels. 

Read the CONTEXT thoroughly to ensure you know what the CONTEXT entails.  

Note the ANSWER is generated by a computer system, it can contain certain symbols, which should not be a negative factor in the evaluation. 

AI-assisterad: Relevans

Poängegenskaper Poänginformation
Poängintervall Heltal [1-5]: där 1 är dåligt och 5 är bra
Vad är det här måttet? Mäter i vilken utsträckning modellens genererade svar är relevanta och direkt relaterade till de aktuella frågorna.
Hur fungerar det? Relevansmåttet utvärderar svarens förmåga att samla in viktiga punkter i kontexten. Höga relevanspoäng betyder AI-systemets förståelse av indata och dess förmåga att producera sammanhängande och kontextuellt lämpliga utdata. Omvänt indikerar låga relevanspoäng att genererade svar kan vara utanför ämnet, saknas i kontexten eller otillräckliga när det gäller att hantera användarens avsedda frågor.
När ska du använda den? Använd relevansmåttet när du utvärderar AI-systemets prestanda för att förstå indata och generera kontextuellt lämpliga svar.
Vad behöver den som indata? Fråga, kontext, genererat svar

Inbyggd fråga som används av large language model judge för att poängsätta det här måttet (För frågesvarsdataformat):

Relevance measures how well the answer addresses the main aspects of the question, based on the context. Consider whether all and only the important aspects are contained in the answer when evaluating relevance. Given the context and question, score the relevance of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks relevance 

Two stars: the answer mostly lacks relevance 

Three stars: the answer is partially relevant 

Four stars: the answer is mostly relevant 

Five stars: the answer has perfect relevance 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Inbyggd prompt som används av large language model judge för att bedöma det här måttet (för konversationsdataformat) (utan ground truth tillgänglig):

You will be provided a question, a conversation history, fetched documents related to the question and a response to the question in the {DOMAIN} domain. Your task is to evaluate the quality of the provided response by following the steps below:  
 
- Understand the context of the question based on the conversation history.  
 
- Generate a reference answer that is only based on the conversation history, question, and fetched documents. Don't generate the reference answer based on your own knowledge.  
 
- You need to rate the provided response according to the reference answer if it's available on a scale of 1 (poor) to 5 (excellent), based on the below criteria:  
 
5 - Ideal: The provided response includes all information necessary to answer the question based on the reference answer and conversation history. Please be strict about giving a 5 score.  
 
4 - Mostly Relevant: The provided response is mostly relevant, although it might be a little too narrow or too broad based on the reference answer and conversation history.  
 
3 - Somewhat Relevant: The provided response might be partly helpful but might be hard to read or contain other irrelevant content based on the reference answer and conversation history.  
 
2 - Barely Relevant: The provided response is barely relevant, perhaps shown as a last resort based on the reference answer and conversation history.  
 
1 - Completely Irrelevant: The provided response should never be used for answering this question based on the reference answer and conversation history.  
 
- You need to rate the provided response to be 5, if the reference answer can not be generated since no relevant documents were retrieved.  
 
- You need to first provide a scoring reason for the evaluation according to the above criteria, and then provide a score for the quality of the provided response.  
 
- You need to translate the provided response into English if it's in another language. 

- Your final response must include both the reference answer and the evaluation result. The evaluation result should be written in English.  

Inbyggd prompt som används av large language model judge för att bedöma det här måttet (för konversationsdataformat) (med Ground Truth tillgängligt):


Your task is to score the relevance between a generated answer and the question based on the ground truth answer in the range between 1 and 5, and please also provide the scoring reason.  
 
Your primary focus should be on determining whether the generated answer contains sufficient information to address the given question according to the ground truth answer.   
 
If the generated answer fails to provide enough relevant information or contains excessive extraneous information, then you should reduce the score accordingly.  
 
If the generated answer contradicts the ground truth answer, it will receive a low score of 1-2.   
 
For example, for question "Is the sky blue?", the ground truth answer is "Yes, the sky is blue." and the generated answer is "No, the sky is not blue.".   
 
In this example, the generated answer contradicts the ground truth answer by stating that the sky is not blue, when in fact it is blue.   
 
This inconsistency would result in a low score of 1-2, and the reason for the low score would reflect the contradiction between the generated answer and the ground truth answer.  
 
Please provide a clear reason for the low score, explaining how the generated answer contradicts the ground truth answer.  
 
Labeling standards are as following:  
 
5 - ideal, should include all information to answer the question comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
4 - mostly relevant, although it might be a little too narrow or too broad comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
3 - somewhat relevant, might be partly helpful but might be hard to read or contain other irrelevant content comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
2 - barely relevant, perhaps shown as a last resort comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  
 
1 - completely irrelevant, should never be used for answering this question comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  

AI-assisterad: Enhetlighet

Poängegenskaper Poänginformation
Poängintervall Heltal [1-5]: där 1 är dåligt och 5 är bra
Vad är det här måttet? Mäter hur väl språkmodellen kan producera utdata som flödar smidigt, läser naturligt och liknar mänskligt språk.
Hur fungerar det? Konsekvensmåttet utvärderar språkmodellens förmåga att generera text som läser naturligt, flödar smidigt och liknar mänskligt språk i sina svar.
När ska du använda den? Använd den när du utvärderar läsbarheten och användarvänligheten hos modellens genererade svar i verkliga program.
Vad behöver den som indata? Fråga, genererat svar

Inbyggd prompt som används av large language model judge för att bedöma det här måttet:

Coherence of an answer is measured by how well all the sentences fit together and sound naturally as a whole. Consider the overall quality of the answer when evaluating coherence. Given the question and answer, score the coherence of answer between one to five stars using the following rating scale: 

One star: the answer completely lacks coherence 

Two stars: the answer mostly lacks coherence 

Three stars: the answer is partially coherent 

Four stars: the answer is mostly coherent 

Five stars: the answer has perfect coherency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

AI-assisterad: Flyt

Poängegenskaper Poänginformation
Poängintervall Heltal [1-5]: där 1 är dåligt och 5 är bra
Vad är det här måttet? Mäter den grammatiska kompetensen hos en generativ AI:s förutsagda svar.
Hur fungerar det? Flytmåttet bedömer i vilken utsträckning den genererade texten överensstämmer med grammatiska regler, syntaktiska strukturer och lämplig vokabuläranvändning, vilket resulterar i språkligt korrekta svar.
När ska du använda den? Använd den när du utvärderar den AI-genererade textens språkliga korrekthet och ser till att den följer rätt grammatiska regler, syntaktiska strukturer och vokabuläranvändning i de genererade svaren.
Vad behöver den som indata? Fråga, genererat svar

Inbyggd prompt som används av large language model judge för att bedöma det här måttet:

Fluency measures the quality of individual sentences in the answer, and whether they are well-written and grammatically correct. Consider the quality of individual sentences when evaluating fluency. Given the question and answer, score the fluency of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks fluency 

Two stars: the answer mostly lacks fluency 

Three stars: the answer is partially fluent 

Four stars: the answer is mostly fluent 

Five stars: the answer has perfect fluency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

AI-assisterad: Hämtningspoäng

Poängegenskaper Poänginformation
Poängintervall Float [1-5]: där 1 är dålig och 5 är bra
Vad är det här måttet? Mäter i vilken utsträckning modellens hämtade dokument är relevanta och direkt relaterade till de aktuella frågorna.
Hur fungerar det? Hämtningspoäng mäter det hämtade dokumentets kvalitet och relevans för användarens fråga (sammanfattad i hela konversationshistoriken). Steg: Steg 1: Dela upp användarfråga i avsikter, Extrahera avsikter från användarfråga som "Hur mycket är den virtuella Azure Linux-datorn och den virtuella Azure Windows-datorn?" –> Avsikten skulle vara ["what's the pricing of Azure Linux VM?", "What's the pricing of Azure Windows VM?"]. Steg 2: För varje avsikt med användarfråga ber du modellen att bedöma om själva avsikten eller svaret på avsikten finns eller kan härledas från hämtade dokument. Svaret kan vara "Nej" eller "Ja, dokument [doc1], [doc2]...". "Ja" innebär att de hämtade dokumenten relaterar till avsikten eller svaret på avsikten och vice versa. Steg 3: Beräkna bråkdelen av de avsikter som har ett svar som börjar med "Ja". I det här fallet har alla avsikter lika stor betydelse. Steg 4: Slutligen, kvadrat poängen för att straffa misstagen.
När ska du använda den? Använd hämtningspoängen när du vill garantera att de dokument som hämtas är mycket relevanta för att besvara användarnas frågor. Den här poängen hjälper till att säkerställa kvaliteten och lämpligheten hos det hämtade innehållet.
Vad behöver den som indata? Fråga, kontext, genererat svar

Inbyggd prompt som används av large language model judge för att bedöma det här måttet:

A chat history between user and bot is shown below 

A list of documents is shown below in json format, and each document has one unique id.  

These listed documents are used as contex to answer the given question. 

The task is to score the relevance between the documents and the potential answer to the given question in the range of 1 to 5.  

1 means none of the documents is relevant to the question at all. 5 means either one of the document or combination of a few documents is ideal for answering the given question. 

Think through step by step: 

- Summarize each given document first 

- Determine the underlying intent of the given question, when the question is ambiguous, refer to the given chat history  

- Measure how suitable each document to the given question, list the document id and the corresponding relevance score.  

- Summarize the overall relevance of given list of documents to the given question after # Overall Reason, note that the answer to the question can soley from single document or a combination of multiple documents.  

- Finally, output "# Result" followed by a score from 1 to 5.  

  

# Question 

{{ query }} 

# Chat History 

{{ history }} 

# Documents 

---BEGIN RETRIEVED DOCUMENTS--- 

{{ FullBody }} 

---END RETRIEVED DOCUMENTS--- 

AI-assisterad: GPT-Similarity

Poängegenskaper Poänginformation
Poängintervall Heltal [1-5]: där 1 är dåligt och 5 är bra
Vad är det här måttet? Mäter likheten mellan en källdatadom (grundsanning) och det genererade svaret från en AI-modell.
Hur fungerar det? GPT-likhetsmåttet utvärderar likheten mellan en grundläggande sannings mening (eller dokument) och AI-modellens genererade förutsägelse. Den här beräkningen omfattar att skapa inbäddningar på meningsnivå för både grundsanningen och modellens förutsägelse, som är högdimensionella vektorrepresentationer som fångar den semantiska innebörden och kontexten för meningarna.
När ska du använda den? Använd den när du vill ha en objektiv utvärdering av en AI-modells prestanda, särskilt i textgenereringsuppgifter där du har tillgång till svar på grund sanning. GPT-likhet gör att du kan utvärdera den genererade textens semantiska justering med önskat innehåll, vilket hjälper till att mäta modellens kvalitet och noggrannhet.
Vad behöver den som indata? Fråga, grund sanningssvar, genererat svar

Inbyggd prompt som används av large language model judge för att bedöma det här måttet:

GPT-Similarity, as a metric, measures the similarity between the predicted answer and the correct answer. If the information and content in the predicted answer is similar or equivalent to the correct answer, then the value of the Equivalence metric should be high, else it should be low. Given the question, correct answer, and predicted answer, determine the value of Equivalence metric using the following rating scale: 

One star: the predicted answer is not at all similar to the correct answer 

Two stars: the predicted answer is mostly not similar to the correct answer 

Three stars: the predicted answer is somewhat similar to the correct answer 

Four stars: the predicted answer is mostly similar to the correct answer 

Five stars: the predicted answer is completely similar to the correct answer 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Traditionell maskininlärning: F1-poäng

Poängegenskaper Poänginformation
Poängintervall Float [0-1]
Vad är det här måttet? Mäter förhållandet mellan antalet delade ord mellan modellgenereringen och grund sanningssvaren.
Hur fungerar det? F1-poängen beräknar förhållandet mellan antalet delade ord mellan modellgenereringen och grundsanningen. Förhållandet beräknas över de enskilda orden i det genererade svaret mot dem i det grundläggande sanningssvaret. Antalet delade ord mellan genereringen och sanningen är grunden för F1-poängen: precision är förhållandet mellan antalet delade ord och det totala antalet ord i genereringen, och träffsäkerhet är förhållandet mellan antalet delade ord och det totala antalet ord i grundsanningen.
När ska du använda den? Använd F1-poängen när du vill ha ett enda omfattande mått som kombinerar både träffsäkerhet och precision i modellens svar. Den ger en balanserad utvärdering av modellens prestanda när det gäller att samla in korrekt information i svaret.
Vad behöver den som indata? Fråga, grund sanningssvar, genererat svar

Nästa steg