Metriche di valutazione e monitoraggio per l'intelligenza artificiale generativa

Nota

Azure AI Studio è attualmente disponibile in anteprima pubblica. Questa versione di anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Azure AI Studio consente di valutare conversazioni a turno singolo o complesso e a più turni in cui si trova il modello di intelligenza artificiale generativa nei dati specifici (noto anche come Generazione aumentata di recupero o RAG). È anche possibile valutare scenari generali di risposta alle domande a turno singolo, in cui non viene usato alcun contesto per basare il modello di intelligenza artificiale generativo (non RAG). Attualmente sono supportate le metriche predefinite per i tipi di attività seguenti:

Risposta alle domande (singolo turno)

In questa configurazione gli utenti pongono singole domande o richieste e viene usato un modello di intelligenza artificiale generativo per generare immediatamente risposte.

Il formato del set di test seguirà questo formato di dati:

{"question":"Which tent is the most waterproof?","context":"From our product list, the Alpine Explorer tent is the most waterproof. The Adventure Dining Table has higher weight.","answer":"The Alpine Explorer Tent is the most waterproof.","ground_truth":"The Alpine Explorer Tent has the highest rainfly waterproof rating at 3000m"} 

Nota

I campi "context" e "ground truth" sono facoltativi e le metriche supportate dipendono dai campi specificati

Conversazione (turno singolo e multi turni)

In questo contesto, gli utenti interagiscono con interazioni conversazionali, attraverso una serie di turni o in un unico scambio. Il modello di intelligenza artificiale generativa, dotato di meccanismi di recupero, genera risposte e può accedere e incorporare informazioni da origini esterne, ad esempio documenti. Il modello Di generazione aumentata di recupero migliora la qualità e la pertinenza delle risposte usando documenti e conoscenze esterni.

Il formato del set di test seguirà questo formato di dati:

{"messages":[{"role":"user","content":"How can I check the status of my online order?"},{"content":"Hi Sarah Lee! To check the status of your online order for previous purchases such as the TrailMaster X4 Tent or the CozyNights Sleeping Bag, please refer to your email for order confirmation and tracking information. If you need further assistance, feel free to contact our customer support at support@contosotrek.com or give us a call at 1-800-555-1234.
","role":"assistant","context":{"citations":[{"id":"cHJvZHVjdF9pbmZvXzYubWQz","title":"Information about product item_number: 6","content":"# Information about product item_number: 6\n\nIt's essential to check local regulations before using the EcoFire Camping Stove, as some areas may have restrictions on open fires or require a specific type of stove.\n\n30) How do I clean and maintain the EcoFire Camping Stove?\n   To clean the EcoFire Camping Stove, allow it to cool completely, then wipe away any ash or debris with a brush or cloth. Store the stove in a dry place when not in use."}]}}]}

Metriche supportate

Come descritto nei metodi per la valutazione di modelli linguistici di grandi dimensioni, esistono approcci manuali e automatizzati alla misurazione. La misurazione automatizzata è utile per misurare su larga scala con una maggiore copertura per fornire risultati più completi. È anche utile monitorare le misurazioni in corso per qualsiasi regressione man mano che il sistema, l'utilizzo e le mitigazioni si evolvono.

Sono supportati due metodi principali per la misurazione automatizzata delle applicazioni di intelligenza artificiale generative:

  • Metriche di Machine Learning tradizionali
  • Metriche assistita dall'intelligenza artificiale

Le metriche assistita dall'intelligenza artificiale usano modelli linguistici come GPT-4 per valutare l'output generato dall'intelligenza artificiale, soprattutto nelle situazioni in cui le risposte previste non sono disponibili a causa dell'assenza di una verità di base definita. Le metriche di Machine Learning tradizionali, ad esempio il punteggio F1, misurano la precisione e il richiamo tra le risposte generate dall'intelligenza artificiale e le risposte previste.

Le metriche assistita dall'intelligenza artificiale valutano la qualità della sicurezza e della generazione delle applicazioni di intelligenza artificiale generative. Queste metriche rientrano in due categorie distinte:

  • Metriche di rischio e sicurezza:

    Queste metriche si concentrano sull'identificazione di potenziali rischi per contenuti e sicurezza e sulla sicurezza del contenuto generato.

    che includono:

    • Tasso di difetto del contenuto odioso e ingiusto
    • Tasso di difetti del contenuto sessuale
    • Tasso di difetto del contenuto violento
    • Tasso di difetto del contenuto correlato all'autolesionismo
    • Tasso di difetto jailbreak
  • Metriche di qualità della generazione:

    Queste metriche valutano la qualità complessiva e la coerenza del contenuto generato.

    che includono:

    • Coerenza
    • Scorrevolezza
    • Allineamento
    • Pertinenza
    • Punteggio di recupero
    • Similarity

Sono supportate le metriche di intelligenza artificiale seguenti per i tipi di attività precedenti:

Tipo di attività Domande e risposte generate solo (nessun contesto o verità di base necessaria) Domande e risposte generate + contesto Domande e risposte generate + Contesto + Verità terra
Risposta alle domande - Metriche di rischio e sicurezza (all AI-Assisted): tasso di difetti del contenuto odioso e ingiusto, tasso di difetto del contenuto sessuale, tasso di difetto del contenuto violento, tasso di difetto del contenuto correlato all'autolesionismo e tasso di difetto del jailbreak
- Metriche di qualità della generazione (tutte assistita dall'IA): coerenza, fluenza
Metriche delle colonne precedenti
+
Metriche di qualità della generazione (tutte assistita dall'IA):
- Terra terra
-Rilevanza
Metriche delle colonne precedenti
+
Metriche di qualità della generazione:
Somiglianza (assistita dall'intelligenza artificiale)
F1-Score (metrica ml tradizionale)
Conversazione - Metriche di rischio e sicurezza (all AI-Assisted): tasso di difetti del contenuto odioso e ingiusto, tasso di difetto del contenuto sessuale, tasso di difetto del contenuto violento, tasso di difetto del contenuto correlato all'autolesionismo e tasso di difetto del jailbreak
- Metriche di qualità della generazione (tutte assistita dall'IA): coerenza, fluenza
Metriche delle colonne precedenti
+
Metriche di qualità della generazione (tutte assistita dall'IA):
- Terra terra
- Punteggio di recupero
N/D

Nota

Sebbene sia disponibile un set completo di metriche predefinite che facilitano la valutazione semplice ed efficiente della qualità e della sicurezza dell'applicazione di intelligenza artificiale generativa, è consigliabile adattarli e personalizzarli in base ai tipi di attività specifici. Inoltre, ti permette di introdurre metriche completamente nuove, consentendoti di misurare le tue applicazioni da angolazioni nuove e garantire l'allineamento con i tuoi obiettivi univoci.

Metriche di rischio e sicurezza

Le metriche relative ai rischi e alla sicurezza derivano da informazioni dettagliate ottenute dai progetti precedenti del modello linguistico di grandi dimensioni, ad esempio GitHub Copilot e Bing. In questo modo si garantisce un approccio completo alla valutazione delle risposte generate per i punteggi di gravità del rischio e della sicurezza. Queste metriche vengono generate tramite il nostro servizio di valutazione della sicurezza, che usa un set di VM. Ogni modello ha il compito di valutare rischi specifici che potrebbero essere presenti nella risposta (ad esempio, contenuto sessuale, contenuto violento e così via). Questi modelli vengono forniti con definizioni di rischio e scale di gravità e annotano le conversazioni generate di conseguenza. Attualmente, viene calcolato un "tasso di difetto" per le metriche di rischio e sicurezza riportate di seguito. Per ognuna di queste metriche, il servizio misura se questi tipi di contenuto sono stati rilevati e a quale livello di gravità. Ognuno dei quattro tipi ha tre livelli di gravità (Molto basso, Basso, Medio, Alto). Gli utenti specificano una soglia di tolleranza e i tassi di difetto vengono prodotti dal servizio corrispondono al numero di istanze generate a e al di sopra di ogni livello soglia.

Tipi di contenuto:

  • Contenuti odiosi e ingiusti
  • Contenuto sessuale
  • Contenuto violento
  • Contenuto correlato all'autolesionismo

Oltre ai tipi di contenuti sopra elencati, supportiamo anche "Tasso di difetto jailbreak" in una visualizzazione comparativa tra valutazioni, una metrica che misura la prevalenza di jailbreak nelle risposte del modello. I jailbreak sono quando una risposta del modello ignora le restrizioni poste su di esso. Jailbreak si verifica anche dove un LLM devia dall'attività o dall'argomento previsto.

Gli utenti possono misurare queste metriche di rischio e sicurezza sui propri dati o usare Azure AI SDK per simulare interazioni di attacco diverse con l'applicazione di intelligenza artificiale generativa per generare un test (si fa riferimento a esso come set di dati di rischio del contenuto). È quindi possibile valutare in questo set di dati di test simulato per restituire un set di dati di test con annotazioni con livelli di gravità del rischio di contenuto (molto bassi, bassi, medi o alti) e visualizzare i risultati in Intelligenza artificiale di Azure, che offre la frequenza complessiva dei difetti per tutto il set di dati di test e la visualizzazione dell'istanza di ogni etichetta di rischio del contenuto e ragionamento.

A differenza di altre metriche nella tabella, la vulnerabilità di jailbreak non può essere misurata in modo affidabile con l'annotazione da un LLM. Tuttavia, la vulnerabilità jailbreak può essere misurata dal confronto di due set di dati automatizzati diversi (1) set di dati di rischio del contenuto rispetto al set di dati di rischio del contenuto (2) con inserimenti di jailbreak nel primo turno. L'utente valuta quindi la vulnerabilità di jailbreak confrontando i due set di dati con i tassi di difetti di rischio del contenuto.

Nota

Le metriche di sicurezza e rischio assistito dall'intelligenza artificiale sono ospitate dal servizio back-end valutazioni di sicurezza di Azure AI Studio ed è disponibile solo nelle aree seguenti: Stati Uniti orientali 2, Francia centrale, Regno Unito meridionale, Svezia centrale.

Le aree disponibili hanno la capacità seguente:

Area TPM
Svezia centrale 450.000
Francia centrale 380.000
Regno Unito meridionale 280.000
Stati Uniti orientali 2 80k

Definizione e gravità del contenuto odioso e ingiusto

Avviso

Le definizioni di rischio del contenuto e le scale di gravità contengono descrizioni che potrebbero disturbare alcuni utenti.

Definizione e gravità del contenuto sessuale

Avviso

Le definizioni di rischio del contenuto e le scale di gravità contengono descrizioni che potrebbero disturbare alcuni utenti.

Definizione di contenuto violento e scala di gravità

Avviso

Le definizioni di rischio del contenuto e le scale di gravità contengono descrizioni che potrebbero disturbare alcuni utenti.

Avviso

Le definizioni di rischio del contenuto e le scale di gravità contengono descrizioni che potrebbero disturbare alcuni utenti.

Metriche di qualità della generazione

Le metriche di qualità della generazione vengono usate per valutare la qualità complessiva del contenuto prodotto dalle applicazioni di intelligenza artificiale generative. Ecco una suddivisione delle metriche che comportano:

AI-assisted: Groundedness

Per la base, vengono fornite due versioni:

  • Rilevamento della sicurezza a terra sfruttando il servizio Azure AI Content Cassaforte ty Service (AACS) tramite l'integrazione nelle valutazioni di sicurezza di Azure AI Studio. Non è necessaria alcuna distribuzione da parte dell'utente come servizio back-end che fornirà i modelli per l'output di un punteggio e un ragionamento. Attualmente supportato nelle aree seguenti: Stati Uniti orientali 2 e Svezia centrale.
  • Groundedness basato solo su richiesta usando modelli personalizzati per restituire solo un punteggio. Attualmente supportato in tutte le aree.

Base AACS

Caratteristiche punteggio Dettagli punteggio
Intervallo di punteggi 1-5 dove 1 è in primo piano e 5 è a terra
Che cos'è questa metrica? Misura il grado di allineamento delle risposte generate dal modello con le informazioni dei dati di origine (ad esempio, i documenti recuperati in rag question and answering o documents for summarization) e restituisce i motivi per cui frasi generate specifiche non sono in primo piano.
Come funziona? Il rilevamento della base sfrutta un modello di linguaggio personalizzato del servizio di intelligenza artificiale di Azure Cassaforte ottimizzato per un'attività di elaborazione del linguaggio naturale denominata NLI (Natural Language Inference), che valuta le attestazioni come implicate o non implicate da un documento di origine. 
Quando usarla? Usare la metrica di base quando è necessario verificare che le risposte generate dall'intelligenza artificiale siano allineate con e vengano convalidate dal contesto fornito. È essenziale per le applicazioni in cui la correttezza e l'accuratezza contestuale sono fondamentali, ad esempio il recupero delle informazioni, la risposta alle domande e il riepilogo del contenuto. Questa metrica garantisce che le risposte generate dall'intelligenza artificiale siano ben supportate dal contesto.
Che cosa serve come input? Domanda, contesto, risposta generata

Base di sola richiesta

Caratteristiche punteggio Dettagli punteggio
Intervallo di punteggi 1-5 dove 1 è in primo piano e 5 è a terra
Che cos'è questa metrica? Misura il livello di allineamento delle risposte generate dal modello con le informazioni dei dati di origine (contesto definito dall'utente).
Come funziona? La misura di base valuta la corrispondenza tra attestazioni in una risposta generata dall'intelligenza artificiale e il contesto di origine, assicurandosi che queste attestazioni siano documentate dal contesto. Anche se le risposte da LLM sono effettivamente corrette, verranno considerate non in primo piano se non possono essere verificate rispetto alle origini fornite (ad esempio l'origine di input o il database).
Quando usarla? Usare la metrica di base quando è necessario verificare che le risposte generate dall'intelligenza artificiale siano allineate con e vengano convalidate dal contesto fornito. È essenziale per le applicazioni in cui la correttezza e l'accuratezza contestuale sono fondamentali, ad esempio il recupero delle informazioni, la risposta alle domande e il riepilogo del contenuto. Questa metrica garantisce che le risposte generate dall'intelligenza artificiale siano ben supportate dal contesto.
Che cosa serve come input? Domanda, contesto, risposta generata

Richiesta predefinita usata dal giudice del modello linguistico large per assegnare un punteggio a questa metrica:

You will be presented with a CONTEXT and an ANSWER about that CONTEXT. You need to decide whether the ANSWER is entailed by the CONTEXT by choosing one of the following rating: 

1. 5: The ANSWER follows logically from the information contained in the CONTEXT. 

2. 1: The ANSWER is logically false from the information contained in the CONTEXT. 

3. an integer score between 1 and 5 and if such integer score does not exist,  

use 1: It is not possible to determine whether the ANSWER is true or false without further information. 

Read the passage of information thoroughly and select the correct answer from the three answer labels. 

Read the CONTEXT thoroughly to ensure you know what the CONTEXT entails.  

Note the ANSWER is generated by a computer system, it can contain certain symbols, which should not be a negative factor in the evaluation. 

Assistente all'intelligenza artificiale: pertinenza

Caratteristiche punteggio Dettagli punteggio
Intervallo di punteggi Intero [1-5]: dove 1 è cattivo e 5 è buono
Che cos'è questa metrica? Misura la misura in cui le risposte generate dal modello sono pertinenti e direttamente correlate alle domande indicate.
Come funziona? La misura di pertinenza valuta la capacità delle risposte di acquisire i punti chiave del contesto. I punteggi di pertinenza elevati indicano la comprensione dell'input e della capacità del sistema di intelligenza artificiale di produrre output coerenti e contestualmente appropriati. Viceversa, i punteggi di pertinenza bassi indicano che le risposte generate potrebbero essere off-topic, mancanti nel contesto o insufficienti per affrontare le query desiderate dell'utente.
Quando usarla? Usare la metrica di pertinenza quando si valutano le prestazioni del sistema di intelligenza artificiale per comprendere l'input e generare risposte contestualmente appropriate.
Che cosa serve come input? Domanda, contesto, risposta generata

Richiesta predefinita usata dal giudice del modello linguistico di grandi dimensioni per assegnare un punteggio a questa metrica (per il formato dei dati di risposta alle domande):

Relevance measures how well the answer addresses the main aspects of the question, based on the context. Consider whether all and only the important aspects are contained in the answer when evaluating relevance. Given the context and question, score the relevance of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks relevance 

Two stars: the answer mostly lacks relevance 

Three stars: the answer is partially relevant 

Four stars: the answer is mostly relevant 

Five stars: the answer has perfect relevance 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Richiesta predefinita usata dal giudice del modello linguistico large per assegnare un punteggio a questa metrica (per il formato dei dati della conversazione) (senza Ground Truth disponibile):

You will be provided a question, a conversation history, fetched documents related to the question and a response to the question in the {DOMAIN} domain. Your task is to evaluate the quality of the provided response by following the steps below:  
 
- Understand the context of the question based on the conversation history.  
 
- Generate a reference answer that is only based on the conversation history, question, and fetched documents. Don't generate the reference answer based on your own knowledge.  
 
- You need to rate the provided response according to the reference answer if it's available on a scale of 1 (poor) to 5 (excellent), based on the below criteria:  
 
5 - Ideal: The provided response includes all information necessary to answer the question based on the reference answer and conversation history. Please be strict about giving a 5 score.  
 
4 - Mostly Relevant: The provided response is mostly relevant, although it might be a little too narrow or too broad based on the reference answer and conversation history.  
 
3 - Somewhat Relevant: The provided response might be partly helpful but might be hard to read or contain other irrelevant content based on the reference answer and conversation history.  
 
2 - Barely Relevant: The provided response is barely relevant, perhaps shown as a last resort based on the reference answer and conversation history.  
 
1 - Completely Irrelevant: The provided response should never be used for answering this question based on the reference answer and conversation history.  
 
- You need to rate the provided response to be 5, if the reference answer can not be generated since no relevant documents were retrieved.  
 
- You need to first provide a scoring reason for the evaluation according to the above criteria, and then provide a score for the quality of the provided response.  
 
- You need to translate the provided response into English if it's in another language. 

- Your final response must include both the reference answer and the evaluation result. The evaluation result should be written in English.  

Richiesta predefinita usata dal giudice del modello linguistico di grandi dimensioni per assegnare un punteggio a questa metrica (per il formato dei dati della conversazione) (con Ground Truth disponibile):


Your task is to score the relevance between a generated answer and the question based on the ground truth answer in the range between 1 and 5, and please also provide the scoring reason.  
 
Your primary focus should be on determining whether the generated answer contains sufficient information to address the given question according to the ground truth answer.   
 
If the generated answer fails to provide enough relevant information or contains excessive extraneous information, then you should reduce the score accordingly.  
 
If the generated answer contradicts the ground truth answer, it will receive a low score of 1-2.   
 
For example, for question "Is the sky blue?", the ground truth answer is "Yes, the sky is blue." and the generated answer is "No, the sky is not blue.".   
 
In this example, the generated answer contradicts the ground truth answer by stating that the sky is not blue, when in fact it is blue.   
 
This inconsistency would result in a low score of 1-2, and the reason for the low score would reflect the contradiction between the generated answer and the ground truth answer.  
 
Please provide a clear reason for the low score, explaining how the generated answer contradicts the ground truth answer.  
 
Labeling standards are as following:  
 
5 - ideal, should include all information to answer the question comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
4 - mostly relevant, although it might be a little too narrow or too broad comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
3 - somewhat relevant, might be partly helpful but might be hard to read or contain other irrelevant content comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
2 - barely relevant, perhaps shown as a last resort comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  
 
1 - completely irrelevant, should never be used for answering this question comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  

Ai-assisted: Coerenza

Caratteristiche punteggio Dettagli punteggio
Intervallo di punteggi Intero [1-5]: dove 1 è cattivo e 5 è buono
Che cos'è questa metrica? Misura il modo in cui il modello linguistico può produrre output che scorre senza problemi, legge naturalmente e assomiglia al linguaggio simile all'uomo.
Come funziona? La misura di coerenza valuta la capacità del modello linguistico di generare testo che legge naturalmente, scorre senza problemi e assomiglia a un linguaggio simile all'uomo nelle risposte.
Quando usarla? Usarlo per valutare la leggibilità e l'accessibilità degli utenti delle risposte generate dal modello nelle applicazioni reali.
Che cosa serve come input? Domanda, risposta generata

Richiesta predefinita usata dal giudice del modello linguistico large per assegnare un punteggio a questa metrica:

Coherence of an answer is measured by how well all the sentences fit together and sound naturally as a whole. Consider the overall quality of the answer when evaluating coherence. Given the question and answer, score the coherence of answer between one to five stars using the following rating scale: 

One star: the answer completely lacks coherence 

Two stars: the answer mostly lacks coherence 

Three stars: the answer is partially coherent 

Four stars: the answer is mostly coherent 

Five stars: the answer has perfect coherency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

AI-assisted: Fluency

Caratteristiche punteggio Dettagli punteggio
Intervallo di punteggi Intero [1-5]: dove 1 è cattivo e 5 è buono
Che cos'è questa metrica? Misura la competenza grammaticale della risposta stimata di un'intelligenza artificiale generativa.
Come funziona? La misura di fluenza valuta la misura in cui il testo generato è conforme alle regole grammaticali, alle strutture sintattiche e all'utilizzo appropriato del vocabolario, ottenendo risposte corrette in modo linguistico.
Quando usarla? Usarlo quando si valuta la correttezza linguistica del testo generato dall'intelligenza artificiale, assicurandosi che rispetti le regole grammaticali, le strutture sintattiche e l'utilizzo del vocabolario nelle risposte generate.
Che cosa serve come input? Domanda, risposta generata

Richiesta predefinita usata dal giudice del modello linguistico large per assegnare un punteggio a questa metrica:

Fluency measures the quality of individual sentences in the answer, and whether they are well-written and grammatically correct. Consider the quality of individual sentences when evaluating fluency. Given the question and answer, score the fluency of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks fluency 

Two stars: the answer mostly lacks fluency 

Three stars: the answer is partially fluent 

Four stars: the answer is mostly fluent 

Five stars: the answer has perfect fluency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Assistente all'intelligenza artificiale: punteggio di recupero

Caratteristiche punteggio Dettagli punteggio
Intervallo di punteggi Float [1-5]: dove 1 è cattivo e 5 è buono
Che cos'è questa metrica? Misura la misura in cui i documenti recuperati del modello sono pertinenti e direttamente correlati alle domande indicate.
Come funziona? Il punteggio di recupero misura la qualità e la pertinenza del documento recuperato alla domanda dell'utente (riepilogata all'interno dell'intera cronologia delle conversazioni). Passaggi: Passaggio 1: Suddividere la query dell'utente in finalità, Estrarre le finalità dalla query dell'utente, ad esempio "Quanto è la macchina virtuale Linux di Azure e la macchina virtuale Windows di Azure?" -> La finalità sarebbe ["Qual è il prezzo della macchina virtuale Linux di Azure?", "Qual è il prezzo della macchina virtuale Windows di Azure?"). Passaggio 2: per ogni finalità della query dell'utente, chiedere al modello di valutare se la finalità stessa o la risposta alla finalità è presente o può essere dedotta da documenti recuperati. La risposta può essere "No" o "Sì, documenti [doc1], [doc2]...". "Sì" indica che i documenti recuperati sono correlati alla finalità o alla risposta alla finalità e viceversa. Passaggio 3: Calcolare la frazione delle finalità con una risposta che inizia con "Sì". In questo caso, tutte le finalità hanno uguale importanza. Passo 4: Infine, piazzare il punteggio per penalizzare gli errori.
Quando usarla? Usare il punteggio di recupero quando si vuole garantire che i documenti recuperati siano altamente rilevanti per rispondere alle domande degli utenti. Questo punteggio consente di garantire la qualità e l'adeguatezza del contenuto recuperato.
Che cosa serve come input? Domanda, contesto, risposta generata

Richiesta predefinita usata dal giudice del modello linguistico large per assegnare un punteggio a questa metrica:

A chat history between user and bot is shown below 

A list of documents is shown below in json format, and each document has one unique id.  

These listed documents are used as contex to answer the given question. 

The task is to score the relevance between the documents and the potential answer to the given question in the range of 1 to 5.  

1 means none of the documents is relevant to the question at all. 5 means either one of the document or combination of a few documents is ideal for answering the given question. 

Think through step by step: 

- Summarize each given document first 

- Determine the underlying intent of the given question, when the question is ambiguous, refer to the given chat history  

- Measure how suitable each document to the given question, list the document id and the corresponding relevance score.  

- Summarize the overall relevance of given list of documents to the given question after # Overall Reason, note that the answer to the question can soley from single document or a combination of multiple documents.  

- Finally, output "# Result" followed by a score from 1 to 5.  

  

# Question 

{{ query }} 

# Chat History 

{{ history }} 

# Documents 

---BEGIN RETRIEVED DOCUMENTS--- 

{{ FullBody }} 

---END RETRIEVED DOCUMENTS--- 

AI-assisted: GPT-Similarity

Caratteristiche punteggio Dettagli punteggio
Intervallo di punteggi Intero [1-5]: dove 1 è cattivo e 5 è buono
Che cos'è questa metrica? Misura la somiglianza tra una frase di dati di origine (verità di base) e la risposta generata da un modello di intelligenza artificiale.
Come funziona? La misura di somiglianza GPT valuta la somiglianza tra una frase di verità di base (o un documento) e la stima generata dal modello di intelligenza artificiale. Questo calcolo comporta la creazione di incorporamenti a livello di frase sia per la verità del terreno che per la stima del modello, che sono rappresentazioni vettoriali ad alta dimensione che acquisiscono il significato semantico e il contesto delle frasi.
Quando usarla? Usarlo quando si vuole una valutazione obiettivo delle prestazioni di un modello di intelligenza artificiale, in particolare nelle attività di generazione del testo in cui si ha accesso alle risposte reali. La somiglianza GPT consente di valutare l'allineamento semantico del testo generato con il contenuto desiderato, consentendo di misurare la qualità e l'accuratezza del modello.
Che cosa serve come input? Domanda, risposta alla verità del terreno, risposta generata

Richiesta predefinita usata dal giudice del modello linguistico large per assegnare un punteggio a questa metrica:

GPT-Similarity, as a metric, measures the similarity between the predicted answer and the correct answer. If the information and content in the predicted answer is similar or equivalent to the correct answer, then the value of the Equivalence metric should be high, else it should be low. Given the question, correct answer, and predicted answer, determine the value of Equivalence metric using the following rating scale: 

One star: the predicted answer is not at all similar to the correct answer 

Two stars: the predicted answer is mostly not similar to the correct answer 

Three stars: the predicted answer is somewhat similar to the correct answer 

Four stars: the predicted answer is mostly similar to the correct answer 

Five stars: the predicted answer is completely similar to the correct answer 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Machine Learning tradizionale: punteggio F1

Caratteristiche punteggio Dettagli punteggio
Intervallo di punteggi Float [0-1]
Che cos'è questa metrica? Misura il rapporto tra il numero di parole condivise tra la generazione del modello e le risposte alla verità sul terreno.
Come funziona? Il punteggio F1 calcola il rapporto tra il numero di parole condivise tra la generazione del modello e la verità di base. Il rapporto viene calcolato sulle singole parole nella risposta generata rispetto a quelle nella risposta alla verità di base. Il numero di parole condivise tra la generazione e la verità è la base del punteggio F1: la precisione è il rapporto tra il numero di parole condivise e il numero totale di parole nella generazione e il richiamo è il rapporto tra il numero di parole condivise e il numero totale di parole nella verità.
Quando usarla? Usare il punteggio F1 quando si vuole una singola metrica completa che combina sia il richiamo che la precisione nelle risposte del modello. Fornisce una valutazione bilanciata delle prestazioni del modello in termini di acquisizione di informazioni accurate nella risposta.
Che cosa serve come input? Domanda, risposta alla verità del terreno, risposta generata

Passaggi successivi