Partager via


Métriques d’évaluation et de monitoring pour l’IA générative

Important

Certaines des fonctionnalités décrites dans cet article peuvent uniquement être disponibles en préversion. Cette préversion est fournie sans contrat de niveau de service, nous la déconseillons dans des charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Azure AI Studio vous permet d’évaluer des invites à tour unique ou multitour complexes où vous placez le modèle d’IA générative dans vos données spécifiques. (également appelées Récupération de génération augmentée ou RAG). Vous pouvez également évaluer des scénarios généraux de réponses aux questions à tour unique, où aucun contexte n’est utilisé pour baser votre modèle d’IA générative (non-RAG). Actuellement, nous prenons en charge les métriques intégrées pour les types de tâches suivants :

Réponse aux questions (tour unique)

Dans cette configuration, les utilisateurs posent des questions ou des invites individuelles, et un modèle d’intelligence artificielle générative est utilisé pour générer instantanément des réponses.

Le format du jeu de tests suit ce format de données :

{"question":"Which tent is the most waterproof?","context":"From our product list, the Alpine Explorer tent is the most waterproof. The Adventure Dining Table has higher weight.","answer":"The Alpine Explorer Tent is the most waterproof.","ground_truth":"The Alpine Explorer Tent has the highest rainfly waterproof rating at 3000m"} 

Remarque

Les champs « context » et « ground truth » sont facultatifs, et les métriques prises en charge dépendent des champs que vous fournissez

Conversation (tour unique et multitour)

Dans ce contexte, les utilisateurs participent à des interactions conversationnelles, soit via une série de tours, soit dans un seul échange. Le modèle Intelligence artificielle générative, équipé de mécanismes de récupération, génère des réponses et peut accéder et incorporer des informations provenant de sources externes, telles que des documents. Le modèle de génération augmentée de récupération (RAG) améliore la qualité et la pertinence des réponses à l’aide de documents et de connaissances externes.

Le format du jeu de tests suit ce format de données :

{"messages":[{"role":"user","content":"How can I check the status of my online order?"},{"content":"Hi Sarah Lee! To check the status of your online order for previous purchases such as the TrailMaster X4 Tent or the CozyNights Sleeping Bag, please refer to your email for order confirmation and tracking information. If you need further assistance, feel free to contact our customer support at support@contosotrek.com or give us a call at 1-800-555-1234.
","role":"assistant","context":{"citations":[{"id":"cHJvZHVjdF9pbmZvXzYubWQz","title":"Information about product item_number: 6","content":"# Information about product item_number: 6\n\nIt's essential to check local regulations before using the EcoFire Camping Stove, as some areas may have restrictions on open fires or require a specific type of stove.\n\n30) How do I clean and maintain the EcoFire Camping Stove?\n   To clean the EcoFire Camping Stove, allow it to cool completely, then wipe away any ash or debris with a brush or cloth. Store the stove in a dry place when not in use."}]}}]}

Mesures prises en charge

Comme décrit dans les méthodes d’évaluation des modèles de langage volumineux, il existe des approches de mesure manuelles et automatisées. La mesure automatisée est utile pour mesurer à grande échelle avec une couverture accrue afin de fournir des résultats plus complets. Elle est également utile pour la mesure en cours pour surveiller toute régression au fur et à mesure de l’évolution du système, de l’utilisation et des atténuations.

Nous prenons en charge deux méthodes principales pour la mesure automatisée des applications IA génératives :

  • Métriques d’apprentissage automatique traditionnel
  • Métriques assistées par IA

Les métriques assistées par l’IA utilisent des modèles de langage tels que GPT-4 pour évaluer la sortie générée par l’IA, en particulier dans les situations où les réponses attendues ne sont pas disponibles en raison de l’absence d’une vérité de base définie. Les métriques de Machine Learning traditionnelles, comme le score F1, évaluent la précision et le rappel entre les réponses générées par l’IA et les réponses attendues.

Nos métriques assistées par l’IA évaluent la sécurité et la qualité de génération des applications d’intelligence artificielle générative. Ces métriques appartiennent à deux catégories distinctes :

  • Métriques de risque et de sécurité :

    Ces métriques se concentrent sur l’identification des risques potentiels de contenu et de sécurité et sur la sécurité du contenu généré.

    Notamment :

    • Taux de défaut des contenus haineux et injustes
    • Taux de défaut du contenu sexuel
    • Taux de défaut de contenu violent
    • Taux de défaut de contenu lié à l'automutilation
    • Taux de défaut de jailbreak
  • Métriques de qualité de génération :

    Ces métriques évaluent la qualité globale et la cohérence du contenu généré.

    Notamment :

    • Cohérence
    • Maîtrise
    • Fondement
    • Pertinence
    • Score de récupération
    • Similarité

Nous prenons en charge les métriques IA-assisté suivantes pour les types de tâches ci-dessus :

Type de tâche Questions et réponses générées uniquement (pas de contexte ou de vérité de base nécessaire) Questions et réponses générées + contexte Questions et réponses générées + Contexte + Vérité au sol
Réponses aux questions - Métriques de risque et de sécurité (toutes assistées par l’IA) : taux de défaut de contenu haineux et injuste, taux de défauts de contenu sexuel, taux de défaut de contenu violent, taux de défauts liés à l’automutilation et taux de défaut de jailbreak
- Métriques de qualité de génération (toutes assistées par l’IA) : cohérence, fluidité
Métriques de colonne précédentes
+
Métriques de qualité de génération (toutes assistées par l’IA) :
- Fondement
- Pertinence
Métriques de colonne précédentes
+
Métriques de qualité de génération :
Similarité (assistée par l’IA)
F1-Score (métrique ML traditionnelle)
Conversation - Métriques de risque et de sécurité (toutes assistées par l’IA) : taux de défaut de contenu haineux et injuste, taux de défauts de contenu sexuel, taux de défaut de contenu violent, taux de défauts liés à l’automutilation et taux de défaut de jailbreak
- Métriques de qualité de génération (toutes assistées par l’IA) : cohérence, fluidité
Métriques de colonne précédentes
+
Métriques de qualité de génération (toutes assistées par l’IA) :
- Fondement
- Score de récupération
N/A

Remarque

Bien que nous vous fournissions un ensemble complet de métriques intégrées qui facilitent l’évaluation facile et efficace de la qualité et de la sécurité de votre application Intelligence artificielle générative, il est recommandé de les adapter et de les personnaliser à vos types de tâches spécifiques. En outre, nous vous permettons d’introduire de toutes nouvelles métriques, ce qui vous permet de mesurer vos applications sous de nouveaux angles et de garantir l’alignement avec vos objectifs uniques.

Métriques de risque et de sécurité

Les métriques de risque et de sécurité s’appuient sur les insights obtenus à partir de nos projets de modèle de langage volumineux précédents tels que GitHub Copilot et Bing. Cela garantit une approche complète de l’évaluation des réponses générées pour les scores de gravité des risques et de la sécurité. Ces métriques sont générées par le biais de notre service d’évaluation de la sécurité, qui utilise un ensemble de machines virtuelles. Chaque modèle est chargé d’évaluer des risques spécifiques qui pourraient être présents dans la réponse (par exemple, du contenu sexuel, du contenu violent, etc.). Ces modèles sont fournis avec des définitions de risque et des échelles de gravité, et ils annotent les conversations générées en conséquence. Actuellement, nous calculons un « taux de défaut » pour les métriques de risque et de sécurité ci-dessous. Pour chacune de ces métriques, le service mesure si ces types de contenu ont été détectés et au niveau de gravité. Chacun des quatre types a quatre niveaux de gravité (Très bas, Faible, Moyen, Élevé). Les utilisateurs spécifient un seuil de tolérance et les taux de défaut sont générés par notre service correspondent au nombre d’instances générées au niveau de chaque seuil et au-dessus de chaque niveau de seuil.

Types de contenu :

  • Taux de défaut des contenus haineux et injustes
  • Contenu sexuel
  • Contenu violent
  • Contenu lié à l’automutilation

Outre les types de contenu ci-dessus, nous prenons également en charge le « taux de défaut de jailbreak » dans une vue comparative entre les évaluations, une métrique qui mesure la prévalence des jailbreaks dans les réponses de modèle. Les jailbreaks sont lorsqu’une réponse de modèle contourne les restrictions qui y sont placées. Jailbreak se produit également où un LLM s’écarte de la tâche ou de la rubrique prévue.

Vous pouvez mesurer ces métriques de risque et de sécurité sur vos propres données ou sur un jeu de données de test. Vous pouvez ensuite évaluer sur ce jeu de données de test simulé pour générer un jeu de données de test annoté avec des niveaux de gravité de risque de contenu (très bas, faible, moyen ou élevé) et afficher vos résultats dans Azure AI , ce qui vous fournit un taux global de défauts sur l’ensemble du jeu de données de test et la vue d’instance de chaque étiquette de risque de contenu et le raisonnement.

Contrairement à d’autres métriques de la table, la vulnérabilité de jailbreak ne peut pas être mesurée de manière fiable avec une annotation par un LLM. Toutefois, la vulnérabilité de jailbreak peut être mesurée par la comparaison de deux jeux de données automatisés différents (1) jeu de données à risque de contenu par rapport. (2) jeu de données à risque de contenu avec injections de jailbreak au premier tour. L’utilisateur évalue ensuite la vulnérabilité de jailbreak en comparant les deux jeux de données présentant des taux de défauts de risque de contenu.

Remarque

Les métriques de sécurité et de risque assistées par l’IA sont hébergées par le service back-end des évaluations de sécurité Azure AI Studio et sont disponibles uniquement dans les régions suivantes : USA Est 2, France Centre, Royaume-Uni Sud, Suède Centre.

Les régions disponibles disposent de la capacité suivante :

Région Module de plateforme sécurisée
Suède Centre 450 k
France Centre 380 k
Sud du Royaume-Uni 280 k
USA Est 2 80 000

Définition de contenu haineux et injuste et échelle de gravité

Avertissement

Les définitions de risque de contenu et les échelles de gravité contiennent des descriptions susceptibles d’être gênantes pour certains utilisateurs.

Définition de contenu sexuel et échelle de gravité

Avertissement

Les définitions de risque de contenu et les échelles de gravité contiennent des descriptions susceptibles d’être gênantes pour certains utilisateurs.

Définition de contenu violent et échelle de gravité

Avertissement

Les définitions de risque de contenu et les échelles de gravité contiennent des descriptions susceptibles d’être gênantes pour certains utilisateurs.

Avertissement

Les définitions de risque de contenu et les échelles de gravité contiennent des descriptions susceptibles d’être gênantes pour certains utilisateurs.

Métriques de qualité de génération

Les métriques de qualité de génération sont utilisées pour évaluer la qualité globale du contenu produit par des applications d’intelligence artificielle générative. Voici une répartition de ce que ces métriques impliquent :

Assisté par IA : fondement

Pour la base, nous fournissons deux versions :

  • Détection de l’intégrité de base en tirant parti d’Azure AI Sécurité du Contenu (AACS) via l’intégration aux évaluations de sécurité d’Azure AI Studio. Aucun déploiement n’est requis à partir de l’utilisateur en tant que service principal fournit les modèles pour vous permettre de générer un score et un raisonnement. Actuellement pris en charge dans les régions suivantes : USA Est 2 et Suède Centre.
  • Groundedness basé sur un questionnaire uniquement, utilisant vos propres modèles pour produire uniquement un score. Actuellement pris en charge dans toutes les régions.

AACS basé sur la base de terre

Caractéristiques du score Détails du score
Plage de scores 1-5 où 1 est non mis à la terre et 5 est mis à la terre
Qu’est-ce que cette métrique ? Mesure la façon dont les réponses générées du modèle s’alignent sur les informations des données sources (par exemple, les documents récupérés dans RAG Questions et réponses ou documents pour résumé) et génère des raisonnements pour lesquels des phrases générées spécifiques ne sont pas au premier plan.
Comment cela fonctionne-t-il ? La détection de l’état de base tire parti d’un modèle de langage personnalisé Azure AI Sécurité du Contenu adapté à une tâche de traitement en langage naturel appelée NLI (traitement du langage naturel), qui évalue les revendications comme étant impliquées ou non impliquées par un document source. 
Quand l’utiliser ? Utilisez la métrique de fondement quand vous devez vérifier que les réponses générées par IA s’alignent et sont validées par le contexte fourni. Elle est essentielle pour les applications où l’exactitude factuelle et la précision contextuelle sont primordiales, telles que la récupération d’informations, les réponses aux questions et le résumé du contenu. Cette métrique garantit que les réponses générées par IA sont bien prises en charge par le contexte.
Quelle est l’entrée nécessaire ? Question, contexte, réponse générée

Mise en terre basée sur l'énoncé uniquement

Caractéristiques du score Détails du score
Plage de scores 1-5 où 1 est non mis à la terre et 5 est mis à la terre
Qu’est-ce que cette métrique ? Détermine la façon dont les réponses générées du modèle s’alignent sur les informations de la source d’entrée (contexte défini par l’utilisateur).
Comment cela fonctionne-t-il ? La mesure de fondement évalue la correspondance entre les revendications dans une réponse générée par IA et le contexte source, en veillant à ce que ces revendications soient justifiées par le contexte. Même si les réponses du modèle LLM sont factuellement correctes, elles sont considérées comme non fondées si elles ne peuvent pas être vérifiées par rapport aux sources fournies (telles que votre source d’entrée ou votre base de données).
Quand l’utiliser ? Utilisez la métrique de fondement quand vous devez vérifier que les réponses générées par IA s’alignent et sont validées par le contexte fourni. Elle est essentielle pour les applications où l’exactitude factuelle et la précision contextuelle sont primordiales, telles que la récupération d’informations, les réponses aux questions et le résumé du contenu. Cette métrique garantit que les réponses générées par IA sont bien prises en charge par le contexte.
Quelle est l’entrée nécessaire ? Question, contexte, réponse générée

Invite intégrée utilisée par le juge du modèle de langage volumineux pour noter cette métrique :

You will be presented with a CONTEXT and an ANSWER about that CONTEXT. You need to decide whether the ANSWER is entailed by the CONTEXT by choosing one of the following rating: 

1. 5: The ANSWER follows logically from the information contained in the CONTEXT. 

2. 1: The ANSWER is logically false from the information contained in the CONTEXT. 

3. an integer score between 1 and 5 and if such integer score does not exist,  

use 1: It is not possible to determine whether the ANSWER is true or false without further information. 

Read the passage of information thoroughly and select the correct answer from the three answer labels. 

Read the CONTEXT thoroughly to ensure you know what the CONTEXT entails.  

Note the ANSWER is generated by a computer system, it can contain certain symbols, which should not be a negative factor in the evaluation. 

Assisté par IA : pertinence

Caractéristiques du score Détails du score
Plage de scores Entier [1-5] : où 1 est mauvais et 5 est bon
Qu’est-ce que cette métrique ? Détermine dans quelle mesure les réponses générées par le modèle sont pertinentes et directement liées aux questions données.
Comment cela fonctionne-t-il ? La mesure de pertinence évalue la capacité des réponses à capturer les points clés du contexte. Les scores de pertinence élevés indiquent que le système d’IA comprend l’entrée et sa capacité à produire des sorties cohérentes et contextuellement appropriées. À l’inverse, les scores de pertinence faibles indiquent que les réponses générées peuvent être hors sujet, manquer de contexte ou ne pas répondre suffisamment aux requêtes de l’utilisateur.
Quand l’utiliser ? Utilisez la métrique de pertinence lors de l’évaluation des performances du système d’IA pour comprendre l’entrée et générer des réponses contextuellement appropriées.
Quelle est l’entrée nécessaire ? Question, contexte, réponse générée

Invite intégrée utilisée par le juge du modèle de langage volumineux pour noter cette métrique (pour le format de données de réponse aux questions) :

Relevance measures how well the answer addresses the main aspects of the question, based on the context. Consider whether all and only the important aspects are contained in the answer when evaluating relevance. Given the context and question, score the relevance of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks relevance 

Two stars: the answer mostly lacks relevance 

Three stars: the answer is partially relevant 

Four stars: the answer is mostly relevant 

Five stars: the answer has perfect relevance 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Invite intégrée utilisée par le juge du modèle de langage volumineux pour noter cette métrique (pour le format des données de conversation) (sans la vérité au sol disponible) :

You will be provided a question, a conversation history, fetched documents related to the question and a response to the question in the {DOMAIN} domain. Your task is to evaluate the quality of the provided response by following the steps below:  
 
- Understand the context of the question based on the conversation history.  
 
- Generate a reference answer that is only based on the conversation history, question, and fetched documents. Don't generate the reference answer based on your own knowledge.  
 
- You need to rate the provided response according to the reference answer if it's available on a scale of 1 (poor) to 5 (excellent), based on the below criteria:  
 
5 - Ideal: The provided response includes all information necessary to answer the question based on the reference answer and conversation history. Please be strict about giving a 5 score.  
 
4 - Mostly Relevant: The provided response is mostly relevant, although it might be a little too narrow or too broad based on the reference answer and conversation history.  
 
3 - Somewhat Relevant: The provided response might be partly helpful but might be hard to read or contain other irrelevant content based on the reference answer and conversation history.  
 
2 - Barely Relevant: The provided response is barely relevant, perhaps shown as a last resort based on the reference answer and conversation history.  
 
1 - Completely Irrelevant: The provided response should never be used for answering this question based on the reference answer and conversation history.  
 
- You need to rate the provided response to be 5, if the reference answer can not be generated since no relevant documents were retrieved.  
 
- You need to first provide a scoring reason for the evaluation according to the above criteria, and then provide a score for the quality of the provided response.  
 
- You need to translate the provided response into English if it's in another language. 

- Your final response must include both the reference answer and the evaluation result. The evaluation result should be written in English.  

Invite intégrée utilisée par le juge du modèle de langage volumineux pour noter cette métrique (pour le format des données de conversation) (avec vérité au sol disponible) :


Your task is to score the relevance between a generated answer and the question based on the ground truth answer in the range between 1 and 5, and please also provide the scoring reason.  
 
Your primary focus should be on determining whether the generated answer contains sufficient information to address the given question according to the ground truth answer.   
 
If the generated answer fails to provide enough relevant information or contains excessive extraneous information, then you should reduce the score accordingly.  
 
If the generated answer contradicts the ground truth answer, it will receive a low score of 1-2.   
 
For example, for question "Is the sky blue?", the ground truth answer is "Yes, the sky is blue." and the generated answer is "No, the sky is not blue.".   
 
In this example, the generated answer contradicts the ground truth answer by stating that the sky is not blue, when in fact it is blue.   
 
This inconsistency would result in a low score of 1-2, and the reason for the low score would reflect the contradiction between the generated answer and the ground truth answer.  
 
Please provide a clear reason for the low score, explaining how the generated answer contradicts the ground truth answer.  
 
Labeling standards are as following:  
 
5 - ideal, should include all information to answer the question comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
4 - mostly relevant, although it might be a little too narrow or too broad comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
3 - somewhat relevant, might be partly helpful but might be hard to read or contain other irrelevant content comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
2 - barely relevant, perhaps shown as a last resort comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  
 
1 - completely irrelevant, should never be used for answering this question comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  

Assisté par IA : cohérence

Caractéristiques du score Détails du score
Plage de scores Entier [1-5] : où 1 est mauvais et 5 est bon
Qu’est-ce que cette métrique ? Détermine la façon dont le modèle de langage peut produire une sortie fluide, qui se lit naturellement et qui ressemble à un langage humain.
Comment cela fonctionne-t-il ? La mesure de cohérence évalue la capacité du modèle de langage à générer du texte qui se lit naturellement, dont la sortie est fluide et qui ressemble à un langage humaine dans ses réponses.
Quand l’utiliser ? Utilisez-la pour évaluer la lisibilité et la convivialité des réponses générées par votre modèle dans les applications réelles.
Quelle est l’entrée nécessaire ? Question, réponse générée

Invite intégrée utilisée par le juge du modèle de langage volumineux pour noter cette métrique :

Coherence of an answer is measured by how well all the sentences fit together and sound naturally as a whole. Consider the overall quality of the answer when evaluating coherence. Given the question and answer, score the coherence of answer between one to five stars using the following rating scale: 

One star: the answer completely lacks coherence 

Two stars: the answer mostly lacks coherence 

Three stars: the answer is partially coherent 

Four stars: the answer is mostly coherent 

Five stars: the answer has perfect coherency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Assisté par IA : fluidité

Caractéristiques du score Détails du score
Plage de scores Entier [1-5] : où 1 est mauvais et 5 est bon
Qu’est-ce que cette métrique ? Détermine la maîtrise grammaticale d’une réponse prédite par l’IA générative.
Comment cela fonctionne-t-il ? La mesure de fluidité évalue la façon dont le texte généré respecte les règles grammaticales, les structures syntaxiques et l’utilisation appropriée du vocabulaire, ce qui aboutit à des réponses correctes du point de vue linguistique.
Quand l’utiliser ? Utilisez-la pour évaluer l’exactitude linguistique du texte généré par IA, en vous assurant qu’il respecte les règles grammaticales, les structures syntaxiques et l’utilisation du vocabulaire appropriés dans les réponses générées.
Quelle est l’entrée nécessaire ? Question, réponse générée

Invite intégrée utilisée par le juge du modèle de langage volumineux pour noter cette métrique :

Fluency measures the quality of individual sentences in the answer, and whether they are well-written and grammatically correct. Consider the quality of individual sentences when evaluating fluency. Given the question and answer, score the fluency of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks fluency 

Two stars: the answer mostly lacks fluency 

Three stars: the answer is partially fluent 

Four stars: the answer is mostly fluent 

Five stars: the answer has perfect fluency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Assisté par IA : score de récupération

Caractéristiques du score Détails du score
Plage de scores Valeur flottante [1-5] : où 1 est mauvais et 5 est bon
Qu’est-ce que cette métrique ? Détermine dans quelle mesure les documents récupérés du modèle sont pertinentes et directement liés aux questions données.
Comment cela fonctionne-t-il ? Le score de récupération mesure la qualité et la pertinence du document récupéré par rapport à la question de l’utilisateur (résumée dans l’historique des conversations). Étapes : Étape 1 : Décomposer la requête utilisateur en intentions, extraire les intentions de la requête utilisateur telles que « Combien coûte la machine virtuelle Linux Azure et la machine virtuelle Windows Azure ? » -> L’intention serait [« Quel est le prix de la machine virtuelle Linux Azure ? », « Quel est le prix de la machine virtuelle Windows Azure ? »]. Étape 2 : Pour chaque intention de requête utilisateur, demander au modèle d’évaluer si l’intention elle-même ou la réponse à l’intention est présente ou peut être déduite des documents récupérés. La réponse peut être « Non », ou « Oui, documents [doc1], [doc2]… ». « Oui » signifie que les documents récupérés sont liés à l’intention ou à la réponse à l’intention, et inversement. Étape 3 : Calculer la fraction des intentions qui ont une réponse commençant par « Oui ». Dans ce cas, toutes les intentions ont une importance égale. Étape 4 : Enfin, utiliser le score pour pénaliser les erreurs.
Quand l’utiliser ? Utilisez le score de récupération quand vous souhaitez garantir que les documents récupérés sont très pertinents pour répondre aux questions de vos utilisateurs. Ce score permet de garantir la qualité et l’adéquation du contenu récupéré.
Quelle est l’entrée nécessaire ? Question, contexte, réponse générée

Invite intégrée utilisée par le juge du modèle de langage volumineux pour noter cette métrique :

A chat history between user and bot is shown below 

A list of documents is shown below in json format, and each document has one unique id.  

These listed documents are used as contex to answer the given question. 

The task is to score the relevance between the documents and the potential answer to the given question in the range of 1 to 5.  

1 means none of the documents is relevant to the question at all. 5 means either one of the document or combination of a few documents is ideal for answering the given question. 

Think through step by step: 

- Summarize each given document first 

- Determine the underlying intent of the given question, when the question is ambiguous, refer to the given chat history  

- Measure how suitable each document to the given question, list the document id and the corresponding relevance score.  

- Summarize the overall relevance of given list of documents to the given question after # Overall Reason, note that the answer to the question can soley from single document or a combination of multiple documents.  

- Finally, output "# Result" followed by a score from 1 to 5.  

  

# Question 

{{ query }} 

# Chat History 

{{ history }} 

# Documents 

---BEGIN RETRIEVED DOCUMENTS--- 

{{ FullBody }} 

---END RETRIEVED DOCUMENTS--- 

Assisté par IA : similarité GPT

Caractéristiques du score Détails du score
Plage de scores Entier [1-5] : où 1 est mauvais et 5 est bon
Qu’est-ce que cette métrique ? Détermine la similarité entre une phrase de données sources (vérité de base) et la réponse générée par un modèle d’IA.
Comment cela fonctionne-t-il ? La mesure de similarité GPT évalue la similitude entre une phrase de vérité de base (ou un document) et la prédiction générée par le modèle d’IA. Ce calcul implique la création d’incorporations au niveau des phrases pour la vérité de base et la prédiction du modèle, qui sont des représentations vectorielles à haute dimension qui capturent la signification sémantique et le contexte des phrases.
Quand l’utiliser ? Utilisez cette mesure quand vous souhaitez obtenir une évaluation objective des performances d’un modèle d’IA, en particulier dans les tâches de génération de texte où vous avez accès aux réponses de vérité de base. La similarité GPT vous permet d’évaluer l’alignement sémantique du texte généré avec le contenu souhaité, ce qui vous permet d’évaluer la qualité et la précision du modèle.
Quelle est l’entrée nécessaire ? Question, réponse de vérité de base, réponse générée

Invite intégrée utilisée par le juge du modèle de langage volumineux pour noter cette métrique :

GPT-Similarity, as a metric, measures the similarity between the predicted answer and the correct answer. If the information and content in the predicted answer is similar or equivalent to the correct answer, then the value of the Equivalence metric should be high, else it should be low. Given the question, correct answer, and predicted answer, determine the value of Equivalence metric using the following rating scale: 

One star: the predicted answer is not at all similar to the correct answer 

Two stars: the predicted answer is mostly not similar to the correct answer 

Three stars: the predicted answer is somewhat similar to the correct answer 

Four stars: the predicted answer is mostly similar to the correct answer 

Five stars: the predicted answer is completely similar to the correct answer 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Apprentissage automatique traditionnel : score F1

Caractéristiques du score Détails du score
Plage de scores Valeur flottante [0-1]
Qu’est-ce que cette métrique ? Mesure le ratio du nombre de mots partagés entre la génération du modèle et les réponses de vérité de base.
Comment cela fonctionne-t-il ? Le score F1 calcule le ratio du nombre de mots partagés entre la génération du modèle et la vérité de base. Le ratio est calculé sur les mots individuels de la réponse générée par rapport à ceux de la réponse de la vérité de base. Le nombre de mots partagés entre la génération et la vérité est la base du score F1. La précision est le ratio du nombre de mots partagés sur le nombre total de mots dans la génération, et le rappel est le ratio du nombre de mots partagés sur le nombre total de mots dans la vérité de base.
Quand l’utiliser ? Utilisez le score F1 quand vous souhaitez une métrique complète unique qui combine le rappel et la précision dans les réponses de votre modèle. Il fournit une évaluation équilibrée des performances de votre modèle en termes de capture d’informations précises dans la réponse.
Quelle est l’entrée nécessaire ? Question, réponse de vérité de base, réponse générée

Étapes suivantes