Compartir a través de


Métricas de evaluación y supervisión para la inteligencia artificial generativa

Importante

Algunas de las características descritas en este artículo solo pueden estar disponibles en versión preliminar. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

Inteligencia artificial de Azure Studio permite evaluar conversaciones multiturno, de un solo turno o complejas en las que se fundamenta el modelo de IA generativa en los datos específicos (también conocido como Generación aumentada de recuperación o RAG). También puede evaluar escenarios generales de respuesta a preguntas de un solo turno, donde no se usa ningún contexto para establecer el modelo de IA generativa (sin RAG). Actualmente, se admiten métricas integradas para los siguientes tipos de tareas:

Respuesta a preguntas (turno único)

En esta configuración, los usuarios plantean preguntas o indicaciones individuales y se emplea un modelo de IA generativa para generar respuestas instantáneamente.

El formato del conjunto de pruebas seguirá este formato de datos:

{"question":"Which tent is the most waterproof?","context":"From our product list, the Alpine Explorer tent is the most waterproof. The Adventure Dining Table has higher weight.","answer":"The Alpine Explorer Tent is the most waterproof.","ground_truth":"The Alpine Explorer Tent has the highest rainfly waterproof rating at 3000m"} 

Nota:

Los campos "contexto" y "verdad fundamental" son opcionales y las métricas admitidas dependen de los campos que proporcione

Conversación (giro único y multiturno)

En este contexto, los usuarios participan en interacciones conversacionales, ya sea a través de una serie de turnos o en un solo intercambio. El modelo de IA generativa, equipado con mecanismos de recuperación, genera respuestas y puede acceder e incorporar información de orígenes externos, como documentos. El modelo de generación aumentada de recuperación (RAG) mejora la calidad y relevancia de las respuestas mediante documentos y conocimientos externos.

El formato del conjunto de pruebas seguirá este formato de datos:

{"messages":[{"role":"user","content":"How can I check the status of my online order?"},{"content":"Hi Sarah Lee! To check the status of your online order for previous purchases such as the TrailMaster X4 Tent or the CozyNights Sleeping Bag, please refer to your email for order confirmation and tracking information. If you need further assistance, feel free to contact our customer support at support@contosotrek.com or give us a call at 1-800-555-1234.
","role":"assistant","context":{"citations":[{"id":"cHJvZHVjdF9pbmZvXzYubWQz","title":"Information about product item_number: 6","content":"# Information about product item_number: 6\n\nIt's essential to check local regulations before using the EcoFire Camping Stove, as some areas may have restrictions on open fires or require a specific type of stove.\n\n30) How do I clean and maintain the EcoFire Camping Stove?\n   To clean the EcoFire Camping Stove, allow it to cool completely, then wipe away any ash or debris with a brush or cloth. Store the stove in a dry place when not in use."}]}}]}

Métricas compatibles

Como se describe en los métodos para evaluar modelos de lenguaje grandes, hay enfoques manuales y automatizados para la medición. La medición automatizada es útil para medir a escala con mayor cobertura para proporcionar resultados más completos. También resulta útil para la medición continua supervisar cualquier regresión a medida que evolucionan el sistema, el uso y las mitigaciones.

Se admiten dos métodos principales para la medición automatizada de aplicaciones de IA generativas:

  • Métricas de aprendizaje automático tradicional
  • Métricas asistidas por IA

Las métricas asistidas por IA usan modelos de lenguaje como GPT-4 para evaluar la salida generada por IA, especialmente en situaciones en las que las respuestas esperadas no están disponibles debido a la ausencia de una verdad fundamental definida. Las métricas de aprendizaje automático tradicionales, como la puntuación F1, miden la precisión y la recuperación entre las respuestas generadas por IA y las respuestas anticipadas.

Nuestras métricas asistidas por IA evalúan la seguridad y la calidad de generación de las aplicaciones de IA generativas. Estas métricas se dividen en dos categorías distintas:

  • Métricas de riesgo y seguridad:

    Estas métricas se centran en identificar posibles riesgos de contenido y seguridad y garantizar la seguridad del contenido generado.

    Incluyen:

    • Tasa de defectos de contenido injusto y de odio
    • Tasa de defectos de contenido sexual
    • Tasa de defectos de contenido violento
    • Tasa de defectos de contenido relacionado con autolesiones
    • Tasa de defectos de Jailbreak
  • Métricas de calidad de generación:

    Estas métricas evalúan la calidad general y la coherencia del contenido generado.

    Incluyen:

    • Coherencia
    • Fluidez
    • Base
    • Relevancia
    • Puntuación de recuperación
    • Similitud

Se admiten las siguientes métricas asistidas por IA para los tipos de tareas anteriores:

Tipo de tarea Preguntas y respuestas generadas solo (sin contexto o verdad fundamental necesaria) Preguntas y respuestas generadas + Contexto Preguntas y respuestas generadas + Contexto + Verdad fundamental
Respuesta a preguntas - Métricas de riesgo y seguridad (todas las asistidas por IA): tasa de defectos de contenido injusto y de odio, tasa de defectos de contenido sexual, tasa de defectos de contenido violento, tasa de defectos de contenido relacionado con autolesiones y tasa de defectos de jailbreak
- Métricas de calidad de generación (todas las asistidas por IA): coherencia, fluidez
Métricas de columna anteriores
+
Métricas de calidad de generación (todas las asistidas por IA):
- Base
- Relevancia
Métricas de columna anteriores
+
Métricas de calidad de generación:
Similitud (asistida por IA)
Puntuación F1 (métrica tradicional de ML)
Conversación - Métricas de riesgo y seguridad (todas las asistidas por IA): tasa de defectos de contenido injusto y de odio, tasa de defectos de contenido sexual, tasa de defectos de contenido violento, tasa de defectos de contenido relacionado con autolesiones y tasa de defectos de jailbreak
- Métricas de calidad de generación (todas las asistidas por IA): coherencia, fluidez
Métricas de columna anteriores
+
Métricas de calidad de generación (todas las asistidas por IA):
- Base
- Puntuación de recuperación
N/D

Nota:

Aunque le proporcionamos un conjunto completo de métricas integradas que facilitan la evaluación sencilla y eficaz de la calidad y seguridad de la aplicación de IA generativa, es recomendable adaptarlas y personalizarlas a sus tipos de tareas específicos. Además, le permitimos introducir métricas completamente nuevas, lo que le permite medir sus aplicaciones desde ángulos nuevos y garantizar la alineación con sus objetivos particulares.

Métricas de riesgo y seguridad

Las métricas de riesgo y seguridad se basan en la información obtenida de nuestros proyectos anteriores de modelo de lenguaje grande, como GitHub Copilot y Bing. Esto garantiza un enfoque completo para evaluar las respuestas generadas para las puntuaciones de gravedad de riesgo y seguridad. Estas métricas se generan a través de nuestro servicio de evaluación de seguridad, que emplea un conjunto de VM. Cada modelo se encarga de evaluar riesgos específicos que podrían estar presentes en la respuesta (por ejemplo, contenido sexual, contenido violento, etc.). Estos modelos se proporcionan con definiciones de riesgo y escalas de gravedad, y anotan las conversaciones generadas en consecuencia. Actualmente, calculamos una “tasa” de defectos para las métricas de riesgo y seguridad siguientes. Para cada una de estas métricas, el servicio mide si se detectaron estos tipos de contenido y en qué nivel de gravedad. Cada uno de los cuatro tipos tiene tres niveles de gravedad (Muy bajo, Bajo, Medio, Alto). Los usuarios especifican un umbral de tolerancia y nuestro servicio genera las tasas de defectos correspondientes al número de instancias que se generaron en y por encima de cada nivel de umbral.

Tipos de contenido:

  • Contenido injusto y de odio
  • Contenido sexual
  • Contenido violento
  • Contenido relacionado con autolesiones

Además de los tipos de contenido anteriores, también se admite “la tasa” de defectos de Jailbreak en una vista comparativa de las evaluaciones, una métrica que mide la prevalencia de jailbreaks en las respuestas del modelo. Se producen jailbreaks cuando una respuesta del modelo omite las restricciones que se le aplican. También se produce jailbreak cuando un LLM se desvía de la tarea o tema previsto.

Puede medir estas métricas de riesgo y seguridad en datos propios o en un conjunto de datos de prueba. A continuación, puede evaluar en este conjunto de datos de prueba simulado para generar un conjunto de datos de prueba anotado con niveles de gravedad de riesgo de contenido (muy bajo, bajo, medio o alto) y ver los resultados en Azure AI , que proporciona una tasa de defectos general en todo el conjunto de datos de prueba y la vista de instancia de cada etiqueta de riesgo de contenido y razonamiento.

A diferencia de otras métricas de la tabla, la vulnerabilidad de jailbreak no se puede medir de forma confiable con la anotación de un LLM. Sin embargo, la vulnerabilidad de jailbreak se puede medir mediante la comparación de dos conjuntos de datos automatizados diferentes (1) conjuntos de datos de riesgo de contenido frente a (2) conjunto de datos de riesgo de contenido con inyecciones de jailbreak en el primer turno. Posteriormente, el usuario evalúa la vulnerabilidad del jailbreak comparando las tasas de defectos de riesgo de contenido de los dos conjuntos de datos.

Nota:

Las métricas de seguridad y riesgo asistidos por IA se hospedan en el servicio back-end de evaluaciones de seguridad de inteligencia artificial de Azure Studio y solo están disponibles en las siguientes regiones: Este de EE. UU. 2, Centro de Francia, Sur de Reino Unido, Centro de Suecia.

Las regiones disponibles tienen la siguiente capacidad:

Region TPM
Centro de Suecia 450 000
Centro de Francia 380 000
Sur de Reino Unido 2 280 000
Este de EE. UU. 2 80 000

Definición de contenido injusto y de odio y escala de gravedad

Advertencia

Las definiciones de riesgo de contenido y las escalas de gravedad contienen descripciones que pueden resultar preocupantes para algunos usuarios.

Definición y escala de gravedad del contenido sexual

Advertencia

Las definiciones de riesgo de contenido y las escalas de gravedad contienen descripciones que pueden resultar preocupantes para algunos usuarios.

Definición de contenido violento y escala de gravedad

Advertencia

Las definiciones de riesgo de contenido y las escalas de gravedad contienen descripciones que pueden resultar preocupantes para algunos usuarios.

Advertencia

Las definiciones de riesgo de contenido y las escalas de gravedad contienen descripciones que pueden resultar preocupantes para algunos usuarios.

Métricas de calidad de generación

Las métricas de calidad de generación se usan para evaluar la calidad general del contenido generado por aplicaciones de IA generativas. Este es un desglose de lo que implican estas métricas:

Asistido por IA: Base

Para la base, proporcionamos dos versiones:

  • Detección de base que aprovecha el servicio de Seguridad del contenido de Azure AI (AACS) mediante la integración en las evaluaciones de seguridad de inteligencia artificial de Azure Studio. No se requiere ninguna implementación del usuario como servicio back-end que proporcione los modelos para que pueda generar una puntuación y un razonamiento. Actualmente se admite en las siguientes regiones: Este de EE. UU. 2 y Centro de Suecia.
  • Fundamentación basada en la solicitud solo con sus propios modelos para generar solo una puntuación. Actualmente se admite en todas las regiones.

Fundamentación basada en AACS

Características de la puntuación Detalles de la puntuación
Intervalo de puntuación 1-5 donde 1 es no basado y 5 es basado
¿Qué es esta métrica? Mide la forma en que las respuestas generadas del modelo se alinean con la información de los datos de origen (por ejemplo, documentos recuperados en preguntas y respuestas de RAG o documentos para el resumen) y genera razonamientos para los que las oraciones generadas específicas no están en primer plano.
¿Cómo funciona? La detección de la base aprovecha un modelo de lenguaje personalizado del servicio de seguridad de contenido de Azure AI ajustado a una tarea de procesamiento de lenguaje natural denominada Inferencia de lenguaje natural (NLI), que evalúa las notificaciones que implica o no implica un documento de origen. 
¿Cuándo se debe usar? Use la métrica de base cuando necesite comprobar que las respuestas generadas por IA se alinean con y se validan mediante el contexto proporcionado. Es esencial para las aplicaciones en las que la corrección fáctica y la precisión contextual son clave, como la recuperación de información, la respuesta a preguntas y el resumen de contenido. Esta métrica garantiza que las respuestas generadas por IA estén basadas en el contexto.
¿Qué necesita como entrada? Pregunta, contexto, respuesta generada

Fundamentación basada en la solicitud

Características de la puntuación Detalles de la puntuación
Intervalo de puntuación 1-5 donde 1 es no basado y 5 es basado
¿Qué es esta métrica? Mide la forma en que las respuestas generadas del modelo se alinean con la información de los datos de origen (contexto definido por el usuario).
¿Cómo funciona? La medida de base evalúa la correspondencia entre las afirmaciones de una respuesta generada por IA y el contexto de origen, asegurándose de que estas afirmaciones estén fundamentadas por el contexto. Incluso si las respuestas de LLM son correctas de hecho, se considerarán sin base si no se pueden comprobar con los orígenes proporcionados (como el origen de entrada o la base de datos).
¿Cuándo se debe usar? Use la métrica de base cuando necesite comprobar que las respuestas generadas por IA se alinean con y se validan mediante el contexto proporcionado. Es esencial para las aplicaciones en las que la corrección fáctica y la precisión contextual son clave, como la recuperación de información, la respuesta a preguntas y el resumen de contenido. Esta métrica garantiza que las respuestas generadas por IA estén basadas en el contexto.
¿Qué necesita como entrada? Pregunta, contexto, respuesta generada

Mensaje integrado usado por el juez del modelo de lenguaje grande para puntuar esta métrica:

You will be presented with a CONTEXT and an ANSWER about that CONTEXT. You need to decide whether the ANSWER is entailed by the CONTEXT by choosing one of the following rating: 

1. 5: The ANSWER follows logically from the information contained in the CONTEXT. 

2. 1: The ANSWER is logically false from the information contained in the CONTEXT. 

3. an integer score between 1 and 5 and if such integer score does not exist,  

use 1: It is not possible to determine whether the ANSWER is true or false without further information. 

Read the passage of information thoroughly and select the correct answer from the three answer labels. 

Read the CONTEXT thoroughly to ensure you know what the CONTEXT entails.  

Note the ANSWER is generated by a computer system, it can contain certain symbols, which should not be a negative factor in the evaluation. 

Asistido por IA: Relevancia

Características de la puntuación Detalles de la puntuación
Intervalo de puntuación Entero [1-5]: donde 1 es malo y 5 es bueno
¿Qué es esta métrica? Evalúa la medida en que las respuestas generadas del modelo son pertinentes y se relacionan directamente con las preguntas formuladas.
¿Cómo funciona? La medida de relevancia evalúa la capacidad de las respuestas para capturar los puntos clave del contexto. Las puntuaciones de relevancia alta indican el reconocimiento del sistema de IA de la entrada y su capacidad para generar salidas coherentes y contextualmente adecuadas. Por el contrario, las puntuaciones de relevancia baja indican que las respuestas generadas pueden estar fuera del tema, faltarles contexto o resultar insuficientes para abordar las consultas deseadas del usuario.
¿Cuándo se debe usar? Use la métrica de relevancia al evaluar el rendimiento del sistema de inteligencia artificial para reconocer la entrada y generar respuestas contextualmente adecuadas.
¿Qué necesita como entrada? Pregunta, contexto, respuesta generada

Mensaje integrado usado por el juez del modelo de lenguaje grande para puntuar esta métrica (para el formato de datos de respuesta a preguntas):

Relevance measures how well the answer addresses the main aspects of the question, based on the context. Consider whether all and only the important aspects are contained in the answer when evaluating relevance. Given the context and question, score the relevance of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks relevance 

Two stars: the answer mostly lacks relevance 

Three stars: the answer is partially relevant 

Four stars: the answer is mostly relevant 

Five stars: the answer has perfect relevance 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Mensaje integrado usado por el juez del modelo de lenguaje grande para puntuar esta métrica (para el formato de datos de conversación) (sin Verdad fundamental disponible):

You will be provided a question, a conversation history, fetched documents related to the question and a response to the question in the {DOMAIN} domain. Your task is to evaluate the quality of the provided response by following the steps below:  
 
- Understand the context of the question based on the conversation history.  
 
- Generate a reference answer that is only based on the conversation history, question, and fetched documents. Don't generate the reference answer based on your own knowledge.  
 
- You need to rate the provided response according to the reference answer if it's available on a scale of 1 (poor) to 5 (excellent), based on the below criteria:  
 
5 - Ideal: The provided response includes all information necessary to answer the question based on the reference answer and conversation history. Please be strict about giving a 5 score.  
 
4 - Mostly Relevant: The provided response is mostly relevant, although it might be a little too narrow or too broad based on the reference answer and conversation history.  
 
3 - Somewhat Relevant: The provided response might be partly helpful but might be hard to read or contain other irrelevant content based on the reference answer and conversation history.  
 
2 - Barely Relevant: The provided response is barely relevant, perhaps shown as a last resort based on the reference answer and conversation history.  
 
1 - Completely Irrelevant: The provided response should never be used for answering this question based on the reference answer and conversation history.  
 
- You need to rate the provided response to be 5, if the reference answer can not be generated since no relevant documents were retrieved.  
 
- You need to first provide a scoring reason for the evaluation according to the above criteria, and then provide a score for the quality of the provided response.  
 
- You need to translate the provided response into English if it's in another language. 

- Your final response must include both the reference answer and the evaluation result. The evaluation result should be written in English.  

Mensaje integrado usado por el juez del modelo de lenguaje grande para puntuar esta métrica (para el formato de datos de conversación) (con Verdad Fundamental disponible):


Your task is to score the relevance between a generated answer and the question based on the ground truth answer in the range between 1 and 5, and please also provide the scoring reason.  
 
Your primary focus should be on determining whether the generated answer contains sufficient information to address the given question according to the ground truth answer.   
 
If the generated answer fails to provide enough relevant information or contains excessive extraneous information, then you should reduce the score accordingly.  
 
If the generated answer contradicts the ground truth answer, it will receive a low score of 1-2.   
 
For example, for question "Is the sky blue?", the ground truth answer is "Yes, the sky is blue." and the generated answer is "No, the sky is not blue.".   
 
In this example, the generated answer contradicts the ground truth answer by stating that the sky is not blue, when in fact it is blue.   
 
This inconsistency would result in a low score of 1-2, and the reason for the low score would reflect the contradiction between the generated answer and the ground truth answer.  
 
Please provide a clear reason for the low score, explaining how the generated answer contradicts the ground truth answer.  
 
Labeling standards are as following:  
 
5 - ideal, should include all information to answer the question comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
4 - mostly relevant, although it might be a little too narrow or too broad comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
3 - somewhat relevant, might be partly helpful but might be hard to read or contain other irrelevant content comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
2 - barely relevant, perhaps shown as a last resort comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  
 
1 - completely irrelevant, should never be used for answering this question comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  

Asistido por IA: Coherencia

Características de la puntuación Detalles de la puntuación
Intervalo de puntuación Entero [1-5]: donde 1 es malo y 5 es bueno
¿Qué es esta métrica? Evalúa en qué medida el modelo de lenguaje produce salidas fluidas, que se lean con naturalidad y se asemejen al lenguaje humano.
¿Cómo funciona? La medida de coherencia evalúa la capacidad del modelo de lenguaje para generar texto que se lea de forma natural, sea fluido y se asemeje al lenguaje humano en sus respuestas.
¿Cuándo se debe usar? Úselo cuando quiera evaluar la legibilidad y la facilidad de uso de las respuestas generadas por el modelo en aplicaciones reales.
¿Qué necesita como entrada? Pregunta, respuesta generada

Mensaje integrado usado por el juez del modelo de lenguaje grande para puntuar esta métrica:

Coherence of an answer is measured by how well all the sentences fit together and sound naturally as a whole. Consider the overall quality of the answer when evaluating coherence. Given the question and answer, score the coherence of answer between one to five stars using the following rating scale: 

One star: the answer completely lacks coherence 

Two stars: the answer mostly lacks coherence 

Three stars: the answer is partially coherent 

Four stars: the answer is mostly coherent 

Five stars: the answer has perfect coherency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Asistido por IA: Fluidez

Características de la puntuación Detalles de la puntuación
Intervalo de puntuación Entero [1-5]: donde 1 es malo y 5 es bueno
¿Qué es esta métrica? Mide la competencia gramatical de la respuesta predictiva de una inteligencia artificial generativa.
¿Cómo funciona? La medida de fluidez evalúa la medida en la que el texto generado se ajusta a las reglas gramaticales, las estructuras sintácticas y el uso adecuado del vocabulario, lo que da lugar a respuestas lingüísticamente correctas.
¿Cuándo se debe usar? Úselo al evaluar la exactitud lingüística del texto generado por IA y para garantizar que cumpla las reglas gramaticales adecuadas, las estructuras sintácticas y el uso del vocabulario correcto en las respuestas generadas.
¿Qué necesita como entrada? Pregunta, respuesta generada

Mensaje integrado usado por el juez del modelo de lenguaje grande para puntuar esta métrica:

Fluency measures the quality of individual sentences in the answer, and whether they are well-written and grammatically correct. Consider the quality of individual sentences when evaluating fluency. Given the question and answer, score the fluency of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks fluency 

Two stars: the answer mostly lacks fluency 

Three stars: the answer is partially fluent 

Four stars: the answer is mostly fluent 

Five stars: the answer has perfect fluency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Asistido por IA: Puntuación de recuperación

Características de la puntuación Detalles de la puntuación
Intervalo de puntuación Float [1-5]: donde 1 es malo y 5 es bueno
¿Qué es esta métrica? Mide la medida en que los documentos recuperados del modelo son pertinentes y se relacionan directamente con las preguntas dadas.
¿Cómo funciona? La puntuación de recuperación mide la calidad y la relevancia del documento recuperado con la pregunta del usuario (resumido en todo el historial de conversación). Pasos: Paso 1: Divida la consulta de usuario en intenciones. Extraiga las intenciones de la consulta de usuario como "¿Cuánto cuestan la máquina virtual Linux de Azure y la máquina virtual Windows de Azure?" -> La intención sería ["¿cuál es el precio de la máquina virtual Linux de Azure?", "¿cuál es el precio de la máquina virtual Windows de Azure?"]. Paso 2: Para cada intención de consulta de usuario, pida al modelo que evalúe si la propia intención o la respuesta a la intención están presentes o se pueden deducir de los documentos recuperados. La respuesta puede ser "No" o "Sí, documentos [doc1], [doc2]...". "Sí" significa que los documentos recuperados están relacionados con la intención o la respuesta a la intención y viceversa. Paso 3: Calcule la fracción de las intenciones que tengan una respuesta que comienza con "Sí". En este caso, todas las intenciones tienen la misma importancia. Paso 4: Por último, eleve al cuadrado la puntuación para penalizar los errores.
¿Cuándo se debe usar? Use la puntuación de recuperación cuando desee garantizar que los documentos recuperados sean muy relevantes para responder a las preguntas de los usuarios. Esta puntuación ayuda a garantizar la calidad y la idoneidad del contenido recuperado.
¿Qué necesita como entrada? Pregunta, contexto, respuesta generada

Mensaje integrado usado por el juez del modelo de lenguaje grande para puntuar esta métrica:

A chat history between user and bot is shown below 

A list of documents is shown below in json format, and each document has one unique id.  

These listed documents are used as contex to answer the given question. 

The task is to score the relevance between the documents and the potential answer to the given question in the range of 1 to 5.  

1 means none of the documents is relevant to the question at all. 5 means either one of the document or combination of a few documents is ideal for answering the given question. 

Think through step by step: 

- Summarize each given document first 

- Determine the underlying intent of the given question, when the question is ambiguous, refer to the given chat history  

- Measure how suitable each document to the given question, list the document id and the corresponding relevance score.  

- Summarize the overall relevance of given list of documents to the given question after # Overall Reason, note that the answer to the question can soley from single document or a combination of multiple documents.  

- Finally, output "# Result" followed by a score from 1 to 5.  

  

# Question 

{{ query }} 

# Chat History 

{{ history }} 

# Documents 

---BEGIN RETRIEVED DOCUMENTS--- 

{{ FullBody }} 

---END RETRIEVED DOCUMENTS--- 

Asistido por IA: Similitud de GPT

Características de la puntuación Detalles de la puntuación
Intervalo de puntuación Entero [1-5]: donde 1 es malo y 5 es bueno
¿Qué es esta métrica? Mide la similitud entre una oración de datos de origen (verdad básica) y la respuesta generada por un modelo de IA.
¿Cómo funciona? La medida de similitud de GPT evalúa la similitud entre una oración de verdad básica (o documento) y la predicción generada por el modelo de IA. Este cálculo implica la creación de incrustaciones de nivel de oración para la verdad básica y la predicción del modelo, que son representaciones vectoriales de alta dimensión que capturan el significado semántico y el contexto de las oraciones.
¿Cuándo se debe usar? Úselo cuando desee una evaluación objetiva del rendimiento de un modelo de IA, especialmente en las tareas de generación de texto en las que tiene acceso a respuestas de verdad básica. La similitud de GPT permite evaluar la alineación semántica del texto generado con el contenido deseado, lo que ayuda a medir la calidad y la precisión del modelo.
¿Qué necesita como entrada? Pregunta, respuesta de verdad básica, respuesta generada

Mensaje integrado usado por el juez del modelo de lenguaje grande para puntuar esta métrica:

GPT-Similarity, as a metric, measures the similarity between the predicted answer and the correct answer. If the information and content in the predicted answer is similar or equivalent to the correct answer, then the value of the Equivalence metric should be high, else it should be low. Given the question, correct answer, and predicted answer, determine the value of Equivalence metric using the following rating scale: 

One star: the predicted answer is not at all similar to the correct answer 

Two stars: the predicted answer is mostly not similar to the correct answer 

Three stars: the predicted answer is somewhat similar to the correct answer 

Four stars: the predicted answer is mostly similar to the correct answer 

Five stars: the predicted answer is completely similar to the correct answer 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Aprendizaje automático tradicional: Puntuación F1

Características de la puntuación Detalles de la puntuación
Intervalo de puntuación Float [0-1]
¿Qué es esta métrica? Mide la proporción del número de palabras compartidas entre la predicción del modelo y la verdad básica.
¿Cómo funciona? La puntuación F1 calcula la proporción del número de palabras compartidas entre la generación del modelo y la verdad básica. La relación se calcula sobre las palabras individuales de la respuesta generada en comparación con las de la respuesta de la verdad básica. El número de palabras compartidas entre la generación y la verdad es la base de la puntuación F1: la precisión es la proporción del número de palabras compartidas con el número total de palabras de la generación y la coincidencia es la proporción del número de palabras compartidas con el número total de palabras en la verdad básica.
¿Cuándo se debe usar? Use la puntuación F1 cuando desee una sola métrica completa que combine tanto la coincidencia como la precisión en las respuestas del modelo. Proporciona una evaluación equilibrada del rendimiento del modelo en términos de capturar información precisa en la respuesta.
¿Qué necesita como entrada? Pregunta, respuesta de verdad básica, respuesta generada

Pasos siguientes