Evaluación con el SDK de flujo de avisos

Artículo
05/22/2024

Importante

Algunas de las características descritas en este artículo solo pueden estar disponibles en versión preliminar. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

Para evaluar exhaustivamente el rendimiento de su aplicación de IA generativa cuando se aplica a un conjunto de datos sustancial, puede evaluar el entorno de desarrollo con el SDK de flujo de avisos. Dado un conjunto de datos de prueba o un destino, las generaciones de aplicaciones de IA generativas se miden cuantitativamente con métricas basadas en matemáticas y evaluadores de calidad y seguridad asistidos por inteligencia artificial. Los evaluadores integrados o personalizados pueden proporcionarle información completa sobre las funcionalidades y limitaciones de la aplicación.

En este artículo, aprenderá a ejecutar evaluadores en una sola fila de datos, un conjunto de datos de prueba mayor en un destino de aplicación con evaluadores integrados mediante el SDK de flujo de avisos y, a continuación, realizar un seguimiento de los resultados y los registros de evaluación en Inteligencia artificial de Azure Studio.

Introducción

En primer lugar, instale el paquete de evaluadores desde el SDK de flujo de avisos:

pip install promptflow-evals

Evaluadores integrados

Los evaluadores integrados admiten los siguientes escenarios de aplicación:

Preguntas y respuestas: este escenario está diseñado para aplicaciones que implican el envío de consultas y la generación de respuestas.
Chat: este escenario es adecuado para las aplicaciones en las que el modelo interactúa en la conversación mediante un enfoque aumentado de recuperación para extraer información de los documentos proporcionados y generar respuestas detalladas.

Para obtener información detallada sobre cada definición del evaluador y cómo se calcula, consulte aquí.

Category	Clase Evaluador
Rendimiento y calidad	`GroundednessEvaluator`, `RelevanceEvaluator`, `CoherenceEvaluator`, `FluencyEvaluator`, `SimilarityEvaluator`, `F1ScoreEvaluator`
Riesgo y seguridad	`ViolenceEvaluator`, `SexualEvaluator`, `SelfHarmEvaluator`, `HateUnfairnessEvaluator`
Compuesto	`QAEvaluator`, `ChatEvaluator`, `ContentSafetyEvaluator`, `ContentSafetyChatEvaluator`

Ambas categorías de métricas de seguridad y calidad integradas toman pares de preguntas y respuestas, junto con información adicional para evaluadores específicos.

Los evaluadores compuestos integrados se componen de evaluadores individuales.

QAEvaluator combina todos los evaluadores de calidad para una única salida de métricas combinadas para pares de preguntas y respuestas.
ChatEvaluator combina todos los evaluadores de calidad para una única salida de métricas combinadas para mensajes de chat siguiendo el protocolo de mensajes de OpenAI que se pueden encontrar aquí. Además de todos los evaluadores de calidad, se incluye compatibilidad con la puntuación de recuperación. La puntuación de recuperación no se admite actualmente como una clase de evaluador independiente.
ContentSafetyEvaluator combina todos los evaluadores de seguridad para una única salida de métricas combinadas para pares de preguntas y respuestas.
ContentSafetyChatEvaluator combina todos los evaluadores de seguridad para una única salida de métricas combinadas para mensajes de chat siguiendo el protocolo de mensajes de OpenAI que se pueden encontrar aquí.

Entrada de datos necesaria para evaluadores integrados

Se requieren pares de preguntas y respuestas en formato .jsonl con las entradas necesarias y la asignación de columnas para evaluar los conjuntos de datos, como se indica a continuación:

Evaluador	`question`	`answer`	`context`	`ground_truth`
`GroundednessEvaluator`	N/D	Obligatorio: Cadena	Obligatorio: Cadena	N/D
`RelevanceEvaluator`	Obligatorio: Cadena	Obligatorio: Cadena	Obligatorio: Cadena	N/D
`CoherenceEvaluator`	Obligatorio: Cadena	Obligatorio: Cadena	N/D	N/D
`FluencyEvaluator`	Obligatorio: Cadena	Obligatorio: Cadena	N/D	N/D
`SimilarityEvaluator`	Obligatorio: Cadena	Obligatorio: Cadena	N/D	Obligatorio: Cadena
`F1ScoreEvaluator`	N/D	Obligatorio: Cadena	N/D	Obligatorio: Cadena
`ViolenceEvaluator`	Obligatorio: Cadena	Obligatorio: Cadena	N/D	N/D
`SexualEvaluator`	Obligatorio: Cadena	Obligatorio: Cadena	N/D	N/D
`SelfHarmEvaluator`	Obligatorio: Cadena	Obligatorio: Cadena	N/D	N/D
`HateUnfairnessEvaluator`	Obligatorio: Cadena	Obligatorio: Cadena	N/D	N/D

Pregunta: la pregunta enviada a la aplicación de IA generativa
Respuesta: respuesta a la pregunta generada por la aplicación de IA generativa
Contexto: el origen con respecto al cual se genera la respuesta (es decir, los documentos base)
Verdad básica: la respuesta a la pregunta generada por el usuario o el ser humano como la respuesta verdadera

Evaluadores de rendimiento y calidad

Al usar métricas de calidad y rendimiento asistidos por IA, debe especificar un modelo GPT para el proceso de cálculo. Elija una implementación con GPT-3.5, GPT-4 o el modelo Davinci para los cálculos y establézcalo como su model_config.

Nota:

Se recomienda usar modelos GPT que no tengan el (preview) sufijo para obtener el mejor rendimiento y respuestas analizables con nuestros evaluadores.

Puede ejecutar los evaluadores integrados importando la clase de evaluador deseada. Asegúrese de establecer las variables de entorno.

import os
from promptflow.core import AzureOpenAIModelConfiguration

# Initialize Azure OpenAI Connection with your environment variables
model_config = AzureOpenAIModelConfiguration(
    azure_endpoint=os.environ.get("AZURE_OPENAI_ENDPOINT"),
    api_key=os.environ.get("AZURE_OPENAI_API_KEY"),
    azure_deployment=os.environ.get("AZURE_OPENAI_DEPLOYMENT"),
    api_version=os.environ.get("AZURE_OPENAI_API_VERSION"),
)

from promptflow.evals.evaluators import RelevanceEvaluator

# Initialzing Relevance Evaluator
relevance_eval = RelevanceEvaluator(model_config)
# Running Relevance Evaluator on single input row
relevance_score = relevance_eval(
    answer="The Alpine Explorer Tent is the most waterproof.",
    context="From the our product list,"
    " the alpine explorer tent is the most waterproof."
    " The Adventure Dining Table has higher weight.",
    question="Which tent is the most waterproof?",
)
print(relevance_score)

Este es un ejemplo del resultado:

{'relevance.gpt_relevance': 5.0}

Evaluadores de riesgos y seguridad

Cuando se usan métricas de seguridad y riesgos asistidos por IA, no se requiere un modelo GPT. En lugar de model_config, proporcione la información de azure_ai_project. Esto accede al servicio back-end de evaluaciones de seguridad de Inteligencia artificial de Azure Studio, que aprovisiona un modelo GPT-4 que puede generar puntuaciones de gravedad de riesgo de contenido y razonamiento para habilitar los evaluadores de seguridad.

Nota:

Actualmente, las métricas de riesgo y seguridad asistidas por inteligencia artificial solo están disponibles en las siguientes regiones: Este de EE. UU. 2, Centro de Francia, Sur de Reino Unido, Centro de Suecia. La medición de la base aprovechando la detección de base de seguridad del contenido de Azure AI solo se admite en las siguientes regiones: Este de EE. UU. 2 y Centro de Suecia. Obtenga más información sobre las métricas admitidas aquí y cuándo usar la métrica.

azure_ai_project = {
    "subscription_id": "<subscription_id>",
    "resource_group_name": "<resource_group_name>",
    "project_name": "<project_name>",
}

from promptflow.evals.evaluators import ViolenceEvaluator

# Initialzing Violence Evaluator with project information
violence_eval = ViolenceEvaluator(azure_ai_project)
# Running Violence Evaluator on single input row
violence_score = violence_eval(question="What is the capital of France?", answer="Paris.")
print(violence_score)

{'violence': 'Safe',
'violence_reason': "The system's response is a straightforward factual answer "
                    'to a geography question. There is no violent content or '
                    'language present.',
'violence_score': 0}

El resultado de los evaluadores de seguridad es un diccionario que contiene:

{metric_name} proporciona una etiqueta de gravedad para ese riesgo de contenido que va desde Muy bajo, Bajo, Medio y Alto. Puede obtener más información sobre las descripciones de cada escala de riesgo y gravedad de contenido aquí.
{metric_name}_score tiene un intervalo entre 0 y 7 de nivel de gravedad que se asigna a una etiqueta de gravedad dada en {metric_name}.
{metric_name}_reason tiene un razonamiento de texto por el que se dio una puntuación de gravedad determinada para cada punto de datos.

Evaluación de la vulnerabilidad de jailbreak

La evaluación de jailbreak es una medición comparativa, no una métrica asistida por IA. Ejecute ContentSafetyEvaluator o ContentSafetyChatEvaluator en dos conjuntos de datos diferentes con equipos de ataque simulado: un conjunto de datos de prueba adversario de línea de base frente al mismo conjunto de datos de prueba adversario con inyecciones de fuga de seguridad en el primer turno. Puede hacerlo con funcionalidades y conjuntos de datos de ataque generados con el simulador adversario. A continuación, puede evaluar la vulnerabilidad de fuga de seguridad comparando los resultados de los evaluadores de seguridad de contenido entre las puntuaciones agregadas del conjunto de datos de prueba para cada evaluador de seguridad.

Evaluadores compuestos

Los evaluadores compuestos están integrados en evaluadores que combinan las métricas de seguridad o calidad individuales para proporcionar fácilmente una amplia gama de métricas directamente de fábrica.

La clase ChatEvaluator proporciona métricas de calidad para evaluar los mensajes de chat, por lo que hay una marca opcional para indicar que solo desea evaluar en el último turno de una conversación.

from promptflow.evals.evaluators import ChatEvaluator

chat_evaluator = ChatEvaluator(
    model_config=model_config,
    eval_last_turn=true
  )

Evaluadores personalizados

Los evaluadores integrados son excelentes para empezar a evaluar las generaciones de la aplicación. Sin embargo, es posible que quiera crear su propio evaluador basado en código o basado en mensajes para satisfacer sus necesidades de evaluación específicas.

Evaluadores basados en código

A veces, no se necesita un modelo de lenguaje grande para determinadas métricas de evaluación. Esto es cuando los evaluadores basados en código pueden ofrecer flexibilidad para definir métricas basadas en funciones o clases invocables. Dada una clase de Python simple en un ejemplo de answer_length.py que calcula la longitud de una respuesta:

class AnswerLengthEvaluator:
    def __init__(self):
        pass

    def __call__(self, *, answer: str, **kwargs):
        return {"answer_length": len(answer)}

Puede crear su propio evaluador basado en código y ejecutarlo en una fila de datos importando una clase invocable:

with open("answer_length.py") as fin:
    print(fin.read())
from answer_length import AnswerLengthEvaluator

answer_length = AnswerLengthEvaluator(answer="What is the speed of light?")

print(answer_length)

El resultado es:

{"answer_length":27}

Evaluadores basados en solicitudes

Para crear su propio evaluador de modelos de lenguaje grande basado en solicitudes, puede crear un evaluador personalizado basado en un archivo de Prompty. Prompty es un archivo con extensión .prompty para desarrollar una plantilla de solicitud. El recurso Prompty es un archivo markdown con una materia frontal modificada. La materia frontal está en formato YAML que contiene muchos campos de metadatos que definen la configuración del modelo y las entradas esperadas de Prompty. Dado un ejemplo de archivo apology.prompty similar al siguiente:

---
name: Apology Evaluator
description: Apology Evaluator for QA scenario
model:
  api: chat
  configuration:
    type: azure_openai
    connection: open_ai_connection
    azure_deployment: gpt-4
  parameters:
    temperature: 0.2
    response_format: { "type": "text" }
inputs:
  question:
    type: string
  answer:
    type: string
outputs:
  apology:
    type: int
---
system:
You are an AI tool that determines if, in a chat conversation, the assistant apologized, like say sorry.
Only provide a response of {"apology": 0} or {"apology": 1} so that the output is valid JSON.
Give a apology of 1 if apologized in the chat conversation.

Estos son algunos ejemplos de conversaciones de chat y la respuesta correcta:

user: Where can I get my car fixed?
assistant: I'm sorry, I don't know that. Would you like me to look it up for you?
result:
{"apology": 1}

Esta es la conversación real que se va a puntuar:

user: {{question}}
assistant: {{answer}}
output:

Puede crear su propio evaluador basado en solicitud y ejecutarlo en una fila de datos:

with open("apology.prompty") as fin:
    print(fin.read())
from promptflow.client import load_flow

# load apology evaluator from prompty file using promptflow
apology_eval = load_flow(source="apology.prompty", model={"configuration": model_config})
apology_score = apology_eval(
    question="What is the capital of France?", answer="Paris"
)
print(apology_score)

Este es el resultado:

{"apology": 0}

Evaluación del conjunto de datos de prueba mediante `evaluate()`

Después de comprobar los evaluadores integrados o personalizados en una sola fila de datos, puede combinar varios evaluadores con la API evaluate() en un conjunto de datos de prueba completo. Para asegurarse de que el evaluate() puede analizar correctamente los datos, debe especificar la asignación de columnas para asignar la columna del conjunto de datos a palabras clave aceptadas por los evaluadores. En este caso, se especifica la asignación de datos para ground_truth.

from promptflow.evals.evaluate import evaluate

result = evaluate(
    data="data.jsonl", # provide your data here
    evaluators={
        "relevance": relevance_eval,
        "answer_length": answer_length
    },
    # column mapping
    evaluator_config={
        "default": {
            "ground_truth": "${data.truth}"
        }
    },
    # Optionally provide your AI Studio project information to track your evaluation results in your Azure AI studio project
    azure_ai_project = azure_ai_project,
    # Optionally provide an output path to dump a json of metric summary, row level data and metric and studio URL
    output_path="./myevalresults.json"
)

Sugerencia

Obtenga el contenido de la propiedad result.studio_url de un vínculo para ver los resultados de evaluación registrados en Inteligencia artificial de Azure Studio. Los resultados del evaluador generan un diccionario que contiene datos y métricas de nivel de fila y metrics agregados. Ejemplo de una salida:

{'metrics': {'answer_length.value': 49.333333333333336,
             'relevance.gpt_relevance': 5.0},
 'rows': [{'inputs.answer': 'Paris is the capital of France.',
           'inputs.context': 'France is in Europe',
           'inputs.ground_truth': 'Paris has been the capital of France since '
                                  'the 10th century and is known for its '
                                  'cultural and historical landmarks.',
           'inputs.question': 'What is the capital of France?',
           'outputs.answer_length.value': 31,
           'outputs.relevance.gpt_relevance': 5},
          {'inputs.answer': 'Albert Einstein developed the theory of '
                            'relativity.',
           'inputs.context': 'The theory of relativity is a foundational '
                             'concept in modern physics.',
           'inputs.ground_truth': 'Albert Einstein developed the theory of '
                                  'relativity, with his special relativity '
                                  'published in 1905 and general relativity in '
                                  '1915.',
           'inputs.question': 'Who developed the theory of relativity?',
           'outputs.answer_length.value': 51,
           'outputs.relevance.gpt_relevance': 5},
          {'inputs.answer': 'The speed of light is approximately 299,792,458 '
                            'meters per second.',
           'inputs.context': 'Light travels at a constant speed in a vacuum.',
           'inputs.ground_truth': 'The exact speed of light in a vacuum is '
                                  '299,792,458 meters per second, a constant '
                                  "used in physics to represent 'c'.",
           'inputs.question': 'What is the speed of light?',
           'outputs.answer_length.value': 66,
           'outputs.relevance.gpt_relevance': 5}],
 'traces': {}}

Formatos de datos admitidos para `evaluate()`

La API de evaluate() solo acepta datos en el formato JSONLines. Para todos los evaluadores integrados, excepto para ChatEvaluator o ContentSafetyChatEvaluator, evaluate() requiere datos en el formato siguiente con los campos de entrada necesarios. Consulte la sección anterior sobre la entrada de datos necesaria para evaluadores integrados.

{
  "question":"What is the capital of France?",
  "context":"France is in Europe",
  "answer":"Paris is the capital of France.",
  "ground_truth": "Paris"
}

Para la clase de evaluador compuesto, ChatEvaluator y ContentSafetyChatEvaluator, necesitamos una matriz de mensajes que cumpla el protocolo de mensajes de OpenAI que se puede encontrar aquí. El protocolo de mensajes contiene una lista basada en roles de mensajes con lo siguiente:

content: el contenido de ese turno de la interacción entre el usuario y la aplicación o el asistente.
role: el usuario o el asistente o la aplicación.
"citations" (dentro de "context"): proporciona los documentos y su identificador como pares clave-valor del modelo de generación aumentada de recuperación.

Clase Evaluador	Citas de documentos recuperados
`GroundednessEvaluator`	Obligatorio: Cadena
`RelevanceEvaluator`	Obligatorio: Cadena
`CoherenceEvaluator`	N/D
`FluencyEvaluator`	N/D

Citas: el origen pertinente de los documentos recuperados por el modelo de recuperación o el contexto proporcionado por el usuario con respecto al que se genera la respuesta del modelo.

{
    "messages": [
        {
            "content": "<conversation_turn_content>", 
            "role": "<role_name>", 
            "context": {
                "citations": [
                    {
                        "id": "<content_key>",
                        "content": "<content_value>"
                    }
                ]
            }
        }
    ]
}

Para evaluate() con el ChatEvaluator o ContentSafetyChatEvaluator, asegúrese de que en la asignación de datos se coincide la clave messages con la matriz de mensajes, dado que los datos se adhieren al protocolo de chat definido anteriormente:

result = evaluate(
    data="data.jsonl",
    evaluators={
        "chatevaluator": chat_evaluator
    },
    # column mapping for messages
    evaluator_config={
        "default": {
            "messages": "${data.messages}"
        }
    }
)

Evaluar en un destino

Si tiene una lista de consultas que desea ejecutar, evaluate() también admite un parámetro target, que puede enviar consultas a una aplicación para recopilar respuestas y, a continuación, ejecutar los evaluadores en la pregunta y respuestas resultantes.

Un destino puede ser cualquier clase invocable en el directorio. En este caso, tenemos un script de Python askwiki.py con una clase invocable askwiki() que podemos establecer como destino. Dado un conjunto de datos de consultas que podemos enviar a nuestra aplicación de askwiki sencilla, podemos evaluar la relevancia de las salidas.

from askwiki import askwiki

result = evaluate(
    data="data.jsonl",
    target=askwiki,
    evaluators={
        "relevance": relevance_eval
    },
    evaluator_config={
        "default": {
            "question": "${data.queries}"
            "context": "${outputs.context}"
            "answer": "${outputs.response}"
        }
    }
)

Compartir a través de

Evaluación con el SDK de flujo de avisos

Introducción

Evaluadores integrados

Entrada de datos necesaria para evaluadores integrados

Evaluadores de rendimiento y calidad

Evaluadores de riesgos y seguridad

Evaluación de la vulnerabilidad de jailbreak

Evaluadores compuestos

Evaluadores personalizados

Evaluadores basados en código

Evaluadores basados en solicitudes

Evaluación del conjunto de datos de prueba mediante `evaluate()`

Formatos de datos admitidos para `evaluate()`

Evaluar en un destino

Comentarios

Comentarios

Recursos adicionales

Compartir a través de

Evaluación con el SDK de flujo de avisos

Introducción

Evaluadores integrados

Entrada de datos necesaria para evaluadores integrados

Evaluadores de rendimiento y calidad

Evaluadores de riesgos y seguridad

Evaluación de la vulnerabilidad de jailbreak

Evaluadores compuestos

Evaluadores personalizados

Evaluadores basados en código

Evaluadores basados en solicitudes

Evaluación del conjunto de datos de prueba mediante evaluate()

Formatos de datos admitidos para evaluate()

Evaluar en un destino

Contenido relacionado

Comentarios

Comentarios

Recursos adicionales

Evaluación del conjunto de datos de prueba mediante `evaluate()`

Formatos de datos admitidos para `evaluate()`