Referencia de evaluadores integrados

Important

Los elementos marcados (versión preliminar) de este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se proporciona sin un contrato de nivel de servicio y no se recomienda para cargas de trabajo de producción. Es posible que algunas características no se admitan o que tengan funcionalidades restringidas. Para obtener más información, vea Supplemental Terms of Use for Microsoft Azure Previews.

Microsoft Foundry incluye evaluadores integrados para evaluar la calidad, la seguridad y la confiabilidad de las respuestas de inteligencia artificial a lo largo del ciclo de vida de desarrollo. En esta referencia se enumeran todos los evaluadores disponibles, sus propósitos e instrucciones sobre cómo seleccionar el adecuado para su caso de uso. También puede crear evaluadores personalizados adaptados a sus criterios de evaluación específicos.

Evaluadores de uso general

Evaluator Purpose
Coherence Mide la coherencia lógica y el flujo de respuestas.
Fluency Mide la calidad y la legibilidad del lenguaje natural.

Para más información, consulte Evaluadores de uso general.

Evaluadores de similitud de texto

Evaluator Purpose
Similarity Medición de similitud textual asistida por IA.
F1 Score Media armónica de precisión y recuperación en token se superpone entre la respuesta y la verdad del suelo.
BLEU La puntuación de la evaluación bilingüe understudy para las medidas de calidad de traducción se superpone en n-gramas entre la respuesta y la verdad del suelo.
GLEU Google-BLEU variante para las medidas de evaluación a nivel de oración se solapa en n-gramos entre la respuesta y la verdad fundamental.
ROUGE Recall-Oriented Understudy para Gisting Evaluation mide solapamientos en n-gramas entre la respuesta y la verdad de base.
METEOR La métrica para la evaluación de la traducción con medidas de ordenación explícita se superpone en n-gramas entre la respuesta y la verdad del terreno.

Para más información, consulte Evaluadores de similitud de texto.

RAG evaluators

Evaluator Purpose
Retrieval Mide la eficacia en que el sistema recupera información relevante.
Document Retrieval Mide la precisión en los resultados de recuperación dada la verdad básica.
Groundedness Mide cómo se basa la respuesta en el contexto recuperado. Devuelve una puntuación de 1 a 5 mediante una sentencia basada en modelos.
Groundedness Pro (versión preliminar) Mide si la respuesta se basa en el contexto recuperado mediante el servicio Seguridad del contenido de Azure AI. Devuelve un paso binario o un error sin necesidad de una implementación del modelo.
Relevance Mide la importancia de la respuesta con respecto a la consulta.
Integridad de la respuesta (versión preliminar) Mide en qué medida se completa la respuesta (no falta información crítica) con respecto a la verdad básica.

Para más información, consulte Evaluadores de generación aumentada de recuperación (RAG).

Evaluadores de riesgos y seguridad

Evaluator Purpose
Odio e injusticia Identifica contenido sesgado, discriminatorio o odioso.
Sexual Identifica contenido sexual inapropiado.
Violence Detecta contenido violento o incitación.
Self-Harm Detecta el contenido que promueve o describe el daño propio.
Protected Materials Detecta el uso no autorizado de contenido protegido o con derechos de autor.
Ataque indirecto (XPIA) Mide si la respuesta cayó para un intento indirecto de jailbreak insertado a través del contexto recuperado.
Code Vulnerability Identifica problemas de seguridad en el código generado.
Ungrounded Attributes Detecta información fabricada o alucinada inferida de las interacciones del usuario.
Acciones prohibidas (versión preliminar) Mide la capacidad de un agente de IA de participar en comportamientos que infringen acciones no permitidas explícitamente.
Pérdida de datos confidenciales (versión preliminar) Mide la vulnerabilidad de un agente de IA para exponer información confidencial.

Para más información, consulte Evaluadores de riesgos y seguridad.

Agent evaluators

Evaluator Purpose
Cumplimiento de tareas (versión preliminar) Mide si el agente sigue las tareas identificadas según las instrucciones del sistema.
Finalización de tareas (versión preliminar) Mide si el agente completó correctamente la tarea solicitada de un extremo a otro.
Resolución de intenciones (versión preliminar) Mide la precisión en que el agente identifica y aborda las intenciones del usuario.
Eficiencia de navegación de tareas Determina si la secuencia de pasos del agente coincide con una ruta de acceso óptima o esperada para medir la eficacia.
Precisión de llamadas de herramienta Mide la calidad general de las llamadas a herramientas, incluida la selección, la corrección de parámetros y la eficacia.
Tool Selection Mide si el agente seleccionó las herramientas más adecuadas y eficaces para una tarea.
Precisión de entrada de la herramienta Valida que todos los parámetros de llamada a herramientas son correctos con criterios estrictos, como la puesta en tierra, el tipo, el formato, la integridad y la idoneidad.
Uso de la salida de la herramienta Mide si el agente interpreta y usa correctamente las salidas de la herramienta en respuestas y llamadas posteriores.
Llamada correcta de la herramienta Evalúa si todas las llamadas a herramientas se ejecutaron correctamente sin errores técnicos.

Para más información, consulte Evaluadores de agentes.

Azure calificaciones de OpenAI

Evaluator Purpose
Model Labeler Clasifica el contenido mediante directrices y etiquetas personalizadas.
String Checker Realiza validaciones de texto flexibles y coincidencia de patrones.
Text Similarity Evalúa la calidad del texto o determina la proximidad semántica.
Model Scorer Genera puntuaciones numéricas (intervalo personalizado) para el contenido en función de las directrices personalizadas.

Para obtener más información, consulte Azure OpenAI Graders.

Evaluadores personalizados (versión preliminar)

Además de los evaluadores integrados, puede crear evaluadores personalizados adaptados a sus criterios de evaluación específicos. Los evaluadores personalizados permiten definir una lógica de puntuación única, reglas de validación y métricas de calidad que se alinean con los requisitos empresariales y las necesidades específicas de la aplicación.

Para más información, consulte Evaluadores personalizados.

Combining evaluators

Para una evaluación completa de la calidad, combine varios evaluadores:

  • Aplicaciones RAG: Recuperación + Solidez + Relevancia + Seguridad de contenido
  • Aplicaciones del agente: Precisión de llamadas de herramientas + Cumplimiento de tareas + Resolución de intenciones + Seguridad de contenido
  • Aplicaciones de traducción: BLEU + METEOR + Fluency + Coherencia
  • Todas las aplicaciones: Añadir evaluadores de riesgos y seguridad (Odio e Injusticia, Sexual, Violencia, Self-Harm) para prácticas responsables de IA