Referencia de evaluadores integrados

Important

Los elementos marcados (versión preliminar) de este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se proporciona sin un contrato de nivel de servicio y no se recomienda para cargas de trabajo de producción. Es posible que algunas características no se admitan o que tengan funcionalidades restringidas. Para obtener más información, vea Supplemental Terms of Use for Microsoft Azure Previews.

Microsoft Foundry incluye evaluadores integrados para evaluar la calidad, la seguridad y la confiabilidad de las respuestas de inteligencia artificial a lo largo del ciclo de vida de desarrollo. En esta referencia se enumeran todos los evaluadores disponibles, sus propósitos e instrucciones sobre cómo seleccionar el adecuado para su caso de uso. También puede crear evaluadores personalizados adaptados a sus criterios de evaluación específicos.

Evaluadores de uso general

Evaluator	Purpose
Coherence	Mide la coherencia lógica y el flujo de respuestas.
Fluency	Mide la calidad y la legibilidad del lenguaje natural.

Para más información, consulte Evaluadores de uso general.

Evaluadores de similitud de texto

Evaluator	Purpose
Similarity	Medición de similitud textual asistida por IA.
F1 Score	Media armónica de precisión y recuperación en token se superpone entre la respuesta y la verdad del suelo.
BLEU	La puntuación de la evaluación bilingüe understudy para las medidas de calidad de traducción se superpone en n-gramas entre la respuesta y la verdad del suelo.
GLEU	Google-BLEU variante para las medidas de evaluación a nivel de oración se solapa en n-gramos entre la respuesta y la verdad fundamental.
ROUGE	Recall-Oriented Understudy para Gisting Evaluation mide solapamientos en n-gramas entre la respuesta y la verdad de base.
METEOR	La métrica para la evaluación de la traducción con medidas de ordenación explícita se superpone en n-gramas entre la respuesta y la verdad del terreno.

Para más información, consulte Evaluadores de similitud de texto.

RAG evaluators

Evaluator	Purpose
Retrieval	Mide la eficacia en que el sistema recupera información relevante.
Document Retrieval	Mide la precisión en los resultados de recuperación dada la verdad básica.
Groundedness	Mide cómo se basa la respuesta en el contexto recuperado. Devuelve una puntuación de 1 a 5 mediante una sentencia basada en modelos.
Groundedness Pro (versión preliminar)	Mide si la respuesta se basa en el contexto recuperado mediante el servicio Seguridad del contenido de Azure AI. Devuelve un paso binario o un error sin necesidad de una implementación del modelo.
Relevance	Mide la importancia de la respuesta con respecto a la consulta.
Integridad de la respuesta (versión preliminar)	Mide en qué medida se completa la respuesta (no falta información crítica) con respecto a la verdad básica.

Para más información, consulte Evaluadores de generación aumentada de recuperación (RAG).

Evaluadores de riesgos y seguridad

Evaluator	Purpose
Odio e injusticia	Identifica contenido sesgado, discriminatorio o odioso.
Sexual	Identifica contenido sexual inapropiado.
Violence	Detecta contenido violento o incitación.
Self-Harm	Detecta el contenido que promueve o describe el daño propio.
Protected Materials	Detecta el uso no autorizado de contenido protegido o con derechos de autor.
Ataque indirecto (XPIA)	Mide si la respuesta cayó para un intento indirecto de jailbreak insertado a través del contexto recuperado.
Code Vulnerability	Identifica problemas de seguridad en el código generado.
Ungrounded Attributes	Detecta información fabricada o alucinada inferida de las interacciones del usuario.
Acciones prohibidas (versión preliminar)	Mide la capacidad de un agente de IA de participar en comportamientos que infringen acciones no permitidas explícitamente.
Pérdida de datos confidenciales (versión preliminar)	Mide la vulnerabilidad de un agente de IA para exponer información confidencial.

Para más información, consulte Evaluadores de riesgos y seguridad.

Agent evaluators

Evaluator	Purpose
Cumplimiento de tareas (versión preliminar)	Mide si el agente sigue las tareas identificadas según las instrucciones del sistema.
Finalización de tareas (versión preliminar)	Mide si el agente completó correctamente la tarea solicitada de un extremo a otro.
Resolución de intenciones (versión preliminar)	Mide la precisión en que el agente identifica y aborda las intenciones del usuario.
Eficiencia de navegación de tareas	Determina si la secuencia de pasos del agente coincide con una ruta de acceso óptima o esperada para medir la eficacia.
Precisión de llamadas de herramienta	Mide la calidad general de las llamadas a herramientas, incluida la selección, la corrección de parámetros y la eficacia.
Tool Selection	Mide si el agente seleccionó las herramientas más adecuadas y eficaces para una tarea.
Precisión de entrada de la herramienta	Valida que todos los parámetros de llamada a herramientas son correctos con criterios estrictos, como la puesta en tierra, el tipo, el formato, la integridad y la idoneidad.
Uso de la salida de la herramienta	Mide si el agente interpreta y usa correctamente las salidas de la herramienta en respuestas y llamadas posteriores.
Llamada correcta de la herramienta	Evalúa si todas las llamadas a herramientas se ejecutaron correctamente sin errores técnicos.

Para más información, consulte Evaluadores de agentes.

Azure calificaciones de OpenAI

Evaluator	Purpose
Model Labeler	Clasifica el contenido mediante directrices y etiquetas personalizadas.
String Checker	Realiza validaciones de texto flexibles y coincidencia de patrones.
Text Similarity	Evalúa la calidad del texto o determina la proximidad semántica.
Model Scorer	Genera puntuaciones numéricas (intervalo personalizado) para el contenido en función de las directrices personalizadas.

Para obtener más información, consulte Azure OpenAI Graders.

Evaluadores personalizados (versión preliminar)

Además de los evaluadores integrados, puede crear evaluadores personalizados adaptados a sus criterios de evaluación específicos. Los evaluadores personalizados permiten definir una lógica de puntuación única, reglas de validación y métricas de calidad que se alinean con los requisitos empresariales y las necesidades específicas de la aplicación.

Para más información, consulte Evaluadores personalizados.

Combining evaluators

Para una evaluación completa de la calidad, combine varios evaluadores:

Aplicaciones RAG: Recuperación + Solidez + Relevancia + Seguridad de contenido
Aplicaciones del agente: Precisión de llamadas de herramientas + Cumplimiento de tareas + Resolución de intenciones + Seguridad de contenido
Aplicaciones de traducción: BLEU + METEOR + Fluency + Coherencia
Todas las aplicaciones: Añadir evaluadores de riesgos y seguridad (Odio e Injusticia, Sexual, Violencia, Self-Harm) para prácticas responsables de IA

Comentarios

Resultoulle útil esta páxina?

Last updated on 2026-04-30