RubricBasedEvaluatorDefinition interface

Definición de evaluador basada en rúbricas: almacena las dimensiones producidas por la API de generación. Se utiliza tanto para evaluadores de calidad como de seguridad.

Extends

Propiedades

dimensions

El conjunto de dimensiones — el plano de puntuación utilizado por el juez del LLM. Los evaluadores de calidad incluyen una dimensión residual no editable con id 'general_quality' (always_applicable: verdadero); Los evaluadores de seguridad incluyen 'general_policy_compliance'. Ambos utilizan la misma estructura dimensional.

pass_threshold

Umbral de aprobado/suspenso para la puntuación agregada de rúbricas, en la misma escala normalizada de 0,0 a 1,0 que la emisión scorede . Cuando el promedio ponderado en tiempo de ejecución alcanza o supera este valor, el resultado es pass. Por defecto es 0,5 (equivalente a una media cruda ponderada de 1-5 de 3,0). La regla de 'cualquier dimensión puntuada 1 → falla' sigue aplicándose independientemente de este umbral.

type

Los valores posibles del discriminador: código, prompt, rúbrica

Propiedades heredadas

data_schema

Esquema JSON (borrador 2020-12) para los datos de entrada del evaluador. Esto incluye parámetros como el tipo, las propiedades, obligatorios.

init_parameters

Esquema JSON (borrador 2020-12) para los parámetros de entrada del evaluador. Esto incluye parámetros como el tipo, las propiedades, obligatorios.

metrics

Lista de métricas de salida generadas por este evaluador

Detalles de las propiedades

dimensions

El conjunto de dimensiones — el plano de puntuación utilizado por el juez del LLM. Los evaluadores de calidad incluyen una dimensión residual no editable con id 'general_quality' (always_applicable: verdadero); Los evaluadores de seguridad incluyen 'general_policy_compliance'. Ambos utilizan la misma estructura dimensional.

dimensions: Dimension[]

Valor de propiedad

pass_threshold

Umbral de aprobado/suspenso para la puntuación agregada de rúbricas, en la misma escala normalizada de 0,0 a 1,0 que la emisión scorede . Cuando el promedio ponderado en tiempo de ejecución alcanza o supera este valor, el resultado es pass. Por defecto es 0,5 (equivalente a una media cruda ponderada de 1-5 de 3,0). La regla de 'cualquier dimensión puntuada 1 → falla' sigue aplicándose independientemente de este umbral.

pass_threshold?: number

Valor de propiedad

number

type

Los valores posibles del discriminador: código, prompt, rúbrica

type: "rubric"

Valor de propiedad

"rubric"

Detalles de las propiedades heredadas

data_schema

Esquema JSON (borrador 2020-12) para los datos de entrada del evaluador. Esto incluye parámetros como el tipo, las propiedades, obligatorios.

data_schema?: Record<string, unknown>

Valor de propiedad

Record<string, unknown>

Heredado deEvaluatorDefinition.data_schema

init_parameters

Esquema JSON (borrador 2020-12) para los parámetros de entrada del evaluador. Esto incluye parámetros como el tipo, las propiedades, obligatorios.

init_parameters?: Record<string, unknown>

Valor de propiedad

Record<string, unknown>

Heredado deEvaluatorDefinition.init_parameters

metrics

Lista de métricas de salida generadas por este evaluador

metrics?: Record<string, EvaluatorMetric>

Valor de propiedad

Record<string, EvaluatorMetric>

Heredado deEvaluatorDefinition.metrics