RubricBasedEvaluatorDefinition interface

Definicja ewaluatora oparta na rubryce — przechowuje wymiary wygenerowane przez generujące API. Używany zarówno do oceny jakości, jak i bezpieczeństwa.

Rozszerzenie

Właściwości

dimensions

Zestaw wymiarów — plan punktacji używany przez sędziego LLM. Ewaluatory jakości zawierają nieedytowalny wymiar resztkowy z id 'general_quality' (always_applicable: true); Do ewaluatorów bezpieczeństwa należą 'general_policy_compliance'. Obie wykorzystują tę samą strukturę wymiarową.

pass_threshold

Próg zaliczenia/niezaliczenia dla zagregowanego wyniku rubrykowego, na tej samej znormalizowanej skali 0,0-1,0 co wyemitowany scorewynik . Gdy średnia ważona w czasie wykonywania jest równa lub przekracza tę wartość, wynik to pass. Domyślnie wynosi 0,5 (co odpowiada surowej średniej ważonej 1-5 3,0). Zasada "każdy wymiar uzyskał 1 → nie zdaje" nadal obowiązuje niezależnie od tego progu.

type

Możliwe wartości dyskryminatora: kod, prompt, rubryka

Właściwości dziedziczone

data_schema

Schemat JSON (wersja robocza 2020-12) dla danych wejściowych ewaluatora. Obejmuje to parametry, takie jak typ, właściwości, wymagane.

init_parameters

Schemat JSON (wersja robocza 2020-12) dla parametrów wejściowych ewaluatora. Obejmuje to parametry, takie jak typ, właściwości, wymagane.

metrics

Lista metryk wyjściowych utworzonych przez tego ewaluatora

Szczegóły właściwości

dimensions

Zestaw wymiarów — plan punktacji używany przez sędziego LLM. Ewaluatory jakości zawierają nieedytowalny wymiar resztkowy z id 'general_quality' (always_applicable: true); Do ewaluatorów bezpieczeństwa należą 'general_policy_compliance'. Obie wykorzystują tę samą strukturę wymiarową.

dimensions: Dimension[]

Wartość właściwości

pass_threshold

Próg zaliczenia/niezaliczenia dla zagregowanego wyniku rubrykowego, na tej samej znormalizowanej skali 0,0-1,0 co wyemitowany scorewynik . Gdy średnia ważona w czasie wykonywania jest równa lub przekracza tę wartość, wynik to pass. Domyślnie wynosi 0,5 (co odpowiada surowej średniej ważonej 1-5 3,0). Zasada "każdy wymiar uzyskał 1 → nie zdaje" nadal obowiązuje niezależnie od tego progu.

pass_threshold?: number

Wartość właściwości

number

type

Możliwe wartości dyskryminatora: kod, prompt, rubryka

type: "rubric"

Wartość właściwości

"rubric"

Szczegóły właściwości dziedziczonej

data_schema

Schemat JSON (wersja robocza 2020-12) dla danych wejściowych ewaluatora. Obejmuje to parametry, takie jak typ, właściwości, wymagane.

data_schema?: Record<string, unknown>

Wartość właściwości

Record<string, unknown>

Odziedziczone poEvaluatorDefinition.data_schema

init_parameters

Schemat JSON (wersja robocza 2020-12) dla parametrów wejściowych ewaluatora. Obejmuje to parametry, takie jak typ, właściwości, wymagane.

init_parameters?: Record<string, unknown>

Wartość właściwości

Record<string, unknown>

Odziedziczone poEvaluatorDefinition.init_parameters

metrics

Lista metryk wyjściowych utworzonych przez tego ewaluatora

metrics?: Record<string, EvaluatorMetric>

Wartość właściwości

Record<string, EvaluatorMetric>

Odziedziczone poEvaluatorDefinition.metrics