OptimizationTaskResult interface

Wyniki oceny na każde zadanie dla jednego kandydata.

Właściwości

composite_score

Łączny wynik sumujący wszystkie wyniki oceniającego.

duration_seconds

Sekundy na wykonanie agenta w tym zadaniu.

error_message

Komunikat o błędzie, jeśli zadanie nie powiodło się podczas wykonywania.

passed

Czy zadanie spełnia próg zaliczenia.

query

Zapytanie użytkownika / wejście do zadania.

rationales

Rozumowanie per-ewaluatora przypisane nazwą ewaluatora.

response

Surowy tekst odpowiedź agenta.

run_id

Identyfikator uruchomienia agenta, który wygenerował ten wynik.

scores

Wyniki per-oceniającego są przypisane według nazwiska ewaluatora.

task_name

Nazwa zadania (ze zbioru danych).

tokens

Całkowita liczba tokenów zużytych podczas wykonywania tego zadania przez agenta.

Szczegóły właściwości

composite_score

Łączny wynik sumujący wszystkie wyniki oceniającego.

composite_score: number

Wartość właściwości

number

duration_seconds

Sekundy na wykonanie agenta w tym zadaniu.

duration_seconds: number

Wartość właściwości

number

error_message

Komunikat o błędzie, jeśli zadanie nie powiodło się podczas wykonywania.

error_message?: string

Wartość właściwości

string

passed

Czy zadanie spełnia próg zaliczenia.

passed: boolean

Wartość właściwości

boolean

query

Zapytanie użytkownika / wejście do zadania.

query?: string

Wartość właściwości

string

rationales

Rozumowanie per-ewaluatora przypisane nazwą ewaluatora.

rationales?: Record<string, string>

Wartość właściwości

Record<string, string>

response

Surowy tekst odpowiedź agenta.

response?: string

Wartość właściwości

string

run_id

Identyfikator uruchomienia agenta, który wygenerował ten wynik.

run_id?: string

Wartość właściwości

string

scores

Wyniki per-oceniającego są przypisane według nazwiska ewaluatora.

scores: Record<string, number>

Wartość właściwości

Record<string, number>

task_name

Nazwa zadania (ze zbioru danych).

task_name: string

Wartość właściwości

string

tokens

Całkowita liczba tokenów zużytych podczas wykonywania tego zadania przez agenta.

tokens: number

Wartość właściwości

number