OptimizationTaskResult interface
Tek bir aday için görev başına değerlendirme sonuçları.
Özellikler
| composite_score | Tüm değerlendirici puanlarını birleştiren bileşik puan. |
| duration_seconds | Bu görevin ajanı çalıştırması için duvar saati saniyeleri. |
| error_message | Görev çalıştırma sırasında başarısız olursa hata mesajı. |
| passed | Görevin geçme eşiğini karşılayıp karşılamadığı. |
| query | Görev için kullanıcı sorgusu / girdisi. |
| rationales | Değerlendirici başına gerekçe, değerlendirici adına göre belirlenir. |
| response | Ham ajan yanıt metni. |
| run_id | Bu sonucu üreten ajan çalıştırmasının tanımlayıcısı. |
| scores | Değerlendirici başına puanlar değerlendiricinin adına göre belirlenir. |
| task_name | Görev adı (veri setinden). |
| tokens | Bu görev için ajan çalıştırma sırasında toplam token tüketilir. |
Özellik Ayrıntıları
composite_score
Tüm değerlendirici puanlarını birleştiren bileşik puan.
composite_score: number
Özellik Değeri
number
duration_seconds
Bu görevin ajanı çalıştırması için duvar saati saniyeleri.
duration_seconds: number
Özellik Değeri
number
error_message
Görev çalıştırma sırasında başarısız olursa hata mesajı.
error_message?: string
Özellik Değeri
string
passed
Görevin geçme eşiğini karşılayıp karşılamadığı.
passed: boolean
Özellik Değeri
boolean
query
Görev için kullanıcı sorgusu / girdisi.
query?: string
Özellik Değeri
string
rationales
Değerlendirici başına gerekçe, değerlendirici adına göre belirlenir.
rationales?: Record<string, string>
Özellik Değeri
Record<string, string>
response
Ham ajan yanıt metni.
response?: string
Özellik Değeri
string
run_id
Bu sonucu üreten ajan çalıştırmasının tanımlayıcısı.
run_id?: string
Özellik Değeri
string
scores
Değerlendirici başına puanlar değerlendiricinin adına göre belirlenir.
scores: Record<string, number>
Özellik Değeri
Record<string, number>
task_name
Görev adı (veri setinden).
task_name: string
Özellik Değeri
string
tokens
Bu görev için ajan çalıştırma sırasında toplam token tüketilir.
tokens: number
Özellik Değeri
number