İçeriğe geç
Tüm roadmap'e dön
topiccore

LLM-as-Judge ile Trajectory Eval

Güçlü model agent trajectory'sini 5-7 boyutta puanlar — manual review yerine.

3 saat1 önkoşul

Manual trajectory review imkansız (10 step × 100 task = 1000 review). LLM-as-judge:

  1. Final outcome'u success/fail olarak skorla
  2. Her tool call'unu "necessary / sufficient / efficient" diye puanla
  3. Trajectory'i bir bütün olarak "natural / convoluted" skoru
  4. Failure reason'ı kategorize et (wrong tool, hallucination, infinite loop, etc.)

Pitfall: judge bias — kendi modeline benzer trajectory'i tercih edebilir. Multiple judges + averaging.

Önce bunları bil