Tüm roadmap'e dön
topicadvanced
Agent Eval
Trajectory eval — agent'ın sadece final değil, ARA adımlarını da değerlendir.
3 saat2 kaynak2 önkoşul
Tek-shot LLM eval'ından farklı: agent çoklu tool çağrısı ve uzun trajectory üretir. Eval boyutları:
- Task success — final hedef tamamlandı mı?
- Efficiency — kaç adım, kaç token, kaç dolar?
- Tool selection — doğru aracı seçti mi?
- Recovery — hata sonrası toparlandı mı?
- Trajectory diversity — aynı görevde tutarlı mı?
Benchmarklar: SWE-Bench (coding), GAIA (general agents), AgentBench, τ-bench.