İçeriğe geç
Tüm roadmap'e dön
topicadvanced

Agent Eval

Trajectory eval — agent'ın sadece final değil, ARA adımlarını da değerlendir.

3 saat2 kaynak2 önkoşul

Tek-shot LLM eval'ından farklı: agent çoklu tool çağrısı ve uzun trajectory üretir. Eval boyutları:

  1. Task success — final hedef tamamlandı mı?
  2. Efficiency — kaç adım, kaç token, kaç dolar?
  3. Tool selection — doğru aracı seçti mi?
  4. Recovery — hata sonrası toparlandı mı?
  5. Trajectory diversity — aynı görevde tutarlı mı?

Benchmarklar: SWE-Bench (coding), GAIA (general agents), AgentBench, τ-bench.

Önce bunları bil

Kaynaklar(2)