İçeriğe geç
Tüm roadmap'e dön
topiccore

Agent Eval Temelleri

Tek-shot LLM eval ≠ agent eval. Trajectory + outcome + efficiency birlikte ölç.

3 saat1 önkoşul

Agent eval boyutları:

  1. Task success — final hedef tamamlandı mı?
  2. Trajectory quality — adımlar mantıklı mıydı?
  3. Tool selection — doğru aracı seçti mi?
  4. Efficiency — kaç adım, kaç token, kaç dolar?
  5. Recovery — hata sonrası toparlandı mı?
  6. Cost — task başına maliyet acceptable mı?
  7. Latency — kullanıcı kabul edilebilir sürede sonuç aldı mı?
  8. Safety — destructive action yaptı mı, izinsiz?

Her boyut için ayrı metric + eval method gerek. 100 task × 8 metric matrix → agent quality dashboard.

Önce bunları bil