Tüm roadmap'e dön
topiccore
Agent Eval Temelleri
Tek-shot LLM eval ≠ agent eval. Trajectory + outcome + efficiency birlikte ölç.
3 saat1 önkoşul
Agent eval boyutları:
- Task success — final hedef tamamlandı mı?
- Trajectory quality — adımlar mantıklı mıydı?
- Tool selection — doğru aracı seçti mi?
- Efficiency — kaç adım, kaç token, kaç dolar?
- Recovery — hata sonrası toparlandı mı?
- Cost — task başına maliyet acceptable mı?
- Latency — kullanıcı kabul edilebilir sürede sonuç aldı mı?
- Safety — destructive action yaptı mı, izinsiz?
Her boyut için ayrı metric + eval method gerek. 100 task × 8 metric matrix → agent quality dashboard.