Tüm roadmap'e dön

topiccore

Agent Eval Temelleri

Tek-shot LLM eval ≠ agent eval. Trajectory + outcome + efficiency birlikte ölç.

3 saat1 önkoşul

Agent eval boyutları:

Task success — final hedef tamamlandı mı?
Trajectory quality — adımlar mantıklı mıydı?
Tool selection — doğru aracı seçti mi?
Efficiency — kaç adım, kaç token, kaç dolar?
Recovery — hata sonrası toparlandı mı?
Cost — task başına maliyet acceptable mı?
Latency — kullanıcı kabul edilebilir sürede sonuç aldı mı?
Safety — destructive action yaptı mı, izinsiz?

Her boyut için ayrı metric + eval method gerek. 100 task × 8 metric matrix → agent quality dashboard.

Önce bunları bil

Trace Logging & Debugging

Her agent step'i log'la — model input/output, tool calls, latency, cost. Yoksa debug imkansız.

Framework Karşılaştırma & Seçimi

SWE-Bench (Coding Agent Benchmark)

Tüm roadmap'i interaktif görüntüle