Tüm roadmap'e dön

topicadvanced

Agent Eval

Trajectory eval — agent'ın sadece final değil, ARA adımlarını da değerlendir.

3 saat2 kaynak2 önkoşul

Tek-shot LLM eval'ından farklı: agent çoklu tool çağrısı ve uzun trajectory üretir. Eval boyutları:

Task success — final hedef tamamlandı mı?
Efficiency — kaç adım, kaç token, kaç dolar?
Tool selection — doğru aracı seçti mi?
Recovery — hata sonrası toparlandı mı?
Trajectory diversity — aynı görevde tutarlı mı?

Benchmarklar: SWE-Bench (coding), GAIA (general agents), AgentBench, τ-bench.

Önce bunları bil

Eval Dataset Tasarımı

50-200 gerçek user input + beklenen output. 'Gözle tatmin' = eval değildir.

Agentic Loop Mimarisi

while(!done) { think → act → observe → update_state } — modern agent'ın iskeleti.

Kaynaklar(2)

GGitHub(2)

SWE-Bench (coding agent benchmark)

GAIA (general assistant)

Agentic IDE'ler (Claude Code, Cursor)

Tüm roadmap'i interaktif görüntüle