Tüm roadmap'e dön
topicadvanced
Genel Agent Benchmark'ları
GAIA, AgentBench, τ-bench, WebArena, OSWorld — farklı use case'ler için standart benchmark'lar.
3 saat3 kaynak1 önkoşul
GAIA (Meta) — general assistant; web search + multi-modal + reasoning. τ-bench (Sierra) — customer service simulation; agent vs synthetic user. AgentBench — 8 environment (OS, DB, code, web, etc.); broad coverage. WebArena — realistic web tasks (shopping, mapping). OSWorld — desktop OS automation. SWE-Bench — coding (see prev).
Kendi use case'in için en yakın benchmark'ı seç, agent'ını orada ölç. Custom benchmark = en doğru ama maliyetli.