topicadvanced

Genel Agent Benchmark'ları

GAIA, AgentBench, τ-bench, WebArena, OSWorld — farklı use case'ler için standart benchmark'lar.

3 saat3 kaynak1 önkoşul

GAIA (Meta) — general assistant; web search + multi-modal + reasoning. τ-bench (Sierra) — customer service simulation; agent vs synthetic user. AgentBench — 8 environment (OS, DB, code, web, etc.); broad coverage. WebArena — realistic web tasks (shopping, mapping). OSWorld — desktop OS automation. SWE-Bench — coding (see prev).

Kendi use case'in için en yakın benchmark'ı seç, agent'ını orada ölç. Custom benchmark = en doğru ama maliyetli.