Tüm roadmap'e dön
topicadvanced
SWE-Bench (Coding Agent Benchmark)
Real GitHub issue'ları → agent fix etmeli → testler geçmeli. Coding agent'ın altın standardı.
3 saat2 kaynak
Princeton'ın SWE-Bench (2024): GitHub'tan real Python project'lerinden issue + fix pair'leri. Agent'a issue verilir, kod düzeltmesi beklenir. Otomatik test execution ile pass/fail.
Variants:
- SWE-Bench Verified — insan-validated 500 task
- SWE-Bench Lite — daha küçük subset, hızlı eval
- SWE-Bench Multimodal — UI + kod
SOTA (2025): Claude 4 Sonnet + agentic scaffold ~70%. 2023'te %4'tü. Bu hızla 2026'da %85+ bekleniyor.