topicadvanced

SWE-Bench (Coding Agent Benchmark)

Real GitHub issue'ları → agent fix etmeli → testler geçmeli. Coding agent'ın altın standardı.

3 saat2 kaynak

Princeton'ın SWE-Bench (2024): GitHub'tan real Python project'lerinden issue + fix pair'leri. Agent'a issue verilir, kod düzeltmesi beklenir. Otomatik test execution ile pass/fail.

Variants:

SWE-Bench Verified — insan-validated 500 task
SWE-Bench Lite — daha küçük subset, hızlı eval
SWE-Bench Multimodal — UI + kod

SOTA (2025): Claude 4 Sonnet + agentic scaffold ~70%. 2023'te %4'tü. Bu hızla 2026'da %85+ bekleniyor.

Kaynaklar(2)

GGitHub(1)

SWE-Bench

· en

free

AMakale(1)

SWE-Bench leaderboard

Genel Agent Benchmark'ları

Tüm roadmap'i interaktif görüntüle