İçeriğe geç
Tüm roadmap'e dön
topicadvanced

SWE-Bench (Coding Agent Benchmark)

Real GitHub issue'ları → agent fix etmeli → testler geçmeli. Coding agent'ın altın standardı.

3 saat2 kaynak

Princeton'ın SWE-Bench (2024): GitHub'tan real Python project'lerinden issue + fix pair'leri. Agent'a issue verilir, kod düzeltmesi beklenir. Otomatik test execution ile pass/fail.

Variants:

  • SWE-Bench Verified — insan-validated 500 task
  • SWE-Bench Lite — daha küçük subset, hızlı eval
  • SWE-Bench Multimodal — UI + kod

SOTA (2025): Claude 4 Sonnet + agentic scaffold ~70%. 2023'te %4'tü. Bu hızla 2026'da %85+ bekleniyor.

Kaynaklar(2)