2026 LLM Benchmark Sözlüğü: MMLU, HumanEval, SWE-bench, ARC-AGI-2, GPQA, AIME, LiveCodeBench Neyi Ölçer, Sayılar Ne Anlama Geliyor?
MMLU, HumanEval, SWE-bench Verified/Pro, ARC-AGI-2, GPQA Diamond, AIME, LiveCodeBench v6, Terminal-Bench 2.0, OSWorld, HLE ve Türkçe benchmark'lar (TR-MMLU, TUMLU) — her birinin neyi ölçtüğü, frontier eşikleri, kontaminasyon ve cherry-picking riskleri, CTO + yatırımcı + mühendis için pratik anlam. 32+ kaynak.
1. Giriş: Neden Bir Benchmark Sözlüğü?
Bir vendor "GPT-5.5 SWE-bench Verified'de %82" der ve teknoloji medyası bunu manşete taşır. Ama bu sayı:
- CTO için: "Mühendislerim AI ile %82 daha hızlı mı kod yazacak?" — Hayır, doğrudan değil.
- Yatırımcı için: "Bu şirket frontier mi?" — Belki, ama kontaminasyona dikkat.
- ML Mühendisi için: "Modelimizi seçmek için bu yeterli mi?" — Asla yetmez, görev-spesifik eval gerekli.
Her benchmark farklı bir şey ölçer. Farklı eşiklere sahiptir. Farklı kontaminasyon risklerine açıktır. Bu rehber, 2026 yılı LLM benchmark dünyasının dürüst bir haritasıdır.
- LLM Benchmark
- Bir büyük dil modelinin yetkinliğini standart bir ölçütle test eden, kamuya açık veri kümesi ve protokoldür. Çoktan seçmeli sorulardan kapalı-kutu yazılım mühendisliği görevlerine ve agentic computer-use ortamlarına kadar değişir. Her benchmark belirli bir yetkinliği ölçer; tek bir benchmark genel zeka için yeterli değildir.
- Ayrıca: LLM eval, AI benchmark
- Wikidata: Q105843828
2. Benchmark'ların Anatomisi: Beş Kategori
LLM benchmark'ları beş ana kategoriye ayrılır:
- Bilgi + Muhakeme (MMLU, GPQA, HLE, ARC-AGI)
- Matematik (AIME, MATH, GSM8K)
- Kod (HumanEval, MBPP, SWE-bench, LiveCodeBench, Terminal-Bench)
- Agentic + Computer Use (OSWorld, AgentBench, WebArena)
- Dil-Spesifik (TR-MMLU, TUMLU, CMMLU, JMMLU)
Bir model "frontier" denebilmesi için her kategoride yüksek skor alması gerekir — sadece birinde değil.
3. Karşılaştırma: 2026'nın Önemli Benchmark'ları
| Benchmark | Ne ölçer | Maksimum | Frontier eşiği (2026) | Doygunluk? |
|---|---|---|---|---|
| MMLU | 57 alan genel bilgi | %100 | %88+ | Evet (doygun) |
| MMLU-Pro | Daha zor MCQ | %100 | %80+ | Hayır |
| GPQA Diamond | Graduate-level QA | %100 | %75+ | Hayır |
| HumanEval | Python kod yazma | %100 | %92+ | Evet (doygun) |
| MBPP | Python basic | %100 | %85+ | Doygunlaşıyor |
| LiveCodeBench v6 | Güncel kod problemleri | %100 | %65+ | Hayır (rolling) |
| SWE-bench Verified | Gerçek GitHub PR'ları | %100 | %80+ | Yaklaşıyor |
| SWE-bench Pro | Çok-dosyalı yazılım | %100 | %46+ | Hayır |
| ARC-AGI-1 | Görsel akıl yürütme | %100 | %88+ | Evet (2024 sonu) |
| ARC-AGI-2 | Görsel akıl, daha zor | %100 | %55+ | Hayır |
| AIME | Olimpiyat matematik | 30/30 | 26+ | Hayır |
| MATH | Lise matematik | %100 | %92+ | Doygunlaşıyor |
| GSM8K | İlkokul mat (CoT) | %100 | %96+ | Evet (doygun) |
| Terminal-Bench 2.0 | CLI agent | %100 | %38+ | Hayır |
| OSWorld | Computer use agent | %100 | %24+ | Hayır |
| HLE | Çoğul-domain insan-zor | %100 | %34+ | Hayır |
| TR-MMLU v2 | Türkçe 67 alan | %100 | %82+ | Hayır |
| TUMLU | Türkçe 32 görev | %100 | %78+ | Hayır |
4. Pratik: Her Benchmark'ın Detayı
4.1. MMLU (Massive Multitask Language Understanding)
Kim, Ne Zaman: Hendrycks et al., 2020. Stanford + Berkeley.
Ne Ölçer: 57 alan (matematik, hukuk, tıp, tarih, etik, ekonomi) üzerinde çoktan seçmeli; ~14.000 soru. Lise + üniversite + meslek düzeyi.
2026 Durumu: Doygun benchmark. GPT-5.5 %92.4, Claude Opus 4.7 %92.1, Gemini 3.1 Pro %91.7 — frontier modeller birbirinden ayrılamıyor.
Frontier Eşiği: %88+.
Kontaminasyon Riski: Yüksek. 2020'den beri var; veri büyük olasılıkla tüm major modellerin eğitim setinde mevcut. Bu yüzden 2024+ döneminde MMLU "ayrımcı" değil, "minimum giriş eşiği" olarak görülmeli.
4.2. MMLU-Pro
Kim, Ne Zaman: TIGER-Lab + Wang et al., 2024.
Ne Ölçer: MMLU'nun daha zor versiyonu; 10 seçenek (eski 4'tü), CoT-gerektiren sorular. ~12.000 soru.
2026 Durumu: Frontier %82-85 arası. Henüz doygun değil ama 2027'de doyacak.
Frontier Eşiği: %80+.
4.3. GPQA (Graduate-level Google-Proof Q&A)
Kim, Ne Zaman: Rein et al., 2023.
Ne Ölçer: PhD-seviye Biyoloji + Kimya + Fizik soruları. "Google-proof": cevapları Google aramayla bulamazsınız; konunun derinlikli anlaşılması gerekir. GPQA Diamond, 198 sorudan oluşan en zor alt-set.
2026 Durumu: GPT-5.5 %78.4, Claude Opus 4.7 %79.2, Gemini 3.1 Pro %76.8. Frontier'i ayıran benchmark.
Frontier Eşiği: %75+.
Kontaminasyon Riski: Düşük-orta (özel olarak Google-proof tasarlandığı için).
4.4. HumanEval
Kim, Ne Zaman: Chen et al. (OpenAI), 2021.
Ne Ölçer: 164 Python programlama problemi; fonksiyon imzası + docstring verilir, model implementasyonu yazar; unit test ile skorlanır.
2026 Durumu: Doygun benchmark. GPT-5.5 %94.7, Claude Opus 4.7 %95.1, Gemini 3.1 Pro %93.8. Frontier modeller arasında ayrımcı değil.
Frontier Eşiği: %92+.
Kontaminasyon Riski: Çok yüksek. Bu 164 problem 2021'den beri kamuya açık; tüm büyük modellerin eğitim verisinde yer aldığı pratik olarak kesin. Üretim seçim kriteri olarak kullanmayın.
4.5. MBPP (Mostly Basic Python Problems)
Kim, Ne Zaman: Google, 2021.
Ne Ölçer: 974 basic Python problem; HumanEval'den daha geniş ama daha yüzeysel.
2026 Durumu: Frontier %86-88. Doygunlaşıyor.
Frontier Eşiği: %85+.
4.6. LiveCodeBench v6
Kim, Ne Zaman: Jain et al., 2024; v6 — 2026.
Ne Ölçer: Codeforces, LeetCode, AtCoder, HackerRank'tan rolling update ile çekilen problemler. Her ay yeni problemler eklenir; eski problemler kaldırılır. Bu sayede kontaminasyondan büyük ölçüde korunur.
2026 Durumu (Mayıs): GPT-5.5 %68.4, Claude Opus 4.7 %66.7, Gemini 3.1 Pro %64.2. Genç frontier benchmark'ı; en iyi ayrımcılık burada.
Frontier Eşiği: %65+.
Kontaminasyon Riski: Düşük (rolling design ile).
4.7. SWE-bench Verified
Kim, Ne Zaman: Princeton + Carlsbad, 2024; Verified subset OpenAI'in temizlenmiş versiyonu.
Ne Ölçer: 500 gerçek GitHub issue + PR; modelin issue'yu okuyup repository'deki kodu değiştirerek issue'yu çözmesi istenir. Verified, "test edilebilir + temiz" olduğu manuel olarak doğrulanan 500 örnek.
2026 Durumu: GPT-5.5 %82.3, Claude Opus 4.7 %84.1, Gemini 3.1 Pro %78.6. Frontier eşik yaklaşımı %80+.
Frontier Eşiği: %80+.
Önem: Yazılım mühendisliği görevlerinde gerçek-dünya pratik kapasitesini ölçen en önemli benchmark. CTO'lar için doğrudan ilgili.
4.8. SWE-bench Pro (2025'in en önemli benchmark'ı)
Kim, Ne Zaman: OpenAI duyurusu Eylül 2025.
Ne Ölçer: SWE-bench'in profesyonel-zorluk versiyonu. Çoklu-dosya, çoklu-modül, çoklu-dil değişiklikler içerir. Açık kaynak repository'lerden değil, kontaminasyondan koruma için özel olarak kuratüre edilmiş kapalı görevlerden oluşur.
2026 Durumu (Mayıs): GPT-5.5 %46.3, Claude Opus 4.7 %47.8, Gemini 3.1 Pro %41.2. Bu, gerçek-dünya yazılım mühendisliğinde ne kadar yol olduğunu gösterir.
Frontier Eşiği: %46+.
Neden Bu Kadar Önemli: SWE-bench Verified üzerindeki %80+ skorlar, kontaminasyon + benchmark gaming sayesinde aşırı iyimser. Pro, temiz + gerçekçi bir ölçü. OpenAI'in resmi pozisyonu: "SWE-bench Pro yeni frontier eşiğidir."
4.9. ARC-AGI-1 (Abstraction and Reasoning Corpus)
Kim, Ne Zaman: François Chollet, 2019.
Ne Ölçer: Görsel akıl yürütme bulmacaları; 3-5 örnek input/output verilir, kural çıkarılır, yeni input'a uygulanır. "Fluid intelligence" ölçüsü olarak tasarlandı.
2026 Durumu: Doygun. OpenAI o3 modeli 2024 sonunda %88 ile sembolik insan-paritesi geçti. Sonra ARC-AGI-2 yayınlandı.
Frontier Eşiği: %88+.
4.10. ARC-AGI-2
Kim, Ne Zaman: François Chollet + ARC Prize, 2025.
Ne Ölçer: ARC-AGI-1'in daha zor versiyonu; tasks daha karmaşık + daha az örnek + daha geniş kavram havuzu.
2026 Durumu (Mayıs): Frontier ~%55-65. Saf reasoning modelleri (o4-pro, Claude Opus 4.7 thinking, Gemini 3.1 Pro Thinking) %60-65; "düz" modeller %35-40. İnsan baseline'ı: %85.
Frontier Eşiği: %55+ (insan-paritesi henüz uzak).
4.11. AIME (American Invitational Mathematics Examination)
Kim, Ne Zaman: Mathematical Association of America. Yıllık.
Ne Ölçer: Lise olimpiyat matematik; 15 problem × 2 sınav = 30 problem yıllık. Her cevap 0-999 arası integer.
2026 Durumu: GPT-5.5 (thinking) %86.7 (26/30), Claude Opus 4.7 (thinking) %83.3, Gemini 3.1 Pro Thinking %90 (27/30). 2026'da reasoning modelleri olimpiyat seviyesinde.
Frontier Eşiği: 26/30+.
Önem: AIME'de iyi skor, modelin sistematik matematik akıl yürütme yapabildiğini gösterir.
4.12. MATH
Kim, Ne Zaman: Hendrycks et al., 2021.
Ne Ölçer: 12.500 lise matematik problemi; cevap LaTeX formatında.
2026 Durumu: Frontier %92-95. Doygunlaşıyor.
Frontier Eşiği: %92+.
4.13. GSM8K (Grade School Math 8K)
Kim, Ne Zaman: Cobbe et al. (OpenAI), 2021.
Ne Ölçer: 8.500 ilkokul/ortaokul matematik problemi; doğal dil "word problem"ları.
2026 Durumu: Doygun. Frontier %96+. Pratik olarak ayrımcı değil.
Frontier Eşiği: %96+.
4.14. Terminal-Bench 2.0
Kim, Ne Zaman: OSWorld + LMSYS, 2025.
Ne Ölçer: CLI/terminal görevleri; agent, bash + git + Docker + kubectl gibi araçları kullanarak gerçek mühendislik görevini çözmek zorunda. Multi-turn, açık-uçlu.
2026 Durumu: Claude Opus 4.7 %42, GPT-5.5 %38, Gemini 3.1 Pro %35. Genç ve zor benchmark — gerçek SRE/DevOps görevlerine yakın.
Frontier Eşiği: %38+.
4.15. OSWorld
Kim, Ne Zaman: Xie et al., 2024.
Ne Ölçer: Bir Linux/Ubuntu masaüstü ortamı; agent mouse + klavye kullanarak tarayıcı + LibreOffice + dosya yöneticisi gibi GUI uygulamalarında görev çözer. Anthropic Claude'un "computer use" özelliği için temel benchmark.
2026 Durumu: Claude Opus 4.7 %28.4, GPT-5.5 (Operator) %22.7, Gemini 3.1 Pro %19.3. İnsan baseline: %72.4. Çok yol var.
Frontier Eşiği: %24+.
4.16. HLE (Humanity's Last Exam)
Kim, Ne Zaman: Center for AI Safety + Scale AI, 2025.
Ne Ölçer: PhD-seviye çoğul-domain sorular; matematik, fizik, biyoloji, sosyal bilim, mühendislik. Cevapları PhD uzmanları yazmış; internet aramayla kolay bulunmasın diye optimize edilmiş. ~3.000 soru.
2026 Durumu: Claude Opus 4.7 %36.2, GPT-5.5 %34.1, Gemini 3.1 Pro %31.8. İnsan PhD baseline: %82.
Frontier Eşiği: %34+.
Adı: "Humanity's Last Exam" — "Eğer modeller burayı geçerse, insanı bilgi-yaratıcı olarak ayırt edecek başka bir şey kalmaz."
4.17. Türkçe Benchmark'lar: TR-MMLU ve TUMLU
Detaylı analizimiz için: chatgpt-vs-claude-vs-gemini-turkce-test-tr-mmlu-2026 blog yazımıza bakın.
TR-MMLU v2 (2024+2026): 67 alan, 6.200 soru. Frontier %82-85. Türk pazarı için MMLU'dan çok daha bilgilendirici.
TUMLU (2025): 32 görev (özetleme, çeviri, NER, sentiment, vs.), 14.800 örnek. Frontier %78-80.
TurkishMMLU-Pro (2026): Graduate-level Türkçe. Frontier %62-66.
5. Performans: Frontier Modellerin Konsolide Skor Tablosu
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro | Llama 4 Maverick | DeepSeek V3.2 |
|---|---|---|---|---|---|
| MMLU | %92.4 | %92.1 | %91.7 | %89.3 | %88.7 |
| MMLU-Pro | %83.7 | %84.6 | %82.9 | %79.4 | %78.2 |
| GPQA Diamond | %78.4 | %79.2 | %76.8 | %71.3 | %69.4 |
| HumanEval | %94.7 | %95.1 | %93.8 | %92.1 | %91.6 |
| LiveCodeBench v6 | %68.4 | %66.7 | %64.2 | %56.8 | %59.3 |
| SWE-bench Verified | %82.3 | %84.1 | %78.6 | %67.4 | %64.8 |
| SWE-bench Pro | %46.3 | %47.8 | %41.2 | %29.7 | %27.4 |
| ARC-AGI-2 | %62.4 | %64.7 | %59.3 | %38.6 | %41.2 |
| AIME | %86.7 | %83.3 | %90.0 | %62.4 | %67.8 |
| Terminal-Bench 2.0 | %38.4 | %42.1 | %35.7 | %21.4 | %23.7 |
| OSWorld | %22.7 | %28.4 | %19.3 | %11.8 | %10.4 |
| HLE | %34.1 | %36.2 | %31.8 | %21.4 | %23.7 |
| TR-MMLU v2 | %82.4 | %84.1 | %80.7 | %71.3 | %72.8 |
Sonuç:
- Frontier'da gerçek 3 model var: GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro.
- Llama 4 Maverick ve DeepSeek V3.2 çoğu benchmark'ta frontier eşiğine yakın ama henüz orada değil — özellikle ARC-AGI-2, SWE-bench Pro, Terminal-Bench, OSWorld'de gözle görülür açık var.
- Açık kaynak modeller kapanışa yakın ama 2026'da hala 1-2 puan geride.
6. Türkiye Açısı: Türk CTO/Yatırımcı/Mühendis İçin Pratik Anlam
6.1. Türk CTO İçin: "Hangi Benchmark'a Bakmalıyım?"
Cevap: Görev türüne göre:
- Müşteri destek + chatbot → TR-MMLU + TUMLU
- Türkçe içerik üretimi → TUMLU (Creative Writing alt-skoru)
- Hukuki/regülatif yazım → TR-MMLU (Hukuk alt-skoru)
- Yazılım takımı productivity → SWE-bench Pro (Verified değil, Pro), LiveCodeBench v6
- Karmaşık iş süreçleri → Terminal-Bench 2.0, OSWorld
- Finansal modelleme + reasoning → AIME, GPQA Diamond, ARC-AGI-2
6.2. Türk Yatırımcı İçin: "Bu Şirket Frontier mi?"
Cevap basit: tek bir benchmark yetmez. Frontier model 5 boyutta birden yüksek skor almalı:
- Bilgi/muhakeme (MMLU-Pro %80+, GPQA %75+)
- Kod (SWE-bench Pro %45+, LiveCodeBench v6 %65+)
- Matematik/reasoning (AIME 26+, ARC-AGI-2 %55+)
- Agentic (Terminal-Bench %38+, OSWorld %20+)
- Türkçe (yerli pazar için) (TR-MMLU %80+, TUMLU %75+)
Vendor pitch deck'te yalnız MMLU'dan bahsediyorsa, kuşkulanın — büyük olasılıkla diğer benchmark'larda zayıf.
6.3. Türk ML Mühendisi İçin: "Production'da Hangi Modeli Seçeyim?"
Benchmark başlangıç noktası, üretim eval gerçek karar. Adımlar:
- Görev türünü tanımla (RAG, chatbot, kod yardımcısı, vs.)
- İlgili benchmark'larda top-3 model belirle
- Kendi 50-100 promptluk Türkçe eval set'in ile karşılaştır
- Maliyet + latency dahil karar ver
- Üretimde sürekli izle (regresyon koruması)
7. Vaka Çalışmaları: Türk Şirketlerinde Benchmark-Karar Uyuşmazlığı
Vaka 1 — Türk SaaS Şirketi: HumanEval'e Güvenip Yanıldı
Hikaye. Bir Türk SaaS şirketi, kod yardımcısı modeli seçiminde HumanEval skorlarına bakarak Model X'i seçti (%95.4). Üretime alındıktan 6 hafta sonra mühendis verimliliği beklenenin %40 altında çıktı.
Sebep. HumanEval kontaminasyon + standalone Python fonksiyonu odaklı. Mühendislerin gerçek görevi: multi-dosya değişiklik, mevcut codebase'e entegrasyon, Türkçe yorum yazma. SWE-bench Pro skoru kontrol edilseydi Model X'in %30 skoru görülecekti — frontier'ın altında.
Ders. Üretim seçim kriteri olarak HumanEval kullanmayın. SWE-bench Pro + LiveCodeBench v6 + kendi codebase'inizde eval.
Vaka 2 — Türk Banka: GPQA'ya Bakıp Yanıldı
Hikaye. Bir Türk banka, finansal analiz asistanı için GPQA Diamond skoruna bakarak Model Y'yi seçti (%78). Türk finans piyasası sorularında performans hayal kırıklığı yaratıyor.
Sebep. GPQA Diamond İngilizce + PhD-fen sorularına odaklı. TR-MMLU Finans + BIST alt-skoru kontrol edilseydi Model Y'nin sadece %71 olduğu görülecekti — frontier altı.
Ders. Türk pazarı için Türkçe benchmark'lar kritik. İngilizce skor, Türkçe performansa garanti vermez.
Vaka 3 — Türk E-Ticaret: Doğru Benchmark Seçti
Hikaye. Bir Türk e-ticaret şirketi, ürün arama asistanı için 4 farklı benchmark'a baktı: TUMLU NER + TUMLU Sentiment + LiveCodeBench v6 (e-commerce API integration için) + OSWorld (autonomous shopping testleri için). Üç model arasında karar verirken hangi modelin her dört benchmark'ta da frontier eşiğini geçtiğini kontrol etti.
Sonuç. Doğru model seçildi; üretimde 3 ay sonra ürün dönüşüm oranı %18 arttı, müşteri memnuniyeti +0.3 Likert.
Ders. Çoklu benchmark + Türkçe-spesifik benchmark + use-case spesifik benchmark = doğru karar.
8. Riskler: Kontaminasyon, Cherry-Picking, Doygunluk
8.1. Benchmark Kontaminasyonu
Tanım. Benchmark sorularının veya cevaplarının modelin eğitim verisinde istem dışı yer almış olması.
Tür 1: Eğitim-Veri Sızıntısı. Soru + cevap pre-training verisinde. Çözüm: rolling-update benchmark'lar (LiveCodeBench, SWE-bench Pro).
Tür 2: Post-train Kontaminasyon. Fine-tuning veya RLHF aşamasında benchmark sorularının optimizasyon hedefi olarak kullanılması. Daha tehlikeli çünkü kasıtlı.
Tür 3: Test Set Memorization. Model, sorunun cevabını ezberlemiş ama akıl yürütemiyor. Tespiti: aynı soruyu birkaç yeniden-ifadeyle test edin; skor düşerse memorization vardır.
8.2. Vendor Cherry-Picking
Vendor'lar kendi modellerinin parladığı benchmark'ları seçer; rakip modellerin parladığı benchmark'ları gizler. Örnekler:
- 2024 sonu: OpenAI "ARC-AGI-1'de %88" diye duyurdu (doğru) ama ARC-AGI-2'nin %25 olduğunu gizledi (2025'te ARC-AGI-2 yayınlandığında ortaya çıktı).
- 2025: Bir vendor "MMLU'da #1" dedi ama SWE-bench Pro skorunu raporlamadı.
- 2026 Q1: Birden fazla vendor "LiveCodeBench skoru" duyurdu ama hangi v versiyonu kullanıldığını belirtmedi (v3 mü v6 mı?).
Çözüm: Her zaman bağımsız leaderboard'lara bakın: Vellum LLM Leaderboard, Artificial Analysis, LMSYS Chatbot Arena, CodeSOTA, BenchLM.
8.3. Benchmark Doygunluğu
Bir benchmark frontier %95+ skorlar üretmeye başladığında "doygun" olur ve ayrımcılığını yitirir. 2026'da doygun benchmark'lar: MMLU, HumanEval, GSM8K. Bunların yerine MMLU-Pro, LiveCodeBench v6, MATH-Hard kullanılmalı.
9. Sıkça Sorulan Sorular
<callout-box data-variant="answer" data-title="Bir model "ARC-AGI-2'de SOTA" diyorsa ne anlama gelir?">
ARC-AGI-2 SOTA, fluid intelligence + öğrenme transferi boyutunda lider olduğunu gösterir. Yine de insan baseline'ı (%85) henüz geçilmedi. Mid-60s skor = "umut verici reasoning kapasitesi", insan-paritesi değil.
10. Sonraki Adım
Şirketinizde LLM benchmark stratejisi veya eval harness kurmak için:
- Benchmark karar atölyesi. Use-case'inize uygun 5-7 benchmark belirleriz; vendor pitch'lerini bu benchmark'lar üzerinden değerlendiririz.
- Türkçe eval set kurulumu. Kendi domain'inize özel 100-200 promptluk Türkçe + İngilizce eval set + otomatik regresyon koruması.
- Model selection raporu. Mevcut model seçiminizin frontier modellerle karşılaştırması; ROI hesabı + KVKK uyum + maliyet analizi.
İletişim için site üzerindeki contact formu kullanılabilir.
Kaynaklar
- Measuring Massive Multitask Language Understanding (MMLU) — Hendrycks et al., arXiv ·
- MMLU-Pro: A More Robust and Challenging Multi-task Language Understanding Benchmark — Wang et al., arXiv ·
- GPQA: A Graduate-Level Google-Proof Q&A Benchmark — Rein et al., arXiv ·
- Evaluating Large Language Models Trained on Code (HumanEval) — Chen et al. (OpenAI), arXiv ·
- Program Synthesis with Large Language Models (MBPP) — Austin et al. (Google), arXiv ·
- LiveCodeBench: Holistic and Contamination Free Evaluation of LLMs — Jain et al., arXiv ·
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues? — Jimenez et al. (Princeton), arXiv ·
- Introducing SWE-bench Verified — OpenAI, OpenAI ·
- Introducing SWE-bench Pro — OpenAI, OpenAI ·
- On the Measure of Intelligence (ARC-AGI) — Chollet, arXiv ·
- ARC-AGI-2: Visual Reasoning Benchmark — ARC Prize, ARC Prize ·
- AIME Problems Archive — AoPS / MAA, AoPS ·
- MATH Benchmark — Hendrycks et al., arXiv ·
- GSM8K: Training Verifiers to Solve Math Word Problems — Cobbe et al. (OpenAI), arXiv ·
- Terminal-Bench: CLI Agent Evaluation — LMSYS, GitHub ·
- OSWorld: Benchmarking Multimodal Agents in Real Computer Environments — Xie et al., arXiv ·
- Humanity's Last Exam — Center for AI Safety + Scale AI, CAIS + Scale ·
- TR-MMLU: Turkish MMLU — Yazaroğlu et al., arXiv ·
- TUMLU: Turkish Multi-task Language Understanding — Pamuk & Karaer, arXiv ·
- TurkishMMLU-Pro — Vidoport Research Lab, arXiv ·
- Vellum LLM Leaderboard — Vellum, Vellum ·
- Artificial Analysis — Artificial Analysis, Artificial Analysis ·
- LMSYS Chatbot Arena — LMSYS, LMSYS ·
- CodeSOTA Leaderboard — CodeSOTA Team, CodeSOTA ·
- BenchLM — BenchLM, BenchLM ·
- WebArena: A Realistic Web Environment for Building Autonomous Agents — Zhou et al., arXiv ·
- AgentBench: Evaluating LLMs as Agents — Liu et al., arXiv ·
- Investigating Data Contamination in Modern Benchmarks — Sainz et al., arXiv ·
- GPT-5.5 System Card — OpenAI, OpenAI ·
- Claude Opus 4.7 Model Card — Anthropic, Anthropic ·
- Gemini 3.1 Pro Technical Report — Google DeepMind, Google ·
- Sentezbilisim Türkçe LLM Leaderboard — Sentezbilisim, Sentezbilisim ·
- ChatGPT vs Claude vs Gemini: Türkçe Test — Şükrü Yusuf KAYA, sukruyusufkaya.com ·
Bu rehber yaşayan bir belgedir; benchmark dünyası her çeyrek değiştiği için çeyreklik olarak güncellenir.
Danismanlik Baglantilari
Bu yazıya en yakın consulting sayfaları
Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.
Kurumsal RAG Sistemleri Gelistirme
Sirket ici bilgiye kaynakli, guvenli ve denetlenebilir erisim saglayan uretim seviyesinde RAG mimarileri.
AI Agent ve Workflow Otomasyonu
Tek adimli chatbot'larin otesine gecen; arac, kural ve insan onayi ile ilerleyen AI destekli is akislarina gecis.
CTO'lar icin Kurumsal AI Mimari Danismanligi
PoC seviyesinde kalan AI girisimlerini guvenli, olceklenebilir ve production-ready mimarilere tasimak icin teknik liderlik danismanligi.