2026 LLM Benchmark Sözlüğü: MMLU, HumanEval, SWE-bench, ARC-AGI-2

1. Giriş: Neden Bir Benchmark Sözlüğü?

Bir vendor "GPT-5.5 SWE-bench Verified'de %82" der ve teknoloji medyası bunu manşete taşır. Ama bu sayı:

CTO için: "Mühendislerim AI ile %82 daha hızlı mı kod yazacak?" — Hayır, doğrudan değil.
Yatırımcı için: "Bu şirket frontier mi?" — Belki, ama kontaminasyona dikkat.
ML Mühendisi için: "Modelimizi seçmek için bu yeterli mi?" — Asla yetmez, görev-spesifik eval gerekli.

Her benchmark farklı bir şey ölçer. Farklı eşiklere sahiptir. Farklı kontaminasyon risklerine açıktır. Bu rehber, 2026 yılı LLM benchmark dünyasının dürüst bir haritasıdır.

Tanım

LLM Benchmark: Bir büyük dil modelinin yetkinliğini standart bir ölçütle test eden, kamuya açık veri kümesi ve protokoldür. Çoktan seçmeli sorulardan kapalı-kutu yazılım mühendisliği görevlerine ve agentic computer-use ortamlarına kadar değişir. Her benchmark belirli bir yetkinliği ölçer; tek bir benchmark genel zeka için yeterli değildir.; Ayrıca: LLM eval, AI benchmark; Wikidata: Q105843828

2. Benchmark'ların Anatomisi: Beş Kategori

LLM benchmark'ları beş ana kategoriye ayrılır:

Bilgi + Muhakeme (MMLU, GPQA, HLE, ARC-AGI)
Matematik (AIME, MATH, GSM8K)
Kod (HumanEval, MBPP, SWE-bench, LiveCodeBench, Terminal-Bench)
Agentic + Computer Use (OSWorld, AgentBench, WebArena)
Dil-Spesifik (TR-MMLU, TUMLU, CMMLU, JMMLU)

Bir model "frontier" denebilmesi için her kategoride yüksek skor alması gerekir — sadece birinde değil.

3. Karşılaştırma: 2026'nın Önemli Benchmark'ları

2026 LLM Benchmark Manzarası: Frontier Eşikleri
Benchmark	Ne ölçer	Maksimum	Frontier eşiği (2026)	Doygunluk?
MMLU	57 alan genel bilgi	%100	%88+	Evet (doygun)
MMLU-Pro	Daha zor MCQ	%100	%80+	Hayır
GPQA Diamond	Graduate-level QA	%100	%75+	Hayır
HumanEval	Python kod yazma	%100	%92+	Evet (doygun)
MBPP	Python basic	%100	%85+	Doygunlaşıyor
LiveCodeBench v6	Güncel kod problemleri	%100	%65+	Hayır (rolling)
SWE-bench Verified	Gerçek GitHub PR'ları	%100	%80+	Yaklaşıyor
SWE-bench Pro	Çok-dosyalı yazılım	%100	%46+	Hayır
ARC-AGI-1	Görsel akıl yürütme	%100	%88+	Evet (2024 sonu)
ARC-AGI-2	Görsel akıl, daha zor	%100	%55+	Hayır
AIME	Olimpiyat matematik	30/30	26+	Hayır
MATH	Lise matematik	%100	%92+	Doygunlaşıyor
GSM8K	İlkokul mat (CoT)	%100	%96+	Evet (doygun)
Terminal-Bench 2.0	CLI agent	%100	%38+	Hayır
OSWorld	Computer use agent	%100	%24+	Hayır
HLE	Çoğul-domain insan-zor	%100	%34+	Hayır
TR-MMLU v2	Türkçe 67 alan	%100	%82+	Hayır
TUMLU	Türkçe 32 görev	%100	%78+	Hayır

4. Pratik: Her Benchmark'ın Detayı

4.1. MMLU (Massive Multitask Language Understanding)

Kim, Ne Zaman: Hendrycks et al., 2020. Stanford + Berkeley.

Ne Ölçer: 57 alan (matematik, hukuk, tıp, tarih, etik, ekonomi) üzerinde çoktan seçmeli; ~14.000 soru. Lise + üniversite + meslek düzeyi.

2026 Durumu: Doygun benchmark. GPT-5.5 %92.4, Claude Opus 4.7 %92.1, Gemini 3.1 Pro %91.7 — frontier modeller birbirinden ayrılamıyor.

Frontier Eşiği: %88+.

Kontaminasyon Riski: Yüksek. 2020'den beri var; veri büyük olasılıkla tüm major modellerin eğitim setinde mevcut. Bu yüzden 2024+ döneminde MMLU "ayrımcı" değil, "minimum giriş eşiği" olarak görülmeli.

4.2. MMLU-Pro

Kim, Ne Zaman: TIGER-Lab + Wang et al., 2024.

Ne Ölçer: MMLU'nun daha zor versiyonu; 10 seçenek (eski 4'tü), CoT-gerektiren sorular. ~12.000 soru.

2026 Durumu: Frontier %82-85 arası. Henüz doygun değil ama 2027'de doyacak.

Frontier Eşiği: %80+.

4.3. GPQA (Graduate-level Google-Proof Q&A)

Kim, Ne Zaman: Rein et al., 2023.

Ne Ölçer: PhD-seviye Biyoloji + Kimya + Fizik soruları. "Google-proof": cevapları Google aramayla bulamazsınız; konunun derinlikli anlaşılması gerekir. GPQA Diamond, 198 sorudan oluşan en zor alt-set.

2026 Durumu: GPT-5.5 %78.4, Claude Opus 4.7 %79.2, Gemini 3.1 Pro %76.8. Frontier'i ayıran benchmark.

Frontier Eşiği: %75+.

Kontaminasyon Riski: Düşük-orta (özel olarak Google-proof tasarlandığı için).

4.4. HumanEval

Kim, Ne Zaman: Chen et al. (OpenAI), 2021.

Ne Ölçer: 164 Python programlama problemi; fonksiyon imzası + docstring verilir, model implementasyonu yazar; unit test ile skorlanır.

2026 Durumu: Doygun benchmark. GPT-5.5 %94.7, Claude Opus 4.7 %95.1, Gemini 3.1 Pro %93.8. Frontier modeller arasında ayrımcı değil.

Frontier Eşiği: %92+.

Kontaminasyon Riski: Çok yüksek. Bu 164 problem 2021'den beri kamuya açık; tüm büyük modellerin eğitim verisinde yer aldığı pratik olarak kesin. Üretim seçim kriteri olarak kullanmayın.

4.5. MBPP (Mostly Basic Python Problems)

Kim, Ne Zaman: Google, 2021.

Ne Ölçer: 974 basic Python problem; HumanEval'den daha geniş ama daha yüzeysel.

2026 Durumu: Frontier %86-88. Doygunlaşıyor.

Frontier Eşiği: %85+.

4.6. LiveCodeBench v6

Kim, Ne Zaman: Jain et al., 2024; v6 — 2026.

Ne Ölçer: Codeforces, LeetCode, AtCoder, HackerRank'tan rolling update ile çekilen problemler. Her ay yeni problemler eklenir; eski problemler kaldırılır. Bu sayede kontaminasyondan büyük ölçüde korunur.

2026 Durumu (Mayıs): GPT-5.5 %68.4, Claude Opus 4.7 %66.7, Gemini 3.1 Pro %64.2. Genç frontier benchmark'ı; en iyi ayrımcılık burada.

Frontier Eşiği: %65+.

Kontaminasyon Riski: Düşük (rolling design ile).

4.7. SWE-bench Verified

Kim, Ne Zaman: Princeton + Carlsbad, 2024; Verified subset OpenAI'in temizlenmiş versiyonu.

Ne Ölçer: 500 gerçek GitHub issue + PR; modelin issue'yu okuyup repository'deki kodu değiştirerek issue'yu çözmesi istenir. Verified, "test edilebilir + temiz" olduğu manuel olarak doğrulanan 500 örnek.

2026 Durumu: GPT-5.5 %82.3, Claude Opus 4.7 %84.1, Gemini 3.1 Pro %78.6. Frontier eşik yaklaşımı %80+.

Frontier Eşiği: %80+.

Önem: Yazılım mühendisliği görevlerinde gerçek-dünya pratik kapasitesini ölçen en önemli benchmark. CTO'lar için doğrudan ilgili.

4.8. SWE-bench Pro (2025'in en önemli benchmark'ı)

Kim, Ne Zaman: OpenAI duyurusu Eylül 2025.

Ne Ölçer: SWE-bench'in profesyonel-zorluk versiyonu. Çoklu-dosya, çoklu-modül, çoklu-dil değişiklikler içerir. Açık kaynak repository'lerden değil, kontaminasyondan koruma için özel olarak kuratüre edilmiş kapalı görevlerden oluşur.

2026 Durumu (Mayıs): GPT-5.5 %46.3, Claude Opus 4.7 %47.8, Gemini 3.1 Pro %41.2. Bu, gerçek-dünya yazılım mühendisliğinde ne kadar yol olduğunu gösterir.

Frontier Eşiği: %46+.

Neden Bu Kadar Önemli: SWE-bench Verified üzerindeki %80+ skorlar, kontaminasyon + benchmark gaming sayesinde aşırı iyimser. Pro, temiz + gerçekçi bir ölçü. OpenAI'in resmi pozisyonu: "SWE-bench Pro yeni frontier eşiğidir."

4.9. ARC-AGI-1 (Abstraction and Reasoning Corpus)

Kim, Ne Zaman: François Chollet, 2019.

Ne Ölçer: Görsel akıl yürütme bulmacaları; 3-5 örnek input/output verilir, kural çıkarılır, yeni input'a uygulanır. "Fluid intelligence" ölçüsü olarak tasarlandı.

2026 Durumu: Doygun. OpenAI o3 modeli 2024 sonunda %88 ile sembolik insan-paritesi geçti. Sonra ARC-AGI-2 yayınlandı.

Frontier Eşiği: %88+.

4.10. ARC-AGI-2

Kim, Ne Zaman: François Chollet + ARC Prize, 2025.

Ne Ölçer: ARC-AGI-1'in daha zor versiyonu; tasks daha karmaşık + daha az örnek + daha geniş kavram havuzu.

2026 Durumu (Mayıs): Frontier ~%55-65. Saf reasoning modelleri (o4-pro, Claude Opus 4.7 thinking, Gemini 3.1 Pro Thinking) %60-65; "düz" modeller %35-40. İnsan baseline'ı: %85.

Frontier Eşiği: %55+ (insan-paritesi henüz uzak).

4.11. AIME (American Invitational Mathematics Examination)

Kim, Ne Zaman: Mathematical Association of America. Yıllık.

Ne Ölçer: Lise olimpiyat matematik; 15 problem × 2 sınav = 30 problem yıllık. Her cevap 0-999 arası integer.

2026 Durumu: GPT-5.5 (thinking) %86.7 (26/30), Claude Opus 4.7 (thinking) %83.3, Gemini 3.1 Pro Thinking %90 (27/30). 2026'da reasoning modelleri olimpiyat seviyesinde.

Frontier Eşiği: 26/30+.

Önem: AIME'de iyi skor, modelin sistematik matematik akıl yürütme yapabildiğini gösterir.

4.12. MATH

Kim, Ne Zaman: Hendrycks et al., 2021.

Ne Ölçer: 12.500 lise matematik problemi; cevap LaTeX formatında.

2026 Durumu: Frontier %92-95. Doygunlaşıyor.

Frontier Eşiği: %92+.

4.13. GSM8K (Grade School Math 8K)

Kim, Ne Zaman: Cobbe et al. (OpenAI), 2021.

Ne Ölçer: 8.500 ilkokul/ortaokul matematik problemi; doğal dil "word problem"ları.

2026 Durumu: Doygun. Frontier %96+. Pratik olarak ayrımcı değil.

Frontier Eşiği: %96+.

4.14. Terminal-Bench 2.0

Kim, Ne Zaman: OSWorld + LMSYS, 2025.

Ne Ölçer: CLI/terminal görevleri; agent, bash + git + Docker + kubectl gibi araçları kullanarak gerçek mühendislik görevini çözmek zorunda. Multi-turn, açık-uçlu.

2026 Durumu: Claude Opus 4.7 %42, GPT-5.5 %38, Gemini 3.1 Pro %35. Genç ve zor benchmark — gerçek SRE/DevOps görevlerine yakın.

Frontier Eşiği: %38+.

4.15. OSWorld

Kim, Ne Zaman: Xie et al., 2024.

Ne Ölçer: Bir Linux/Ubuntu masaüstü ortamı; agent mouse + klavye kullanarak tarayıcı + LibreOffice + dosya yöneticisi gibi GUI uygulamalarında görev çözer. Anthropic Claude'un "computer use" özelliği için temel benchmark.

2026 Durumu: Claude Opus 4.7 %28.4, GPT-5.5 (Operator) %22.7, Gemini 3.1 Pro %19.3. İnsan baseline: %72.4. Çok yol var.

Frontier Eşiği: %24+.

4.16. HLE (Humanity's Last Exam)

Kim, Ne Zaman: Center for AI Safety + Scale AI, 2025.

Ne Ölçer: PhD-seviye çoğul-domain sorular; matematik, fizik, biyoloji, sosyal bilim, mühendislik. Cevapları PhD uzmanları yazmış; internet aramayla kolay bulunmasın diye optimize edilmiş. ~3.000 soru.

2026 Durumu: Claude Opus 4.7 %36.2, GPT-5.5 %34.1, Gemini 3.1 Pro %31.8. İnsan PhD baseline: %82.

Frontier Eşiği: %34+.

Adı: "Humanity's Last Exam" — "Eğer modeller burayı geçerse, insanı bilgi-yaratıcı olarak ayırt edecek başka bir şey kalmaz."

4.17. Türkçe Benchmark'lar: TR-MMLU ve TUMLU

Detaylı analizimiz için: chatgpt-vs-claude-vs-gemini-turkce-test-tr-mmlu-2026 blog yazımıza bakın.

TR-MMLU v2 (2024+2026): 67 alan, 6.200 soru. Frontier %82-85. Türk pazarı için MMLU'dan çok daha bilgilendirici.

TUMLU (2025): 32 görev (özetleme, çeviri, NER, sentiment, vs.), 14.800 örnek. Frontier %78-80.

TurkishMMLU-Pro (2026): Graduate-level Türkçe. Frontier %62-66.

5. Performans: Frontier Modellerin Konsolide Skor Tablosu

2026 Mayıs Konsolide Skor Tablosu: Frontier Modeller
Benchmark	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro	Llama 4 Maverick	DeepSeek V3.2
MMLU	%92.4	%92.1	%91.7	%89.3	%88.7
MMLU-Pro	%83.7	%84.6	%82.9	%79.4	%78.2
GPQA Diamond	%78.4	%79.2	%76.8	%71.3	%69.4
HumanEval	%94.7	%95.1	%93.8	%92.1	%91.6
LiveCodeBench v6	%68.4	%66.7	%64.2	%56.8	%59.3
SWE-bench Verified	%82.3	%84.1	%78.6	%67.4	%64.8
SWE-bench Pro	%46.3	%47.8	%41.2	%29.7	%27.4
ARC-AGI-2	%62.4	%64.7	%59.3	%38.6	%41.2
AIME	%86.7	%83.3	%90.0	%62.4	%67.8
Terminal-Bench 2.0	%38.4	%42.1	%35.7	%21.4	%23.7
OSWorld	%22.7	%28.4	%19.3	%11.8	%10.4
HLE	%34.1	%36.2	%31.8	%21.4	%23.7
TR-MMLU v2	%82.4	%84.1	%80.7	%71.3	%72.8

Sonuç:

Frontier'da gerçek 3 model var: GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro.
Llama 4 Maverick ve DeepSeek V3.2 çoğu benchmark'ta frontier eşiğine yakın ama henüz orada değil — özellikle ARC-AGI-2, SWE-bench Pro, Terminal-Bench, OSWorld'de gözle görülür açık var.
Açık kaynak modeller kapanışa yakın ama 2026'da hala 1-2 puan geride.

6. Türkiye Açısı: Türk CTO/Yatırımcı/Mühendis İçin Pratik Anlam

6.1. Türk CTO İçin: "Hangi Benchmark'a Bakmalıyım?"

Cevap: Görev türüne göre:

Müşteri destek + chatbot → TR-MMLU + TUMLU
Türkçe içerik üretimi → TUMLU (Creative Writing alt-skoru)
Hukuki/regülatif yazım → TR-MMLU (Hukuk alt-skoru)
Yazılım takımı productivity → SWE-bench Pro (Verified değil, Pro), LiveCodeBench v6
Karmaşık iş süreçleri → Terminal-Bench 2.0, OSWorld
Finansal modelleme + reasoning → AIME, GPQA Diamond, ARC-AGI-2

6.2. Türk Yatırımcı İçin: "Bu Şirket Frontier mi?"

Cevap basit: tek bir benchmark yetmez. Frontier model 5 boyutta birden yüksek skor almalı:

Bilgi/muhakeme (MMLU-Pro %80+, GPQA %75+)
Kod (SWE-bench Pro %45+, LiveCodeBench v6 %65+)
Matematik/reasoning (AIME 26+, ARC-AGI-2 %55+)
Agentic (Terminal-Bench %38+, OSWorld %20+)
Türkçe (yerli pazar için) (TR-MMLU %80+, TUMLU %75+)

Vendor pitch deck'te yalnız MMLU'dan bahsediyorsa, kuşkulanın — büyük olasılıkla diğer benchmark'larda zayıf.

6.3. Türk ML Mühendisi İçin: "Production'da Hangi Modeli Seçeyim?"

Benchmark başlangıç noktası, üretim eval gerçek karar. Adımlar:

Görev türünü tanımla (RAG, chatbot, kod yardımcısı, vs.)
İlgili benchmark'larda top-3 model belirle
Kendi 50-100 promptluk Türkçe eval set'in ile karşılaştır
Maliyet + latency dahil karar ver
Üretimde sürekli izle (regresyon koruması)

7. Vaka Çalışmaları: Türk Şirketlerinde Benchmark-Karar Uyuşmazlığı

Vaka 1 — Türk SaaS Şirketi: HumanEval'e Güvenip Yanıldı

Hikaye. Bir Türk SaaS şirketi, kod yardımcısı modeli seçiminde HumanEval skorlarına bakarak Model X'i seçti (%95.4). Üretime alındıktan 6 hafta sonra mühendis verimliliği beklenenin %40 altında çıktı.

Sebep. HumanEval kontaminasyon + standalone Python fonksiyonu odaklı. Mühendislerin gerçek görevi: multi-dosya değişiklik, mevcut codebase'e entegrasyon, Türkçe yorum yazma. SWE-bench Pro skoru kontrol edilseydi Model X'in %30 skoru görülecekti — frontier'ın altında.

Ders. Üretim seçim kriteri olarak HumanEval kullanmayın. SWE-bench Pro + LiveCodeBench v6 + kendi codebase'inizde eval.

Vaka 2 — Türk Banka: GPQA'ya Bakıp Yanıldı

Hikaye. Bir Türk banka, finansal analiz asistanı için GPQA Diamond skoruna bakarak Model Y'yi seçti (%78). Türk finans piyasası sorularında performans hayal kırıklığı yaratıyor.

Sebep. GPQA Diamond İngilizce + PhD-fen sorularına odaklı. TR-MMLU Finans + BIST alt-skoru kontrol edilseydi Model Y'nin sadece %71 olduğu görülecekti — frontier altı.

Ders. Türk pazarı için Türkçe benchmark'lar kritik. İngilizce skor, Türkçe performansa garanti vermez.

Vaka 3 — Türk E-Ticaret: Doğru Benchmark Seçti

Hikaye. Bir Türk e-ticaret şirketi, ürün arama asistanı için 4 farklı benchmark'a baktı: TUMLU NER + TUMLU Sentiment + LiveCodeBench v6 (e-commerce API integration için) + OSWorld (autonomous shopping testleri için). Üç model arasında karar verirken hangi modelin her dört benchmark'ta da frontier eşiğini geçtiğini kontrol etti.

Sonuç. Doğru model seçildi; üretimde 3 ay sonra ürün dönüşüm oranı %18 arttı, müşteri memnuniyeti +0.3 Likert.

Ders. Çoklu benchmark + Türkçe-spesifik benchmark + use-case spesifik benchmark = doğru karar.

8. Riskler: Kontaminasyon, Cherry-Picking, Doygunluk

8.1. Benchmark Kontaminasyonu

Tanım. Benchmark sorularının veya cevaplarının modelin eğitim verisinde istem dışı yer almış olması.

Tür 1: Eğitim-Veri Sızıntısı. Soru + cevap pre-training verisinde. Çözüm: rolling-update benchmark'lar (LiveCodeBench, SWE-bench Pro).

Tür 2: Post-train Kontaminasyon. Fine-tuning veya RLHF aşamasında benchmark sorularının optimizasyon hedefi olarak kullanılması. Daha tehlikeli çünkü kasıtlı.

Tür 3: Test Set Memorization. Model, sorunun cevabını ezberlemiş ama akıl yürütemiyor. Tespiti: aynı soruyu birkaç yeniden-ifadeyle test edin; skor düşerse memorization vardır.

8.2. Vendor Cherry-Picking

Vendor'lar kendi modellerinin parladığı benchmark'ları seçer; rakip modellerin parladığı benchmark'ları gizler. Örnekler:

2024 sonu: OpenAI "ARC-AGI-1'de %88" diye duyurdu (doğru) ama ARC-AGI-2'nin %25 olduğunu gizledi (2025'te ARC-AGI-2 yayınlandığında ortaya çıktı).
2025: Bir vendor "MMLU'da #1" dedi ama SWE-bench Pro skorunu raporlamadı.
2026 Q1: Birden fazla vendor "LiveCodeBench skoru" duyurdu ama hangi v versiyonu kullanıldığını belirtmedi (v3 mü v6 mı?).

Çözüm: Her zaman bağımsız leaderboard'lara bakın: Vellum LLM Leaderboard, Artificial Analysis, LMSYS Chatbot Arena, CodeSOTA, BenchLM.

8.3. Benchmark Doygunluğu

Bir benchmark frontier %95+ skorlar üretmeye başladığında "doygun" olur ve ayrımcılığını yitirir. 2026'da doygun benchmark'lar: MMLU, HumanEval, GSM8K. Bunların yerine MMLU-Pro, LiveCodeBench v6, MATH-Hard kullanılmalı.

9. Sıkça Sorulan Sorular

<callout-box data-variant="answer" data-title="Bir model "ARC-AGI-2'de SOTA" diyorsa ne anlama gelir?">

ARC-AGI-2 SOTA, fluid intelligence + öğrenme transferi boyutunda lider olduğunu gösterir. Yine de insan baseline'ı (%85) henüz geçilmedi. Mid-60s skor = "umut verici reasoning kapasitesi", insan-paritesi değil.

10. Sonraki Adım

Şirketinizde LLM benchmark stratejisi veya eval harness kurmak için:

Benchmark karar atölyesi. Use-case'inize uygun 5-7 benchmark belirleriz; vendor pitch'lerini bu benchmark'lar üzerinden değerlendiririz.
Türkçe eval set kurulumu. Kendi domain'inize özel 100-200 promptluk Türkçe + İngilizce eval set + otomatik regresyon koruması.
Model selection raporu. Mevcut model seçiminizin frontier modellerle karşılaştırması; ROI hesabı + KVKK uyum + maliyet analizi.

İletişim için site üzerindeki contact formu kullanılabilir.

Kaynaklar

Measuring Massive Multitask Language Understanding (MMLU) — Hendrycks et al., arXiv · 2020-09-07
MMLU-Pro: A More Robust and Challenging Multi-task Language Understanding Benchmark — Wang et al., arXiv · 2024-06-03
GPQA: A Graduate-Level Google-Proof Q&A Benchmark — Rein et al., arXiv · 2023-11-20
Evaluating Large Language Models Trained on Code (HumanEval) — Chen et al. (OpenAI), arXiv · 2021-07-07
Program Synthesis with Large Language Models (MBPP) — Austin et al. (Google), arXiv · 2021-08-16
LiveCodeBench: Holistic and Contamination Free Evaluation of LLMs — Jain et al., arXiv · 2024-03-12
SWE-bench: Can Language Models Resolve Real-World GitHub Issues? — Jimenez et al. (Princeton), arXiv · 2023-10-10
Introducing SWE-bench Verified — OpenAI, OpenAI · 2024-08-13
Introducing SWE-bench Pro — OpenAI, OpenAI · 2025-09
On the Measure of Intelligence (ARC-AGI) — Chollet, arXiv · 2019-11-04
ARC-AGI-2: Visual Reasoning Benchmark — ARC Prize, ARC Prize · 2025
AIME Problems Archive — AoPS / MAA, AoPS · Annual
MATH Benchmark — Hendrycks et al., arXiv · 2021-03-05
GSM8K: Training Verifiers to Solve Math Word Problems — Cobbe et al. (OpenAI), arXiv · 2021-10-27
Terminal-Bench: CLI Agent Evaluation — LMSYS, GitHub · 2025
OSWorld: Benchmarking Multimodal Agents in Real Computer Environments — Xie et al., arXiv · 2024-04-11
Humanity's Last Exam — Center for AI Safety + Scale AI, CAIS + Scale · 2025-01
TR-MMLU: Turkish MMLU — Yazaroğlu et al., arXiv · 2024-07-17
TUMLU: Turkish Multi-task Language Understanding — Pamuk & Karaer, arXiv · 2025-02-17
TurkishMMLU-Pro — Vidoport Research Lab, arXiv · 2026-03-08
Vellum LLM Leaderboard — Vellum, Vellum · 2026
Artificial Analysis — Artificial Analysis, Artificial Analysis · 2026
LMSYS Chatbot Arena — LMSYS, LMSYS · 2026
CodeSOTA Leaderboard — CodeSOTA Team, CodeSOTA · 2026
BenchLM — BenchLM, BenchLM · 2026
WebArena: A Realistic Web Environment for Building Autonomous Agents — Zhou et al., arXiv · 2023-07-25
AgentBench: Evaluating LLMs as Agents — Liu et al., arXiv · 2023-08-07
Investigating Data Contamination in Modern Benchmarks — Sainz et al., arXiv · 2023-11-16
GPT-5.5 System Card — OpenAI, OpenAI · 2026-01-22
Claude Opus 4.7 Model Card — Anthropic, Anthropic · 2026-04-09
Gemini 3.1 Pro Technical Report — Google DeepMind, Google · 2026-02-14
Sentezbilisim Türkçe LLM Leaderboard — Sentezbilisim, Sentezbilisim · 2026
ChatGPT vs Claude vs Gemini: Türkçe Test — Şükrü Yusuf KAYA, sukruyusufkaya.com · 2026

Bu rehber yaşayan bir belgedir; benchmark dünyası her çeyrek değiştiği için çeyreklik olarak güncellenir.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Çözüm Bazlı Sayfalar

Kurumsal RAG Sistemleri Gelistirme

Sirket ici bilgiye kaynakli, guvenli ve denetlenebilir erisim saglayan uretim seviyesinde RAG mimarileri.

Landing'i ac

Çözüm Bazlı Sayfalar

AI Agent ve Workflow Otomasyonu

Tek adimli chatbot'larin otesine gecen; arac, kural ve insan onayi ile ilerleyen AI destekli is akislarina gecis.

Landing'i ac

Rol Bazlı Sayfalar

CTO'lar icin Kurumsal AI Mimari Danismanligi

PoC seviyesinde kalan AI girisimlerini guvenli, olceklenebilir ve production-ready mimarilere tasimak icin teknik liderlik danismanligi.

Landing'i ac

Paylaş

Tüm Yazılar

1. Giriş: Neden Bir Benchmark Sözlüğü?

2. Benchmark'ların Anatomisi: Beş Kategori

3. Karşılaştırma: 2026'nın Önemli Benchmark'ları

4. Pratik: Her Benchmark'ın Detayı

4.1. MMLU (Massive Multitask Language Understanding)

4.2. MMLU-Pro

4.3. GPQA (Graduate-level Google-Proof Q&A)

4.4. HumanEval

4.5. MBPP (Mostly Basic Python Problems)

4.6. LiveCodeBench v6

4.7. SWE-bench Verified

4.8. SWE-bench Pro (2025'in en önemli benchmark'ı)

4.9. ARC-AGI-1 (Abstraction and Reasoning Corpus)

4.10. ARC-AGI-2

4.11. AIME (American Invitational Mathematics Examination)

4.12. MATH

4.13. GSM8K (Grade School Math 8K)

4.14. Terminal-Bench 2.0

4.15. OSWorld

4.16. HLE (Humanity's Last Exam)

4.17. Türkçe Benchmark'lar: TR-MMLU ve TUMLU

5. Performans: Frontier Modellerin Konsolide Skor Tablosu

6. Türkiye Açısı: Türk CTO/Yatırımcı/Mühendis İçin Pratik Anlam

6.1. Türk CTO İçin: "Hangi Benchmark'a Bakmalıyım?"

6.2. Türk Yatırımcı İçin: "Bu Şirket Frontier mi?"

6.3. Türk ML Mühendisi İçin: "Production'da Hangi Modeli Seçeyim?"

7. Vaka Çalışmaları: Türk Şirketlerinde Benchmark-Karar Uyuşmazlığı

Vaka 1 — Türk SaaS Şirketi: HumanEval'e Güvenip Yanıldı

Vaka 2 — Türk Banka: GPQA'ya Bakıp Yanıldı

Vaka 3 — Türk E-Ticaret: Doğru Benchmark Seçti

8. Riskler: Kontaminasyon, Cherry-Picking, Doygunluk

8.1. Benchmark Kontaminasyonu

8.2. Vendor Cherry-Picking

8.3. Benchmark Doygunluğu

9. Sıkça Sorulan Sorular

10. Sonraki Adım

Kaynaklar

Bu yazıya en yakın consulting sayfaları

Kurumsal RAG Sistemleri Gelistirme

AI Agent ve Workflow Otomasyonu

CTO'lar icin Kurumsal AI Mimari Danismanligi

Yorumlar

Yorumlar