MMLU %85+ saturated'sa, model seçerken neye bakacağız?

Benchmark Anatomi: MMLU'dan LMSys Arena'ya — LLM Kalitesini Ölçmenin Bilimi ve Sanatı

LLM benchmark'larının matematiksel ve epistemik anatomi: MMLU (Hendrycks 2020 — 57 task), HumanEval (Chen 2021 — kod), MT-Bench (Zheng 2023 — chat), LMSys Chatbot Arena (community ELO ranking), GPQA (Rein 2023 — graduate-level reasoning). 'Niye bir benchmark yeterli değil?' Türkçe için TR-MMLU, MUKAYESE, BoazıçNLP. **Benchmark contamination** sorununun ciddi analizi — model'in eğitim verisinde test soruları varsa skor yanıltıcı. Holistic evaluation yaklaşımı.

Şükrü Yusuf KAYA

80 dakikalık okuma

13.05.2026

İleri

Benchmark Anatomi: MMLU'dan LMSys Arena'ya — LLM Kalitesini Ölçmenin Bilimi ve Sanatı

📊 'Bu Model İyi mi?' Sorusunun Bilimi ve Sanatı

ChatGPT 2022'de geldi, GPT-4 2023'te, Claude 3.5 Sonnet 2024'te, o1 Eylül 2024'te, DeepSeek-R1 Ocak 2025'te. Her yeni model, marketing post'unda 'state of the art' iddiasıyla geliyor. Hangi sayılarla?

MMLU %88 (Hendrycks 2020 benchmark, 57 task)
HumanEval %92 (Chen 2021, Python kod yazma)
MT-Bench 8.95/10 (Zheng 2023, multi-turn chat)
LMSys Arena ELO 1280 (community vote)
GPQA %78 (Rein 2023, PhD-level reasoning)

Ama her benchmark farklı bir açıdan bakıyor. Bir model MMLU'da iyi olabilir, Türkçe'de kötü. HumanEval'de iyi olabilir, gerçek production kodu'nda kötü. MT-Bench'te iyi olabilir, kullanıcılar bizzat sevmez.

Üstelik daha kötüsü: 'benchmark contamination'. Bir benchmark public olduğu an, sonraki modellerin pre-training corpus'una sızar. Skorlar şişer, gerçek yetenek değil. Bu, 2024'te belgelenen kanıtlanmış sorun.

Bu ders LLM değerlendirmenin matematiğini, çeşitli benchmark'ların güçlü ve zayıf yönlerini, Türkçe için TR-MMLU + MUKAYESE spesifik benchmark'larını, contamination'ı tespit etme yöntemlerini işliyor. 80 dakika sonra: hangi model'i hangi senaryoda seçeceğini, marketing iddialarını eleştirel okuyabileceğini, kendi production evaluation framework'ünü kurabileceğini bileceksin.

Bu Derste Neler Var? (12 Bölüm)#

Benchmark felsefesi — niye ölçmek zor
MMLU (Hendrycks 2020) — 57 task akademik knowledge
HumanEval (Chen 2021) — Python kod
MT-Bench (Zheng 2023) — multi-turn chat
LMSys Chatbot Arena — community ELO
GPQA (Rein 2023) — PhD-level reasoning
TR-MMLU + Türkçe benchmark'lar
MUKAYESE — Türkçe NLP benchmark
Benchmark contamination problemi
'Saturated' benchmark'lar — niye yeni olanlara ihtiyaç var
Holistic evaluation — birden fazla benchmark birleştirme
Egzersizler

2-4. MMLU, HumanEval, MT-Bench Detay#

2.1 MMLU (Hendrycks 2020)#

'Measuring Massive Multitask Language Understanding' Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt ICLR 2021, Eylül 2020

Özgül: 57 farklı akademik konu (STEM, beşeri bilimler, sosyal bilimler, profesyonel). Her konu çoktan seçmeli sorular (4 seçenek).

Örnek konular: matematik, fizik, hukuk, tıp, makine öğrenmesi, ahlak felsefesi, Avrupa tarihi, virüsoloji.

Toplam soru: ~15,900.

Niye önemli: ilk gerçekten 'çok konulu' benchmark. Önceden modeller belirli görevlerde test ediliyordu (SQuAD soru-cevap, GLUE NLP). MMLU 'genel bilgi' geometrisi getirdi.

Empirik tarih:

GPT-3 (2020): %43.9
GPT-3.5 (2022): %70
GPT-4 (2023): %86.4
Claude 3.5 Sonnet (2024): %88.7
o1 (2024): %91+

2024 itibarıyla MMLU 'saturated' — birçok model %85+ alıyor, ayrımcılık azalıyor.

2.2 MMLU'nun sınırları#

Çoktan seçmeli format: gerçek dünyada cevaplar çoktan seçmeli değil
Memorization risk: bilgi-yoğun, modeller training corpus'tan ezberleyebilir
Ahlaki sorular tartışmalı: 'doğru cevap' bazen kültürel tartışmalı
Türkçe yok: tamamen İngilizce

3.1 HumanEval (Chen 2021)#

'Evaluating Large Language Models Trained on Code' Mark Chen, Jerry Tworek, Heewoo Jun, ... OpenAI, Temmuz 2021 (Codex paper)

164 Python kod yazma problemi. Her problem: function signature + docstring → model implementation yazıyor. Doğruluk: 'hidden test case'lerle test ediliyor.

Metric: pass@k (k denemede en az 1 doğru).

Empirik tarih:

Codex (2021): %28.8 (pass@1)
GPT-4 (2023): %67
Claude 3.5 Sonnet (2024): %92
o1 (2024): %95+

HumanEval da 'saturated'. Yeni benchmark'lar: MBPP (Austin 2021), CodeContests (Li 2022), LiveCodeBench (2024 — pre-training corpus'a sızıntıyı önlemek için sürekli güncellenir).

4.1 MT-Bench (Zheng 2023)#

'Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena' Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, ... UC Berkeley + UCSD, NeurIPS 2023

80 multi-turn (2 round) chat soru. 8 kategori: writing, roleplay, reasoning, math, coding, extraction, STEM, humanities.

Değerlendirme: GPT-4 hakem (LLM-as-a-Judge). Skor 1-10.

İlk gerçekten 'chat quality' benchmark'ı. Production LLM'lerin sohbet kalitesini test ediyor.

Empirik:

GPT-3.5: 7.94
GPT-4: 8.99
Claude 3 Opus: 9.0+

4.2 MT-Bench limitleri#

GPT-4 hakem bias'ı: GPT-4'ün kendi yanıtlarını yüksek puanlar (kanıtlanmış)
Sadece 80 soru: dar coverage
Türkçe sınırlı: çoğu MT-Bench testleri İngilizce, MT-Bench-TR (Türkçe çeviri) küçük ölçek

5-8. LMSys Arena + GPQA + Türkçe + Contamination#

5.1 LMSys Chatbot Arena#

Mayıs 2023'te UC Berkeley'den Lianmin Zheng ve ekibi başlattı: chat.lmsys.org (sonra lmarena.ai).

Fikir: human voting. Kullanıcı bir prompt yazıyor, iki anonim LLM cevap veriyor. Kullanıcı 'hangisi daha iyi' diye oy veriyor. Chess ELO ranking sistemi.

Bu yaklaşımın gücü:

Gerçek kullanıcı tercihi ölçüyor (otomatik metric değil)
Çeşitli kullanım kapsıyor (her tipte soru)
Anonimite + çok oy → bias minimize

2024 itibarıyla 2M+ oy toplandı.

5.2 Arena leaderboard (Mart 2025)#

Top modeller (ELO):

GPT-4o: 1287
Claude 3.5 Sonnet: 1283
Gemini 1.5 Pro: 1268
DeepSeek-V3: 1265
Llama-3.1-405B: 1252
GPT-4 turbo: 1245

Niye önemli: 'gerçek insan tercihi'. MMLU/HumanEval otomatik metric, Arena 'gerçek kullanım'.

5.3 Arena limitleri#

English-skewed: oy verenlerin çoğu İngilizce
Style bias: 'iyi format' çok önemli (gerçek faktualite kadar)
Cherry-picked queries: kullanıcı kendi sorularını sorar — uniform distribution değil

Yine de şu an mevcut en iyi metric.

6.1 GPQA (Rein 2023)#

'GPQA: A Graduate-Level Google-Proof Q&A Benchmark' David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman New York University, Aralık 2023

448 PhD-level soru. Biyoloji, fizik, kimya. Soruları PhD seviyesinde uzmanlar yazdı ve doğruladı.

'Google-proof' adı önemli: sorular internet aramasıyla kolayca cevaplanabilir DEĞİL. Gerçek anlayış gerekiyor.

Empirik:

Insan PhD (alanlarında): %65 (zaman kısıtsız)
Insan PhD (alan dışı + Google): %34
GPT-4 (2023): %35
Claude 3 Opus: %50
o1 (2024): %78 (PhD seviyesini geçti!)

GPQA, 'gerçek reasoning' için yeni gold standard. o1 gibi reasoning model'lerin değerini gösteriyor.

7.1 Türkçe Benchmarks — TR-MMLU#

2023'te BoğaziçNLP grubu (Boğaziçi Üniversitesi) TR-MMLU'yu yayınladı: MMLU'nun Türkçe çevirisi + Türk tarihi/kültürü/dilbilimi soruları eklenmiş.

Kapsam: 1,000+ soru. Türk lisesi, üniversite, profesyonel sınavlar (YKS, KPSS, ALES tarzı).

Empirik:

Llama-3-8B (multilingual): %47
Llama-3-70B: %63
GPT-4o: %75
Türkçe-fine-tuned Llama (Modül 15.6 capstone): %52 (+%5 base)

Türkçe modellerin gerçek pazar değerlendirmesi.

7.2 MUKAYESE (Türkçe NLP Suite)#

Boğaziçi'nden Mukayese projesi (Safaya, Şahin, vs.). Türkçe NLP benchmark suite:

NER: named entity recognition (Türkçe haber metni)
Sentiment: Türkçe ürün yorumu sınıflama
NLI: doğal dil çıkarımı (Türkçe XNLI)
Summarization: Türkçe haber özetleme

Production Türkçe LLM değerlendirme için en sağlam suite. Çoğu Türkçe model paper'ı MUKAYESE skorlarını rapor ediyor.

7.3 Türkçe specific gözlemler#

TR-MMLU'da en güçlü domain: Türk tarihi (modeller corpus'tan iyi öğrenmiş)
En zayıf: Türk hukuku (özel terminology, sürekli değişen mevzuat)
LLama-3 multilingual training Türkçe için makul, ama GPT-4o net üstün
DeepSeek-V3 Türkçe quality 2024 sonu itibarıyla GPT-4o ile başa baş

8.1 Benchmark Contamination — Ciddi Problem#

En büyük benchmark sorunu: pre-training corpus'a sızıntı.

MMLU 2020'de public oldu. 2024 itibarıyla pre-training corpus'una sızdığı kanıtlandı:

Roberts et al. 2023 paper'ı: 'Data Contamination Through the Lens of Time'
GPT-4 MMLU sorularını kelime kelime hatırlıyor — bazıları memorized

Etki: GPT-4'ün %86 MMLU skor'unun bir kısmı memorization, gerçek reasoning değil.

Çözümler:

Live benchmark'lar: LiveCodeBench (2024) — sürekli yeni problem ekleniyor, modellerden saklanıyor
Closed evaluation: skor public, sorular kapalı (HuggingFace OpenLLM Leaderboard 2.0 yaklaşımı)
Adversarial test: model'in 'kolaylıkla cevap verdiği' sorular flag
Held-out test sets: production-internal test setleri

8.2 Pratik öneri#

Bugün hangi model'i seçeceğine karar verirken çoklu metric kullan:

MMLU + HumanEval (akademik) — minimum filtre
LMSys Arena (gerçek kullanıcı tercih) — production yakın gerçek
Use-case spesifik test (kendi domain'in için)
Sürekli güncellenen Live benchmark'lar (LiveCodeBench)

Türkçe için: TR-MMLU + MUKAYESE + kendi Türkçe test set'in.

✅ Ders 21.1 Özeti — Benchmark Anatomi

LLM benchmark ekosistemi: MMLU (genel akademik, %85+ saturated), HumanEval (Python kod, %90+ saturated), MT-Bench (chat quality, GPT-4 hakem bias var), LMSys Arena (community ELO, en gerçekçi), GPQA (PhD-level reasoning, o1 %78). Türkçe için: TR-MMLU (1K soru, BoğaziçNLP), MUKAYESE (NER + sentiment + NLI + summarization suite). Benchmark contamination ciddi problem: GPT-4 MMLU sorularını memorize ediyor. Çözüm: live benchmarks (LiveCodeBench), closed evaluation, holistic eval (çoklu metric). Pratik: production seçim için TR-MMLU + MUKAYESE + kendi use-case test set'i. Sonraki ders: production evaluation framework'ünü kendin nasıl kurarsın.

Sonraki Ders: Production Evaluation Framework#

Ders 21.2'de kendi Türkçe LLM evaluation framework'ünü kurmayı öğreneceksin. Test set design, automated eval pipeline, LLM-as-a-judge stratejileri (GPT-4o vs Claude vs ensemble), error analysis, A/B testing protokolleri. Modül 15.6/16.5/17.5/18.4/19.4/20.3'teki 7 production artefakt'ı objektif olarak karşılaştırma.

Sık Sorulan Sorular

**Birden fazla metric birleştir**: **1. Niche/spesifik benchmark'lar**: - Kod: LiveCodeBench (sürekli güncellenir, contamination az) - Reasoning: GPQA, FrontierMath - Türkçe: TR-MMLU + MUKAYESE **2. LMSys Arena** (community ELO) — en yakın 'gerçek dünya' **3. Kendi domain'in için test set'i**: - 100-500 örnek, gerçek production query distribütion'ı - Manual etiket veya GPT-4o hakem - Sürekli güncel tut **4. Practical considerations**: - Latency, maliyet, context window - Function calling support - Multilingual quality **Sonuç**: 'tek benchmark sıralaması' çağı bitti. Multi-dimensional value evaluation gerekli.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Modül 0: Kurs Çerçevesi ve Atölye Kurulumu