Benchmark Anatomi: MMLU'dan LMSys Arena'ya — LLM Kalitesini Ölçmenin Bilimi ve Sanatı
LLM benchmark'larının matematiksel ve epistemik anatomi: MMLU (Hendrycks 2020 — 57 task), HumanEval (Chen 2021 — kod), MT-Bench (Zheng 2023 — chat), LMSys Chatbot Arena (community ELO ranking), GPQA (Rein 2023 — graduate-level reasoning). 'Niye bir benchmark yeterli değil?' Türkçe için TR-MMLU, MUKAYESE, BoazıçNLP. **Benchmark contamination** sorununun ciddi analizi — model'in eğitim verisinde test soruları varsa skor yanıltıcı. Holistic evaluation yaklaşımı.
Şükrü Yusuf KAYA
80 dakikalık okuma
İleri📊 'Bu Model İyi mi?' Sorusunun Bilimi ve Sanatı
ChatGPT 2022'de geldi, GPT-4 2023'te, Claude 3.5 Sonnet 2024'te, o1 Eylül 2024'te, DeepSeek-R1 Ocak 2025'te. Her yeni model, marketing post'unda 'state of the art' iddiasıyla geliyor. Hangi sayılarla?
- MMLU %88 (Hendrycks 2020 benchmark, 57 task)
- HumanEval %92 (Chen 2021, Python kod yazma)
- MT-Bench 8.95/10 (Zheng 2023, multi-turn chat)
- LMSys Arena ELO 1280 (community vote)
- GPQA %78 (Rein 2023, PhD-level reasoning)
Ama her benchmark farklı bir açıdan bakıyor. Bir model MMLU'da iyi olabilir, Türkçe'de kötü. HumanEval'de iyi olabilir, gerçek production kodu'nda kötü. MT-Bench'te iyi olabilir, kullanıcılar bizzat sevmez.
Üstelik daha kötüsü: 'benchmark contamination'. Bir benchmark public olduğu an, sonraki modellerin pre-training corpus'una sızar. Skorlar şişer, gerçek yetenek değil. Bu, 2024'te belgelenen kanıtlanmış sorun.
Bu ders LLM değerlendirmenin matematiğini, çeşitli benchmark'ların güçlü ve zayıf yönlerini, Türkçe için TR-MMLU + MUKAYESE spesifik benchmark'larını, contamination'ı tespit etme yöntemlerini işliyor. 80 dakika sonra: hangi model'i hangi senaryoda seçeceğini, marketing iddialarını eleştirel okuyabileceğini, kendi production evaluation framework'ünü kurabileceğini bileceksin.
Bu Derste Neler Var? (12 Bölüm)#
- Benchmark felsefesi — niye ölçmek zor
- MMLU (Hendrycks 2020) — 57 task akademik knowledge
- HumanEval (Chen 2021) — Python kod
- MT-Bench (Zheng 2023) — multi-turn chat
- LMSys Chatbot Arena — community ELO
- GPQA (Rein 2023) — PhD-level reasoning
- TR-MMLU + Türkçe benchmark'lar
- MUKAYESE — Türkçe NLP benchmark
- Benchmark contamination problemi
- 'Saturated' benchmark'lar — niye yeni olanlara ihtiyaç var
- Holistic evaluation — birden fazla benchmark birleştirme
- Egzersizler
2-4. MMLU, HumanEval, MT-Bench Detay#
2.1 MMLU (Hendrycks 2020)#
'Measuring Massive Multitask Language Understanding'
Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt
ICLR 2021, Eylül 2020
Özgül: 57 farklı akademik konu (STEM, beşeri bilimler, sosyal bilimler, profesyonel). Her konu çoktan seçmeli sorular (4 seçenek).
Örnek konular: matematik, fizik, hukuk, tıp, makine öğrenmesi, ahlak felsefesi, Avrupa tarihi, virüsoloji.
Toplam soru: ~15,900.
Niye önemli: ilk gerçekten 'çok konulu' benchmark. Önceden modeller belirli görevlerde test ediliyordu (SQuAD soru-cevap, GLUE NLP). MMLU 'genel bilgi' geometrisi getirdi.
Empirik tarih:
- GPT-3 (2020): %43.9
- GPT-3.5 (2022): %70
- GPT-4 (2023): %86.4
- Claude 3.5 Sonnet (2024): %88.7
- o1 (2024): %91+
2024 itibarıyla MMLU 'saturated' — birçok model %85+ alıyor, ayrımcılık azalıyor.
2.2 MMLU'nun sınırları#
- Çoktan seçmeli format: gerçek dünyada cevaplar çoktan seçmeli değil
- Memorization risk: bilgi-yoğun, modeller training corpus'tan ezberleyebilir
- Ahlaki sorular tartışmalı: 'doğru cevap' bazen kültürel tartışmalı
- Türkçe yok: tamamen İngilizce
3.1 HumanEval (Chen 2021)#
'Evaluating Large Language Models Trained on Code'
Mark Chen, Jerry Tworek, Heewoo Jun, ...
OpenAI, Temmuz 2021 (Codex paper)
164 Python kod yazma problemi. Her problem: function signature + docstring → model implementation yazıyor. Doğruluk: 'hidden test case'lerle test ediliyor.
Metric: pass@k (k denemede en az 1 doğru).
Empirik tarih:
- Codex (2021): %28.8 (pass@1)
- GPT-4 (2023): %67
- Claude 3.5 Sonnet (2024): %92
- o1 (2024): %95+
HumanEval da 'saturated'. Yeni benchmark'lar: MBPP (Austin 2021), CodeContests (Li 2022), LiveCodeBench (2024 — pre-training corpus'a sızıntıyı önlemek için sürekli güncellenir).
4.1 MT-Bench (Zheng 2023)#
'Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena'
Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, ...
UC Berkeley + UCSD, NeurIPS 2023
80 multi-turn (2 round) chat soru. 8 kategori: writing, roleplay, reasoning, math, coding, extraction, STEM, humanities.
Değerlendirme: GPT-4 hakem (LLM-as-a-Judge). Skor 1-10.
İlk gerçekten 'chat quality' benchmark'ı. Production LLM'lerin sohbet kalitesini test ediyor.
Empirik:
- GPT-3.5: 7.94
- GPT-4: 8.99
- Claude 3 Opus: 9.0+
4.2 MT-Bench limitleri#
- GPT-4 hakem bias'ı: GPT-4'ün kendi yanıtlarını yüksek puanlar (kanıtlanmış)
- Sadece 80 soru: dar coverage
- Türkçe sınırlı: çoğu MT-Bench testleri İngilizce, MT-Bench-TR (Türkçe çeviri) küçük ölçek
5-8. LMSys Arena + GPQA + Türkçe + Contamination#
5.1 LMSys Chatbot Arena#
Mayıs 2023'te UC Berkeley'den Lianmin Zheng ve ekibi başlattı: chat.lmsys.org (sonra lmarena.ai).
Fikir: human voting. Kullanıcı bir prompt yazıyor, iki anonim LLM cevap veriyor. Kullanıcı 'hangisi daha iyi' diye oy veriyor. Chess ELO ranking sistemi.
Bu yaklaşımın gücü:
- Gerçek kullanıcı tercihi ölçüyor (otomatik metric değil)
- Çeşitli kullanım kapsıyor (her tipte soru)
- Anonimite + çok oy → bias minimize
2024 itibarıyla 2M+ oy toplandı.
5.2 Arena leaderboard (Mart 2025)#
Top modeller (ELO):
- GPT-4o: 1287
- Claude 3.5 Sonnet: 1283
- Gemini 1.5 Pro: 1268
- DeepSeek-V3: 1265
- Llama-3.1-405B: 1252
- GPT-4 turbo: 1245
Niye önemli: 'gerçek insan tercihi'. MMLU/HumanEval otomatik metric, Arena 'gerçek kullanım'.
5.3 Arena limitleri#
- English-skewed: oy verenlerin çoğu İngilizce
- Style bias: 'iyi format' çok önemli (gerçek faktualite kadar)
- Cherry-picked queries: kullanıcı kendi sorularını sorar — uniform distribution değil
Yine de şu an mevcut en iyi metric.
6.1 GPQA (Rein 2023)#
'GPQA: A Graduate-Level Google-Proof Q&A Benchmark'
David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman
New York University, Aralık 2023
448 PhD-level soru. Biyoloji, fizik, kimya. Soruları PhD seviyesinde uzmanlar yazdı ve doğruladı.
'Google-proof' adı önemli: sorular internet aramasıyla kolayca cevaplanabilir DEĞİL. Gerçek anlayış gerekiyor.
Empirik:
- Insan PhD (alanlarında): %65 (zaman kısıtsız)
- Insan PhD (alan dışı + Google): %34
- GPT-4 (2023): %35
- Claude 3 Opus: %50
- o1 (2024): %78 (PhD seviyesini geçti!)
GPQA, 'gerçek reasoning' için yeni gold standard. o1 gibi reasoning model'lerin değerini gösteriyor.
7.1 Türkçe Benchmarks — TR-MMLU#
2023'te BoğaziçNLP grubu (Boğaziçi Üniversitesi) TR-MMLU'yu yayınladı: MMLU'nun Türkçe çevirisi + Türk tarihi/kültürü/dilbilimi soruları eklenmiş.
Kapsam: 1,000+ soru. Türk lisesi, üniversite, profesyonel sınavlar (YKS, KPSS, ALES tarzı).
Empirik:
- Llama-3-8B (multilingual): %47
- Llama-3-70B: %63
- GPT-4o: %75
- Türkçe-fine-tuned Llama (Modül 15.6 capstone): %52 (+%5 base)
Türkçe modellerin gerçek pazar değerlendirmesi.
7.2 MUKAYESE (Türkçe NLP Suite)#
- Boğaziçi'nden Mukayese projesi (Safaya, Şahin, vs.). Türkçe NLP benchmark suite:
- NER: named entity recognition (Türkçe haber metni)
- Sentiment: Türkçe ürün yorumu sınıflama
- NLI: doğal dil çıkarımı (Türkçe XNLI)
- Summarization: Türkçe haber özetleme
Production Türkçe LLM değerlendirme için en sağlam suite. Çoğu Türkçe model paper'ı MUKAYESE skorlarını rapor ediyor.
7.3 Türkçe specific gözlemler#
- TR-MMLU'da en güçlü domain: Türk tarihi (modeller corpus'tan iyi öğrenmiş)
- En zayıf: Türk hukuku (özel terminology, sürekli değişen mevzuat)
- LLama-3 multilingual training Türkçe için makul, ama GPT-4o net üstün
- DeepSeek-V3 Türkçe quality 2024 sonu itibarıyla GPT-4o ile başa baş
8.1 Benchmark Contamination — Ciddi Problem#
En büyük benchmark sorunu: pre-training corpus'a sızıntı.
MMLU 2020'de public oldu. 2024 itibarıyla pre-training corpus'una sızdığı kanıtlandı:
- Roberts et al. 2023 paper'ı: 'Data Contamination Through the Lens of Time'
- GPT-4 MMLU sorularını kelime kelime hatırlıyor — bazıları memorized
Etki: GPT-4'ün %86 MMLU skor'unun bir kısmı memorization, gerçek reasoning değil.
Çözümler:
- Live benchmark'lar: LiveCodeBench (2024) — sürekli yeni problem ekleniyor, modellerden saklanıyor
- Closed evaluation: skor public, sorular kapalı (HuggingFace OpenLLM Leaderboard 2.0 yaklaşımı)
- Adversarial test: model'in 'kolaylıkla cevap verdiği' sorular flag
- Held-out test sets: production-internal test setleri
8.2 Pratik öneri#
Bugün hangi model'i seçeceğine karar verirken çoklu metric kullan:
- MMLU + HumanEval (akademik) — minimum filtre
- LMSys Arena (gerçek kullanıcı tercih) — production yakın gerçek
- Use-case spesifik test (kendi domain'in için)
- Sürekli güncellenen Live benchmark'lar (LiveCodeBench)
Türkçe için: TR-MMLU + MUKAYESE + kendi Türkçe test set'in.
✅ Ders 21.1 Özeti — Benchmark Anatomi
LLM benchmark ekosistemi: MMLU (genel akademik, %85+ saturated), HumanEval (Python kod, %90+ saturated), MT-Bench (chat quality, GPT-4 hakem bias var), LMSys Arena (community ELO, en gerçekçi), GPQA (PhD-level reasoning, o1 %78). Türkçe için: TR-MMLU (1K soru, BoğaziçNLP), MUKAYESE (NER + sentiment + NLI + summarization suite). Benchmark contamination ciddi problem: GPT-4 MMLU sorularını memorize ediyor. Çözüm: live benchmarks (LiveCodeBench), closed evaluation, holistic eval (çoklu metric). Pratik: production seçim için TR-MMLU + MUKAYESE + kendi use-case test set'i. Sonraki ders: production evaluation framework'ünü kendin nasıl kurarsın.
Sonraki Ders: Production Evaluation Framework#
Ders 21.2'de kendi Türkçe LLM evaluation framework'ünü kurmayı öğreneceksin. Test set design, automated eval pipeline, LLM-as-a-judge stratejileri (GPT-4o vs Claude vs ensemble), error analysis, A/B testing protokolleri. Modül 15.6/16.5/17.5/18.4/19.4/20.3'teki 7 production artefakt'ı objektif olarak karşılaştırma.
Sık Sorulan Sorular
**Birden fazla metric birleştir**:
**1. Niche/spesifik benchmark'lar**:
- Kod: LiveCodeBench (sürekli güncellenir, contamination az)
- Reasoning: GPQA, FrontierMath
- Türkçe: TR-MMLU + MUKAYESE
**2. LMSys Arena** (community ELO) — en yakın 'gerçek dünya'
**3. Kendi domain'in için test set'i**:
- 100-500 örnek, gerçek production query distribütion'ı
- Manual etiket veya GPT-4o hakem
- Sürekli güncel tut
**4. Practical considerations**:
- Latency, maliyet, context window
- Function calling support
- Multilingual quality
**Sonuç**: 'tek benchmark sıralaması' çağı bitti. Multi-dimensional value evaluation gerekli.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Modül 0: Kurs Çerçevesi ve Atölye Kurulumu
LLM Engineer Kimdir? Junior'dan Staff'a Yapay Zekâ Mühendisliği Kariyer Haritası
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu
Kurs Felsefesi: Neden Bu Yol, Neden Bu Sıra — 8 Aylık Müfredatın İskeleti
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu