İçeriğe geç

Benchmark Anatomi: MMLU'dan LMSys Arena'ya — LLM Kalitesini Ölçmenin Bilimi ve Sanatı

LLM benchmark'larının matematiksel ve epistemik anatomi: MMLU (Hendrycks 2020 — 57 task), HumanEval (Chen 2021 — kod), MT-Bench (Zheng 2023 — chat), LMSys Chatbot Arena (community ELO ranking), GPQA (Rein 2023 — graduate-level reasoning). 'Niye bir benchmark yeterli değil?' Türkçe için TR-MMLU, MUKAYESE, BoazıçNLP. **Benchmark contamination** sorununun ciddi analizi — model'in eğitim verisinde test soruları varsa skor yanıltıcı. Holistic evaluation yaklaşımı.

Şükrü Yusuf KAYA
80 dakikalık okuma
İleri
Benchmark Anatomi: MMLU'dan LMSys Arena'ya — LLM Kalitesini Ölçmenin Bilimi ve Sanatı
📊 'Bu Model İyi mi?' Sorusunun Bilimi ve Sanatı
ChatGPT 2022'de geldi, GPT-4 2023'te, Claude 3.5 Sonnet 2024'te, o1 Eylül 2024'te, DeepSeek-R1 Ocak 2025'te. Her yeni model, marketing post'unda 'state of the art' iddiasıyla geliyor. Hangi sayılarla?
  • MMLU %88 (Hendrycks 2020 benchmark, 57 task)
  • HumanEval %92 (Chen 2021, Python kod yazma)
  • MT-Bench 8.95/10 (Zheng 2023, multi-turn chat)
  • LMSys Arena ELO 1280 (community vote)
  • GPQA %78 (Rein 2023, PhD-level reasoning)
Ama her benchmark farklı bir açıdan bakıyor. Bir model MMLU'da iyi olabilir, Türkçe'de kötü. HumanEval'de iyi olabilir, gerçek production kodu'nda kötü. MT-Bench'te iyi olabilir, kullanıcılar bizzat sevmez.
Üstelik daha kötüsü: 'benchmark contamination'. Bir benchmark public olduğu an, sonraki modellerin pre-training corpus'una sızar. Skorlar şişer, gerçek yetenek değil. Bu, 2024'te belgelenen kanıtlanmış sorun.
Bu ders LLM değerlendirmenin matematiğini, çeşitli benchmark'ların güçlü ve zayıf yönlerini, Türkçe için TR-MMLU + MUKAYESE spesifik benchmark'larını, contamination'ı tespit etme yöntemlerini işliyor. 80 dakika sonra: hangi model'i hangi senaryoda seçeceğini, marketing iddialarını eleştirel okuyabileceğini, kendi production evaluation framework'ünü kurabileceğini bileceksin.

Bu Derste Neler Var? (12 Bölüm)#

  1. Benchmark felsefesi — niye ölçmek zor
  2. MMLU (Hendrycks 2020) — 57 task akademik knowledge
  3. HumanEval (Chen 2021) — Python kod
  4. MT-Bench (Zheng 2023) — multi-turn chat
  5. LMSys Chatbot Arena — community ELO
  6. GPQA (Rein 2023) — PhD-level reasoning
  7. TR-MMLU + Türkçe benchmark'lar
  8. MUKAYESE — Türkçe NLP benchmark
  9. Benchmark contamination problemi
  10. 'Saturated' benchmark'lar — niye yeni olanlara ihtiyaç var
  11. Holistic evaluation — birden fazla benchmark birleştirme
  12. Egzersizler

2-4. MMLU, HumanEval, MT-Bench Detay#

2.1 MMLU (Hendrycks 2020)#

'Measuring Massive Multitask Language Understanding' Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt ICLR 2021, Eylül 2020
Özgül: 57 farklı akademik konu (STEM, beşeri bilimler, sosyal bilimler, profesyonel). Her konu çoktan seçmeli sorular (4 seçenek).
Örnek konular: matematik, fizik, hukuk, tıp, makine öğrenmesi, ahlak felsefesi, Avrupa tarihi, virüsoloji.
Toplam soru: ~15,900.
Niye önemli: ilk gerçekten 'çok konulu' benchmark. Önceden modeller belirli görevlerde test ediliyordu (SQuAD soru-cevap, GLUE NLP). MMLU 'genel bilgi' geometrisi getirdi.
Empirik tarih:
  • GPT-3 (2020): %43.9
  • GPT-3.5 (2022): %70
  • GPT-4 (2023): %86.4
  • Claude 3.5 Sonnet (2024): %88.7
  • o1 (2024): %91+
2024 itibarıyla MMLU 'saturated' — birçok model %85+ alıyor, ayrımcılık azalıyor.

2.2 MMLU'nun sınırları#

  • Çoktan seçmeli format: gerçek dünyada cevaplar çoktan seçmeli değil
  • Memorization risk: bilgi-yoğun, modeller training corpus'tan ezberleyebilir
  • Ahlaki sorular tartışmalı: 'doğru cevap' bazen kültürel tartışmalı
  • Türkçe yok: tamamen İngilizce

3.1 HumanEval (Chen 2021)#

'Evaluating Large Language Models Trained on Code' Mark Chen, Jerry Tworek, Heewoo Jun, ... OpenAI, Temmuz 2021 (Codex paper)
164 Python kod yazma problemi. Her problem: function signature + docstring → model implementation yazıyor. Doğruluk: 'hidden test case'lerle test ediliyor.
Metric: pass@k (k denemede en az 1 doğru).
Empirik tarih:
  • Codex (2021): %28.8 (pass@1)
  • GPT-4 (2023): %67
  • Claude 3.5 Sonnet (2024): %92
  • o1 (2024): %95+
HumanEval da 'saturated'. Yeni benchmark'lar: MBPP (Austin 2021), CodeContests (Li 2022), LiveCodeBench (2024 — pre-training corpus'a sızıntıyı önlemek için sürekli güncellenir).

4.1 MT-Bench (Zheng 2023)#

'Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena' Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, ... UC Berkeley + UCSD, NeurIPS 2023
80 multi-turn (2 round) chat soru. 8 kategori: writing, roleplay, reasoning, math, coding, extraction, STEM, humanities.
Değerlendirme: GPT-4 hakem (LLM-as-a-Judge). Skor 1-10.
İlk gerçekten 'chat quality' benchmark'ı. Production LLM'lerin sohbet kalitesini test ediyor.
Empirik:
  • GPT-3.5: 7.94
  • GPT-4: 8.99
  • Claude 3 Opus: 9.0+

4.2 MT-Bench limitleri#

  • GPT-4 hakem bias'ı: GPT-4'ün kendi yanıtlarını yüksek puanlar (kanıtlanmış)
  • Sadece 80 soru: dar coverage
  • Türkçe sınırlı: çoğu MT-Bench testleri İngilizce, MT-Bench-TR (Türkçe çeviri) küçük ölçek

5-8. LMSys Arena + GPQA + Türkçe + Contamination#

5.1 LMSys Chatbot Arena#

Mayıs 2023'te UC Berkeley'den Lianmin Zheng ve ekibi başlattı: chat.lmsys.org (sonra lmarena.ai).
Fikir: human voting. Kullanıcı bir prompt yazıyor, iki anonim LLM cevap veriyor. Kullanıcı 'hangisi daha iyi' diye oy veriyor. Chess ELO ranking sistemi.
Bu yaklaşımın gücü:
  • Gerçek kullanıcı tercihi ölçüyor (otomatik metric değil)
  • Çeşitli kullanım kapsıyor (her tipte soru)
  • Anonimite + çok oy → bias minimize
2024 itibarıyla 2M+ oy toplandı.

5.2 Arena leaderboard (Mart 2025)#

Top modeller (ELO):
  • GPT-4o: 1287
  • Claude 3.5 Sonnet: 1283
  • Gemini 1.5 Pro: 1268
  • DeepSeek-V3: 1265
  • Llama-3.1-405B: 1252
  • GPT-4 turbo: 1245
Niye önemli: 'gerçek insan tercihi'. MMLU/HumanEval otomatik metric, Arena 'gerçek kullanım'.

5.3 Arena limitleri#

  • English-skewed: oy verenlerin çoğu İngilizce
  • Style bias: 'iyi format' çok önemli (gerçek faktualite kadar)
  • Cherry-picked queries: kullanıcı kendi sorularını sorar — uniform distribution değil
Yine de şu an mevcut en iyi metric.

6.1 GPQA (Rein 2023)#

'GPQA: A Graduate-Level Google-Proof Q&A Benchmark' David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman New York University, Aralık 2023
448 PhD-level soru. Biyoloji, fizik, kimya. Soruları PhD seviyesinde uzmanlar yazdı ve doğruladı.
'Google-proof' adı önemli: sorular internet aramasıyla kolayca cevaplanabilir DEĞİL. Gerçek anlayış gerekiyor.
Empirik:
  • Insan PhD (alanlarında): %65 (zaman kısıtsız)
  • Insan PhD (alan dışı + Google): %34
  • GPT-4 (2023): %35
  • Claude 3 Opus: %50
  • o1 (2024): %78 (PhD seviyesini geçti!)
GPQA, 'gerçek reasoning' için yeni gold standard. o1 gibi reasoning model'lerin değerini gösteriyor.

7.1 Türkçe Benchmarks — TR-MMLU#

2023'te BoğaziçNLP grubu (Boğaziçi Üniversitesi) TR-MMLU'yu yayınladı: MMLU'nun Türkçe çevirisi + Türk tarihi/kültürü/dilbilimi soruları eklenmiş.
Kapsam: 1,000+ soru. Türk lisesi, üniversite, profesyonel sınavlar (YKS, KPSS, ALES tarzı).
Empirik:
  • Llama-3-8B (multilingual): %47
  • Llama-3-70B: %63
  • GPT-4o: %75
  • Türkçe-fine-tuned Llama (Modül 15.6 capstone): %52 (+%5 base)
Türkçe modellerin gerçek pazar değerlendirmesi.

7.2 MUKAYESE (Türkçe NLP Suite)#

  1. Boğaziçi'nden Mukayese projesi (Safaya, Şahin, vs.). Türkçe NLP benchmark suite:
  • NER: named entity recognition (Türkçe haber metni)
  • Sentiment: Türkçe ürün yorumu sınıflama
  • NLI: doğal dil çıkarımı (Türkçe XNLI)
  • Summarization: Türkçe haber özetleme
Production Türkçe LLM değerlendirme için en sağlam suite. Çoğu Türkçe model paper'ı MUKAYESE skorlarını rapor ediyor.

7.3 Türkçe specific gözlemler#

  • TR-MMLU'da en güçlü domain: Türk tarihi (modeller corpus'tan iyi öğrenmiş)
  • En zayıf: Türk hukuku (özel terminology, sürekli değişen mevzuat)
  • LLama-3 multilingual training Türkçe için makul, ama GPT-4o net üstün
  • DeepSeek-V3 Türkçe quality 2024 sonu itibarıyla GPT-4o ile başa baş

8.1 Benchmark Contamination — Ciddi Problem#

En büyük benchmark sorunu: pre-training corpus'a sızıntı.
MMLU 2020'de public oldu. 2024 itibarıyla pre-training corpus'una sızdığı kanıtlandı:
  • Roberts et al. 2023 paper'ı: 'Data Contamination Through the Lens of Time'
  • GPT-4 MMLU sorularını kelime kelime hatırlıyor — bazıları memorized
Etki: GPT-4'ün %86 MMLU skor'unun bir kısmı memorization, gerçek reasoning değil.
Çözümler:
  1. Live benchmark'lar: LiveCodeBench (2024) — sürekli yeni problem ekleniyor, modellerden saklanıyor
  2. Closed evaluation: skor public, sorular kapalı (HuggingFace OpenLLM Leaderboard 2.0 yaklaşımı)
  3. Adversarial test: model'in 'kolaylıkla cevap verdiği' sorular flag
  4. Held-out test sets: production-internal test setleri

8.2 Pratik öneri#

Bugün hangi model'i seçeceğine karar verirken çoklu metric kullan:
  • MMLU + HumanEval (akademik) — minimum filtre
  • LMSys Arena (gerçek kullanıcı tercih) — production yakın gerçek
  • Use-case spesifik test (kendi domain'in için)
  • Sürekli güncellenen Live benchmark'lar (LiveCodeBench)
Türkçe için: TR-MMLU + MUKAYESE + kendi Türkçe test set'in.
✅ Ders 21.1 Özeti — Benchmark Anatomi
LLM benchmark ekosistemi: MMLU (genel akademik, %85+ saturated), HumanEval (Python kod, %90+ saturated), MT-Bench (chat quality, GPT-4 hakem bias var), LMSys Arena (community ELO, en gerçekçi), GPQA (PhD-level reasoning, o1 %78). Türkçe için: TR-MMLU (1K soru, BoğaziçNLP), MUKAYESE (NER + sentiment + NLI + summarization suite). Benchmark contamination ciddi problem: GPT-4 MMLU sorularını memorize ediyor. Çözüm: live benchmarks (LiveCodeBench), closed evaluation, holistic eval (çoklu metric). Pratik: production seçim için TR-MMLU + MUKAYESE + kendi use-case test set'i. Sonraki ders: production evaluation framework'ünü kendin nasıl kurarsın.

Sonraki Ders: Production Evaluation Framework#

Ders 21.2'de kendi Türkçe LLM evaluation framework'ünü kurmayı öğreneceksin. Test set design, automated eval pipeline, LLM-as-a-judge stratejileri (GPT-4o vs Claude vs ensemble), error analysis, A/B testing protokolleri. Modül 15.6/16.5/17.5/18.4/19.4/20.3'teki 7 production artefakt'ı objektif olarak karşılaştırma.

Sık Sorulan Sorular

**Birden fazla metric birleştir**: **1. Niche/spesifik benchmark'lar**: - Kod: LiveCodeBench (sürekli güncellenir, contamination az) - Reasoning: GPQA, FrontierMath - Türkçe: TR-MMLU + MUKAYESE **2. LMSys Arena** (community ELO) — en yakın 'gerçek dünya' **3. Kendi domain'in için test set'i**: - 100-500 örnek, gerçek production query distribütion'ı - Manual etiket veya GPT-4o hakem - Sürekli güncel tut **4. Practical considerations**: - Latency, maliyet, context window - Function calling support - Multilingual quality **Sonuç**: 'tek benchmark sıralaması' çağı bitti. Multi-dimensional value evaluation gerekli.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler