İçeriğe geç

Reasoning Eval: AIME 2024/2025 + MATH-500 + GPQA-Diamond + LiveCodeBench

Reasoning model'in standart eval suite'i: AIME 2024 (30 problem, USA Math Olympiad), AIME 2025 (yeni), MATH-500 (500 high-school competition), GPQA-Diamond (graduate-level science Q&A), LiveCodeBench (monthly-refreshed coding). pass@1 vs majority voting (pass@64) farkı. Cookbook standart eval pipeline.

Şükrü Yusuf KAYA
26 dakikalık okuma
İleri
Reasoning Eval: AIME 2024/2025 + MATH-500 + GPQA-Diamond + LiveCodeBench

1. Reasoning Benchmark Tablosu (2026 başı)#

BenchmarkSizeDomainPass@1 (cookbook 8B baseline)Pass@1 R1-Distill-8BPass@1 R1 671B
AIME 202430competition math5.628.579.8
AIME 202530competition math4.224.376.5
MATH-500500high-school math47.278.197.3
GPQA-Diamond198grad science25.736.471.5
LiveCodeBench v5400+recent coding18.536.565.9
Pass@1 vs Majority@64:
  • Pass@1: greedy decode, tek cevap
  • Majority@64: 64 sample, en çok gelen cevap (test-time compute)
R1 671B AIME 2024: pass@1=79.8, majority@64=86.7 (+7 puan).
Cookbook'un sertifika eşiği (8B model):
  • AIME 2024 pass@1 ≥ 20 (R1-Distill seviye)
  • MATH-500 pass@1 ≥ 70
  • GPQA-Diamond pass@1 ≥ 30
✅ Part XII tamamlandı
  1. Trained reasoning model'i 4 benchmark'ta eval et. 2) pass@1 vs majority@8 farkını gör. 3) Sonraki Part: Part XIII — Custom Kernels & Triton.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler