Skip to content

Test-Time Compute Scaling Mathematics: Snell 2024 Paper — The New Science of Spending Compute on 'Thinking'

Mathematics of new scaling dimension: Snell et al. 2024 'Scaling LLM Test-Time Compute Optimally' paper. Multi-sample (best-of-N, self-consistency) vs deep thinking (long reasoning chain) trade-offs. Optimal compute allocation: how to best distribute same budget? Paradox with pre-training compute: %20 less pre-training + %50 more test-time = same quality. Planning 'thinking budget' for Turkish.

Şükrü Yusuf KAYA
85 min read
Advanced
Test-Time Compute Scaling Matematiği: Snell 2024 Paper'ı — 'Düşünmek' İçin Compute Harcamanın Yeni Bilimi
📐 'Düşünmek' İçin Compute Harca — Ne Kadar, Nasıl?
Modül 12'de Kaplan + Chinchilla scaling laws'larını öğrendik: pre-training compute × parameters × data = loss. Bu denklem 4 yıldır AI ekonomisini yönetiyordu. Sonra 2024'te o1 lansmanı bir yeni boyut açtı: test-time compute. Yani 'inference sırasında daha çok hesaplama harca, daha iyi cevap al'. Ağustos 2024'te DeepMind ve UC Berkeley'den Snell vd. bu yeni boyutun matematiğini titiz bir paper'la formalize etti. Şaşırtıcı bulgu: bazı durumlarda küçük model + çok test-time compute > büyük model + az test-time compute. Üstelik aynı toplam compute'ta. Bu, AI ekonomisinin denklemini değiştiriyor. 85 dakika sonra: test-time compute matematiğinin temellerini, optimum allocation kararlarını, Türkçe reasoning ürünü için 'düşünme bütçesi' planlamayı kavramış olacaksın.

Bu Derste Neler Var? (13 Bölüm)#

  1. İki scaling boyutu — pre-train vs test-time
  2. Test-time compute nedir — somut tanım
  3. Snell vd. 2024 — paper künyesi ve hedef
  4. 3 test-time strateji — best-of-N, self-consistency, deep thinking
  5. Best-of-N (rejection sampling) — matematik
  6. Self-consistency — çoğunluk oyu trade-off
  7. Deep thinking — tek uzun reasoning chain
  8. 'Compute-optimal' karar — hangi strateji ne zaman
  9. Pre-train vs Test-time paradoksu — %20 + %50 takası
  10. Yeni scaling law denklemi — matematik
  11. Pratik: kendi 'thinking budget'in
  12. Türkçe için budget planlama
  13. Egzersizler ve karar matrisi

1-3. Snell vd. 2024 — Paper'ın Anatomi#

1.1 İki scaling boyutu — yeni dünyada eski + yeni#

Pre-training scaling (Kaplan 2020, Chinchilla 2022, Modül 12):
  • Compute_pretrain × Parameters × Data = Loss (lower = better)
  • 'Bir kere eğit, sonsuz inference yap'
  • Maliyet upfront (fixed cost)
Test-time scaling (Snell vd. 2024):
  • Compute_test × Strategy = Quality (higher = better)
  • 'Her cevap için ne kadar düşüneceksin'
  • Maliyet runtime (variable cost)
İki boyut ayrı parametreler: aynı pre-trained model üzerinde test-time stratejiyi değiştirmek farklı kalite verir.

1.2 Paper künyesi#

'Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters' Charlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar UC Berkeley + Google DeepMind, Ağustos 2024
İlk versiyon arXiv'de: 6 Ağustos 2024. o1 lansmanından 5 hafta önce!
Paper, bağımsız olarak o1'in altındaki fikirleri matematik haline getirdi. Bu, bilim+endüstri paralel keşfinin güzel bir örneği.

1.3 Temel iddia#

Matematik:
let C_pretrain = pre-training compute (FLOP) let C_test = per-question test-time compute (FLOP) let Q = output quality (e.g., MATH benchmark accuracy) Geleneksel: Q = f(C_pretrain) # only pre-training matters Snell 2024: Q = f(C_pretrain, C_test) # both matter
Üstelik: belirli bir kalite hedefi için, C_pretrain ve C_test arasında trade-off var.

1.4 Şaşırtıcı bulgular#

Snell vd. 14 farklı reasoning task'ında test etti. Sonuçlar:
Bulgu 1: 'Optimum test-time strategy' soruya bağlı:
  • Kolay sorular: 1-shot yeter (test-time compute az)
  • Orta sorular: best-of-N (N=4-8) iyi
  • Zor sorular: deep thinking + verifier (process reward model)
Bulgu 2: Compute trade-off:
  • 14× daha çok test-time compute, parametre büyütmekten ucuz
  • Bazı task'larda: küçük model + çok test-time > büyük model + az test-time
Bulgu 3: 'Compute-optimal' allocation %4× quality boost veriyor sadece doğru stratejiyi seçerek.

4-7. 3 Test-Time Strateji#

4.1 Strateji 1: Best-of-N (Rejection Sampling)#

Model aynı soruya N farklı cevap üretir, en iyisini seç.
Algoritma:
for i = 1 to N: response_i = model.generate(question, temperature=0.7) score_i = verifier.score(question, response_i) return argmax_i(score_i)
'verifier': bağımsız bir reward model veya outcome checker (matematik için: doğru sayı mı?).
Maliyet: N × per-question compute.
Empirik: N=64 typical, %20-40 quality boost (CoT baseline'a göre).

4.2 Strateji 2: Self-Consistency#

N cevap üret, çoğunluk oyu ile seç (verifier gerekmiyor!).
Algoritma:
responses = [model.generate(question, temperature=0.7) for _ in range(N)] answers = [extract_final_answer(r) for r in responses] return most_common(answers)
Avantaj: verifier gerekmez (her zaman matematik problemlerinde 'final answer' kolayca extract edilir). Dezavantaj: tüm cevaplar 'cevap formatı'na uymalı.
Empirik: Wang 2022 (Modül 17.1) — GSM8K %57 → %74.

4.3 Strateji 3: Deep Thinking (Uzun Reasoning)#

Tek bir cevap, ama çok uzun reasoning chain.
Algoritma:
response = model.generate( question + "Let me think step by step...", max_tokens=10000, # uzun reasoning izin ver temperature=0.3, # daha deterministik ) return extract_final_answer(response)
Avantaj: tek pass, paralel olmasına gerek yok. Dezavantaj: long context attention pahalı (O(n²)), 'thought drift' (model kaybeder konuyu).
Bu o1'in default modu.

6.1 Stratejilerin compute karşılaştırması#

Aynı kalite hedefi (örnek: MATH %85) için 14B param model:
StratejiPer-question computeSüre (H100)
1-shot CoT (baseline)1 sn
Best-of-8 + verifier8 sn
Self-consistency-3232×32 sn
Deep thinking (10K tok)~5×5 sn
Deep thinking pratikte best-of-N veya self-consistency'den verimli.
O yüzden o1 deep thinking'i tercih ediyor (RL ile eğitilmiş, modelin 'içselleştirilmiş' reasoning).

7.1 Compute-Optimal Karar#

Snell paper'ın ana bulgusu: soru zorluğuna göre strateji değişir.
if question_difficulty == 'easy': 1-shot CoT (compute: 1×) elif question_difficulty == 'medium': best-of-8 (compute: 8×) else: # hard deep thinking + verifier (compute: 20-50×)
Soru zorluğunu nasıl tahmin edersin?:
  • Bir 'router' model (1B param) sorunun zorluğunu tahmin eder
  • Sonra ana model uygun strategy ile çalışır
Bu, modern reasoning serving'in temel mimarisi.

8-10. Pre-train vs Test-time Paradoksu + Yeni Denklem#

8.1 Klasik dengelem (Chinchilla 2022)#

Pre-training compute denkleminden hatırla (Modül 12):
C_pretrain = 6 × N × D # N = parameters, D = tokens Q ≈ f(C_pretrain)
Genel kural: 2× compute → ~0.5-1.0 unit quality artışı.

8.2 Snell'in itirazı#

Snell vd. dedi ki: 'Q sadece C_pretrain'in fonksiyonu değil. Test-time compute da gir.'
Yeni denklem:
Q ≈ f(C_pretrain, C_test_per_question, strategy)

8.3 Şok edici sonuç#

Snell paper'da deney: PaLM-2 + MATH benchmark.
Scenario A: 14B param model + 32× best-of-N Scenario B: 56B param model (4× büyük) + 1-shot CoT
Total compute (her question): yaklaşık eşit. Quality: Scenario A DAHA İYİ.
Yani: 4× daha küçük model + 32× test-time = aynı totala daha iyi sonuç.

8.4 Niye?#

Pre-training compute modeli kalın hatlarla programlıyor: gramer, dünya bilgisi, basit reasoning. Her ekstra FLOP marjinal fayda azalan trend.
Test-time compute soruna özgü 'düşünme' yapıyor: spesifik probleme reasoning chain. Yüksek marjinal fayda.
Bu, intelligence dağıtımı için yeni bir perspektif: 'general intelligence' (pre-train) + 'specific intelligence' (test-time).

9.1 Yeni scaling law denklemi (Snell 2024)#

Q(C_pretrain, C_test) = α × log(C_pretrain) + β × log(C_test) + γ × log(C_pretrain × C_test)
Üçüncü terim interaction: pre-training ve test-time birbirini güçlendiriyor.
Kabaca:
  • α ≈ 0.05-0.1 (pre-training katkısı)
  • β ≈ 0.03-0.07 (test-time katkısı)
  • γ ≈ 0.01-0.03 (etkileşim)
Konu (math, code, reasoning, common sense) farklı katsayılar verir.

11-13. Pratik Bütçe + Türkçe + Egzersizler#

11.1 'Thinking Budget' planlama#

Kendi LLM ürünün için:
Adım 1: Use case'leri sınıflandır:
- Tier 1 (basit Q&A): Easy questions. Strategy: 1-shot CoT. - Tier 2 (analiz): Medium questions. Strategy: best-of-4. - Tier 3 (kompleks): Hard questions. Strategy: deep thinking.
Adım 2: Her tier için cost bütçe:
Tier 1: $0.001 per question (cheap, fast) Tier 2: $0.01 per question (10× more) Tier 3: $0.1 per question (100× more)
Adım 3: Router sorunun tier'ını tahmin eder.

11.2 Router implementation#

from transformers import AutoModelForSequenceClassification class DifficultyRouter: def __init__(self): self.classifier = AutoModelForSequenceClassification.from_pretrained( 'distilbert-base-uncased', num_labels=3, # easy/medium/hard ) def classify(self, question): # Fine-tuned with 5K labeled examples score = self.classifier(question) return ['easy', 'medium', 'hard'][score.argmax()] # Production routing router = DifficultyRouter() tier = router.classify(user_question) if tier == 'easy': response = model.generate(question, max_tokens=200) elif tier == 'medium': response = best_of_n(question, n=4) else: response = deep_think(question, max_tokens=10000)

12.1 Türkçe için budget#

Türkçe LLM'ler tokenization vergisi nedeniyle (Modül 6.9) ~%50 daha fazla token. Yani aynı 'düşünce derinliği' için Türkçe ~%50 daha çok compute lazım.
Pratik öneriler:
  • Türkçe matematik için R1-Distill-32B + deep thinking: $0.05 per question.
  • Türkçe genel reasoning için GPT-4o + CoT: $0.005.
  • Türkçe basit Q&A için GPT-4o mini: $0.0005.
Türkçe-spesifik 'tax': aynı budget Türkçe'de ~%50 daha az 'düşünme derinliği' veriyor. Pre-training corpus'unu Türkçe için daha çok harcayarak (Modül 12 Türkçe model) tax azaltılabilir.

13.1 Egzersizler#

E1. Aynı toplam compute'ta 14B + best-of-32 vs 56B + 1-shot. Niye küçük model kazanır? 3 sebep.
E2. Self-consistency vs best-of-N + verifier: hangi senaryolarda hangisi tercih edilir?
E3. Deep thinking 'thought drift' problemi nedir? Nasıl mitige edilir?
E4. Bir Türkçe matematik koçluk uygulaması için router tasarla. 3 tier, hangi modeller, ne kadar compute.
E5. Snell'in yeni denklemi (Q = f(C_pretrain, C_test)) için α=0.07, β=0.05, γ=0.02 katsayılarıyla, C_pretrain × 2 vs C_test × 4 hangisi daha iyi quality artışı?
E6. Process Reward Model'in deep thinking'i nasıl daha verimli yapar? Mathematicial argument.
E7. o1'in 'reasoning tokens' tüketimi (görünmeyen) maliyet açısından kabul edilebilir mi? Pricing matematik.
✅ Ders 17.2 Özeti — Test-Time Compute Scaling
Snell vd. 2024: AI scaling'in yeni boyutu. Q = f(C_pretrain, C_test). 3 strateji: best-of-N (verifier ile), self-consistency (çoğunluk oyu), deep thinking (uzun chain). Compute-optimal: soru zorluğuna göre strategy. Şok bulgu: 4× küçük model + 32× test-time > 4× büyük model + 1-shot. Yeni denklem: pre-train ve test-time etkileşim. Pratik bütçeleme: 3 tier (easy/medium/hard), router model, per-tier cost. Türkçe için: %50 daha çok compute aynı 'düşünme derinliği' için. Sonraki ders: o1'in mimari spekülasyonları — kapalı kapılar ardındaki muhtemel matematik.

Sonraki Ders: o1 Mimari Spekülatif Analiz#

Ders 17.3'te OpenAI'in açıklamadığı o1 mimarisini, public observations + bilimsel paper'lar + community reverse-engineering birleştirerek tahmin ediyoruz. Process Reward Model, MCTS, RL benzeri eğitim — hangi kombinasyonu kullanıyor olabilirler? Pricing modelinden çıkarılan ipuçları. AI safety açısından kapalılığın anlamı.

Frequently Asked Questions

No direct link proven. But **simultaneous discovery**: - Snell et al. UC Berkeley + DeepMind, open academic research - OpenAI o1: closed, working on similar ideas in parallel Two teams reached same results **independently** or via indirect interaction (NeurIPS conferences, Twitter, paper preprints). Common in science history: Newton+Leibniz calculus, Darwin+Wallace evolution. Snell paper August 6, o1 September 12 — paper is **indirect validation** of o1. OpenAI probably started 6-12 months earlier.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content