Does test-time compute scaling continue forever?

No, **diminishing returns**. Snell et al. paper itself shows: - N=1 → N=8: %40 quality boost - N=8 → N=64: %15 boost - N=64 → N=512: %5 boost - N=512 → N=4096: %1-2 boost Logarithmic trend. After enough compute, additional computation gives marginal benefit. But this limit is **task-dependent**. Very hard math problems (olympiad level) can improve %50+ with more thinking. Ordinary questions plateau quickly.

Test-Time Compute Scaling Mathematics: Snell 2024 Paper — The New Science of Spending Compute on 'Thinking'

Mathematics of new scaling dimension: Snell et al. 2024 'Scaling LLM Test-Time Compute Optimally' paper. Multi-sample (best-of-N, self-consistency) vs deep thinking (long reasoning chain) trade-offs. Optimal compute allocation: how to best distribute same budget? Paradox with pre-training compute: %20 less pre-training + %50 more test-time = same quality. Planning 'thinking budget' for Turkish.

Şükrü Yusuf KAYA

85 min read

5/13/2026

Advanced

Test-Time Compute Scaling Matematiği: Snell 2024 Paper'ı — 'Düşünmek' İçin Compute Harcamanın Yeni Bilimi

📐 'Düşünmek' İçin Compute Harca — Ne Kadar, Nasıl?

Modül 12'de Kaplan + Chinchilla scaling laws'larını öğrendik: pre-training compute × parameters × data = loss. Bu denklem 4 yıldır AI ekonomisini yönetiyordu. Sonra 2024'te o1 lansmanı bir yeni boyut açtı: test-time compute. Yani 'inference sırasında daha çok hesaplama harca, daha iyi cevap al'. Ağustos 2024'te DeepMind ve UC Berkeley'den Snell vd. bu yeni boyutun matematiğini titiz bir paper'la formalize etti. Şaşırtıcı bulgu: bazı durumlarda küçük model + çok test-time compute > büyük model + az test-time compute. Üstelik aynı toplam compute'ta. Bu, AI ekonomisinin denklemini değiştiriyor. 85 dakika sonra: test-time compute matematiğinin temellerini, optimum allocation kararlarını, Türkçe reasoning ürünü için 'düşünme bütçesi' planlamayı kavramış olacaksın.

Bu Derste Neler Var? (13 Bölüm)#

İki scaling boyutu — pre-train vs test-time
Test-time compute nedir — somut tanım
Snell vd. 2024 — paper künyesi ve hedef
3 test-time strateji — best-of-N, self-consistency, deep thinking
Best-of-N (rejection sampling) — matematik
Self-consistency — çoğunluk oyu trade-off
Deep thinking — tek uzun reasoning chain
'Compute-optimal' karar — hangi strateji ne zaman
Pre-train vs Test-time paradoksu — %20 + %50 takası
Yeni scaling law denklemi — matematik
Pratik: kendi 'thinking budget'in
Türkçe için budget planlama
Egzersizler ve karar matrisi

1-3. Snell vd. 2024 — Paper'ın Anatomi#

1.1 İki scaling boyutu — yeni dünyada eski + yeni#

Pre-training scaling (Kaplan 2020, Chinchilla 2022, Modül 12):

Compute_pretrain × Parameters × Data = Loss (lower = better)
'Bir kere eğit, sonsuz inference yap'
Maliyet upfront (fixed cost)

Test-time scaling (Snell vd. 2024):

Compute_test × Strategy = Quality (higher = better)
'Her cevap için ne kadar düşüneceksin'
Maliyet runtime (variable cost)

İki boyut ayrı parametreler: aynı pre-trained model üzerinde test-time stratejiyi değiştirmek farklı kalite verir.

1.2 Paper künyesi#

'Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters' Charlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar UC Berkeley + Google DeepMind, Ağustos 2024

İlk versiyon arXiv'de: 6 Ağustos 2024. o1 lansmanından 5 hafta önce!

Paper, bağımsız olarak o1'in altındaki fikirleri matematik haline getirdi. Bu, bilim+endüstri paralel keşfinin güzel bir örneği.

1.3 Temel iddia#

Matematik:

let C_pretrain = pre-training compute (FLOP)
let C_test = per-question test-time compute (FLOP)
let Q = output quality (e.g., MATH benchmark accuracy)

Geleneksel: Q = f(C_pretrain)  # only pre-training matters
Snell 2024: Q = f(C_pretrain, C_test)  # both matter

Üstelik: belirli bir kalite hedefi için, C_pretrain ve C_test arasında trade-off var.

1.4 Şaşırtıcı bulgular#

Snell vd. 14 farklı reasoning task'ında test etti. Sonuçlar:

Bulgu 1: 'Optimum test-time strategy' soruya bağlı:

Kolay sorular: 1-shot yeter (test-time compute az)
Orta sorular: best-of-N (N=4-8) iyi
Zor sorular: deep thinking + verifier (process reward model)

Bulgu 2: Compute trade-off:

14× daha çok test-time compute, parametre büyütmekten ucuz
Bazı task'larda: küçük model + çok test-time > büyük model + az test-time

Bulgu 3: 'Compute-optimal' allocation %4× quality boost veriyor sadece doğru stratejiyi seçerek.

4-7. 3 Test-Time Strateji#

4.1 Strateji 1: Best-of-N (Rejection Sampling)#

Model aynı soruya N farklı cevap üretir, en iyisini seç.

Algoritma:

for i = 1 to N:
    response_i = model.generate(question, temperature=0.7)
    score_i = verifier.score(question, response_i)
return argmax_i(score_i)

'verifier': bağımsız bir reward model veya outcome checker (matematik için: doğru sayı mı?).

Maliyet: N × per-question compute.

Empirik: N=64 typical, %20-40 quality boost (CoT baseline'a göre).

4.2 Strateji 2: Self-Consistency#

N cevap üret, çoğunluk oyu ile seç (verifier gerekmiyor!).

Algoritma:

responses = [model.generate(question, temperature=0.7) for _ in range(N)]
answers = [extract_final_answer(r) for r in responses]
return most_common(answers)

Avantaj: verifier gerekmez (her zaman matematik problemlerinde 'final answer' kolayca extract edilir). Dezavantaj: tüm cevaplar 'cevap formatı'na uymalı.

Empirik: Wang 2022 (Modül 17.1) — GSM8K %57 → %74.

4.3 Strateji 3: Deep Thinking (Uzun Reasoning)#

Tek bir cevap, ama çok uzun reasoning chain.

Algoritma:

response = model.generate(
    question + "Let me think step by step...",
    max_tokens=10000,  # uzun reasoning izin ver
    temperature=0.3,    # daha deterministik
)
return extract_final_answer(response)

Avantaj: tek pass, paralel olmasına gerek yok. Dezavantaj: long context attention pahalı (O(n²)), 'thought drift' (model kaybeder konuyu).

Bu o1'in default modu.

6.1 Stratejilerin compute karşılaştırması#

Aynı kalite hedefi (örnek: MATH %85) için 14B param model:

Strateji	Per-question compute	Süre (H100)
1-shot CoT (baseline)	1×	1 sn
Best-of-8 + verifier	8×	8 sn
Self-consistency-32	32×	32 sn
Deep thinking (10K tok)	~5×	5 sn

Deep thinking pratikte best-of-N veya self-consistency'den verimli.

O yüzden o1 deep thinking'i tercih ediyor (RL ile eğitilmiş, modelin 'içselleştirilmiş' reasoning).

7.1 Compute-Optimal Karar#

Snell paper'ın ana bulgusu: soru zorluğuna göre strateji değişir.

if question_difficulty == 'easy':
    1-shot CoT (compute: 1×)
elif question_difficulty == 'medium':
    best-of-8 (compute: 8×)
else:  # hard
    deep thinking + verifier (compute: 20-50×)

Soru zorluğunu nasıl tahmin edersin?:

Bir 'router' model (1B param) sorunun zorluğunu tahmin eder
Sonra ana model uygun strategy ile çalışır

Bu, modern reasoning serving'in temel mimarisi.

8-10. Pre-train vs Test-time Paradoksu + Yeni Denklem#

8.1 Klasik dengelem (Chinchilla 2022)#

Pre-training compute denkleminden hatırla (Modül 12):

C_pretrain = 6 × N × D  # N = parameters, D = tokens
Q ≈ f(C_pretrain)

Genel kural: 2× compute → ~0.5-1.0 unit quality artışı.

8.2 Snell'in itirazı#

Snell vd. dedi ki: 'Q sadece C_pretrain'in fonksiyonu değil. Test-time compute da gir.'

Yeni denklem:

Q ≈ f(C_pretrain, C_test_per_question, strategy)

8.3 Şok edici sonuç#

Snell paper'da deney: PaLM-2 + MATH benchmark.

Scenario A: 14B param model + 32× best-of-N Scenario B: 56B param model (4× büyük) + 1-shot CoT

Total compute (her question): yaklaşık eşit. Quality: Scenario A DAHA İYİ.

Yani: 4× daha küçük model + 32× test-time = aynı totala daha iyi sonuç.

8.4 Niye?#

Pre-training compute modeli kalın hatlarla programlıyor: gramer, dünya bilgisi, basit reasoning. Her ekstra FLOP marjinal fayda azalan trend.

Test-time compute soruna özgü 'düşünme' yapıyor: spesifik probleme reasoning chain. Yüksek marjinal fayda.

Bu, intelligence dağıtımı için yeni bir perspektif: 'general intelligence' (pre-train) + 'specific intelligence' (test-time).

9.1 Yeni scaling law denklemi (Snell 2024)#

Q(C_pretrain, C_test) = α × log(C_pretrain) + β × log(C_test) + γ × log(C_pretrain × C_test)

Üçüncü terim interaction: pre-training ve test-time birbirini güçlendiriyor.

Kabaca:

α ≈ 0.05-0.1 (pre-training katkısı)
β ≈ 0.03-0.07 (test-time katkısı)
γ ≈ 0.01-0.03 (etkileşim)

Konu (math, code, reasoning, common sense) farklı katsayılar verir.

11-13. Pratik Bütçe + Türkçe + Egzersizler#

11.1 'Thinking Budget' planlama#

Kendi LLM ürünün için:

Adım 1: Use case'leri sınıflandır:

- Tier 1 (basit Q&A): Easy questions. Strategy: 1-shot CoT.
- Tier 2 (analiz): Medium questions. Strategy: best-of-4.
- Tier 3 (kompleks): Hard questions. Strategy: deep thinking.

Adım 2: Her tier için cost bütçe:

Tier 1: $0.001 per question (cheap, fast)
Tier 2: $0.01 per question (10× more)
Tier 3: $0.1 per question (100× more)

Adım 3: Router sorunun tier'ını tahmin eder.

11.2 Router implementation#

from transformers import AutoModelForSequenceClassification

class DifficultyRouter:
    def __init__(self):
        self.classifier = AutoModelForSequenceClassification.from_pretrained(
            'distilbert-base-uncased',
            num_labels=3,  # easy/medium/hard
        )
    
    def classify(self, question):
        # Fine-tuned with 5K labeled examples
        score = self.classifier(question)
        return ['easy', 'medium', 'hard'][score.argmax()]

# Production routing
router = DifficultyRouter()
tier = router.classify(user_question)
if tier == 'easy':
    response = model.generate(question, max_tokens=200)
elif tier == 'medium':
    response = best_of_n(question, n=4)
else:
    response = deep_think(question, max_tokens=10000)

12.1 Türkçe için budget#

Türkçe LLM'ler tokenization vergisi nedeniyle (Modül 6.9) ~%50 daha fazla token. Yani aynı 'düşünce derinliği' için Türkçe ~%50 daha çok compute lazım.

Pratik öneriler:

Türkçe matematik için R1-Distill-32B + deep thinking: $0.05 per question.
Türkçe genel reasoning için GPT-4o + CoT: $0.005.
Türkçe basit Q&A için GPT-4o mini: $0.0005.

Türkçe-spesifik 'tax': aynı budget Türkçe'de ~%50 daha az 'düşünme derinliği' veriyor. Pre-training corpus'unu Türkçe için daha çok harcayarak (Modül 12 Türkçe model) tax azaltılabilir.

13.1 Egzersizler#

E1. Aynı toplam compute'ta 14B + best-of-32 vs 56B + 1-shot. Niye küçük model kazanır? 3 sebep.

E2. Self-consistency vs best-of-N + verifier: hangi senaryolarda hangisi tercih edilir?

E3. Deep thinking 'thought drift' problemi nedir? Nasıl mitige edilir?

E4. Bir Türkçe matematik koçluk uygulaması için router tasarla. 3 tier, hangi modeller, ne kadar compute.

E5. Snell'in yeni denklemi (Q = f(C_pretrain, C_test)) için α=0.07, β=0.05, γ=0.02 katsayılarıyla, C_pretrain × 2 vs C_test × 4 hangisi daha iyi quality artışı?

E6. Process Reward Model'in deep thinking'i nasıl daha verimli yapar? Mathematicial argument.

E7. o1'in 'reasoning tokens' tüketimi (görünmeyen) maliyet açısından kabul edilebilir mi? Pricing matematik.

✅ Ders 17.2 Özeti — Test-Time Compute Scaling

Snell vd. 2024: AI scaling'in yeni boyutu. Q = f(C_pretrain, C_test). 3 strateji: best-of-N (verifier ile), self-consistency (çoğunluk oyu), deep thinking (uzun chain). Compute-optimal: soru zorluğuna göre strategy. Şok bulgu: 4× küçük model + 32× test-time > 4× büyük model + 1-shot. Yeni denklem: pre-train ve test-time etkileşim. Pratik bütçeleme: 3 tier (easy/medium/hard), router model, per-tier cost. Türkçe için: %50 daha çok compute aynı 'düşünme derinliği' için. Sonraki ders: o1'in mimari spekülasyonları — kapalı kapılar ardındaki muhtemel matematik.

Sonraki Ders: o1 Mimari Spekülatif Analiz#

Ders 17.3'te OpenAI'in açıklamadığı o1 mimarisini, public observations + bilimsel paper'lar + community reverse-engineering birleştirerek tahmin ediyoruz. Process Reward Model, MCTS, RL benzeri eğitim — hangi kombinasyonu kullanıyor olabilirler? Pricing modelinden çıkarılan ipuçları. AI safety açısından kapalılığın anlamı.

Frequently Asked Questions

No direct link proven. But **simultaneous discovery**: - Snell et al. UC Berkeley + DeepMind, open academic research - OpenAI o1: closed, working on similar ideas in parallel Two teams reached same results **independently** or via indirect interaction (NeurIPS conferences, Twitter, paper preprints). Common in science history: Newton+Leibniz calculus, Darwin+Wallace evolution. Snell paper August 6, o1 September 12 — paper is **indirect validation** of o1. OpenAI probably started 6-12 months earlier.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

Test-Time Compute Scaling Mathematics: Snell 2024 Paper — The New Science of Spending Compute on 'Thinking'

Bu Derste Neler Var? (13 Bölüm)#

1-3. Snell vd. 2024 — Paper'ın Anatomi#

1.1 İki scaling boyutu — yeni dünyada eski + yeni#

1.2 Paper künyesi#

1.3 Temel iddia#

1.4 Şaşırtıcı bulgular#

4-7. 3 Test-Time Strateji#

4.1 Strateji 1: Best-of-N (Rejection Sampling)#

4.2 Strateji 2: Self-Consistency#

4.3 Strateji 3: Deep Thinking (Uzun Reasoning)#

6.1 Stratejilerin compute karşılaştırması#

7.1 Compute-Optimal Karar#

8-10. Pre-train vs Test-time Paradoksu + Yeni Denklem#

8.1 Klasik dengelem (Chinchilla 2022)#

8.2 Snell'in itirazı#

8.3 Şok edici sonuç#

8.4 Niye?#

9.1 Yeni scaling law denklemi (Snell 2024)#

11-13. Pratik Bütçe + Türkçe + Egzersizler#

11.1 'Thinking Budget' planlama#

11.2 Router implementation#

12.1 Türkçe için budget#

13.1 Egzersizler#

Sonraki Ders: o1 Mimari Spekülatif Analiz#

Frequently Asked Questions

Snell paper August 2024. o1 September. Connection?

Does test-time compute scaling continue forever?

Yorumlar & Soru-Cevap

Related Content

Who Is an LLM Engineer? The AI Engineering Career Ladder from Junior to Staff

Course Philosophy: Why This Path, Why This Order — The Skeleton of an 8-Month Curriculum

Workshop Setup: uv, PyTorch 2.5+, CUDA, WSL2, Mac MPS, Triton, FlashAttention, Nsight

Subscribe to Newsletter