How much different is using R1-Distill-7B vs R1-full?

Empirical: **R1 (full, 671B active 37B)**: - AIME: %80 - MATH: %93 - Cost (API): $0.55 / 1M token (Together AI) - Self-host: hard (1 H100 insufficient, multi-GPU needed) **R1-Distill-Qwen-32B**: - AIME: %72 - MATH: %88 - Cost (self-host): 1 H100 sufficient, ~$1,800/month **R1-Distill-Qwen-7B**: - AIME: %55 - MATH: %78 - Cost: runs on RTX 4090, ~$0 **Difference**: full R1 → 7B distill: %25 quality loss (AIME), %15 (MATH). 7B → 32B distill: %15-20 quality gain. **Sweet spot**: 32B-distill for production, 7B-distill for hobby/MVP. Full R1 for frontier research.

What's the best model for solving Turkish math problems in 2025?

Quality ranking (Turkish math): 1. **o1 (OpenAI API)**: ~%60 (AIME Turkish translation). Best but expensive. 2. **R1 (DeepSeek API)**: ~%55. Open, cheaper. 3. **R1-Distill-Qwen-32B (self-host)**: ~%50. Self-host capability, KVKK compliant. 4. **Claude 3.5 Sonnet + CoT (Anthropic)**: ~%45. Good general reasoning. 5. **GPT-4o + CoT (OpenAI)**: ~%40. Widespread, cheap alternative. 6. **Llama-3-70B + CoT (self-host)**: ~%30. Open-source budget option. 7. **GPT-4o mini + CoT**: ~%15. Very cheap but insufficient. **Production recommendation**: - For Turkish math specifically: R1-Distill-32B self-host (KVKK + cost balance) - General TR chatbot + occasional math: GPT-4o + CoT sufficient - Educational technology (math tutoring for TR students): R1 or o1 API (quality critical)

History of the Reasoning Revolution: From Wei 2022 Chain-of-Thought to o1 — Seven-Year Birth of 'Thinking Models'

Historical and conceptual anatomy of reasoning models: seven years from Wei et al. 2022 'Chain-of-Thought Prompting' to September 12, 2024 OpenAI o1 launch. Self-consistency (Wang 2022), Tree of Thoughts (Yao 2023), Reflexion (Shinn 2023) — rise and limits of prompting-based reasoning. Why there were no 'reasoning models' until 2024, why o1 was different, emergence of test-time compute as new scaling dimension. What it means for models solving Turkish math problems.

Şükrü Yusuf KAYA

85 min read

5/13/2026

Advanced

Reasoning Devrimi'nin Tarihi: Wei 2022 Chain-of-Thought'tan o1'e — 'Düşünmeyi Öğrenen Modellerin' Yedi Yıllık Doğuşu

🧠 12 Eylül 2024 — 'Düşünen' Model Lansman Günü

12 Eylül 2024, Perşembe sabahı. OpenAI sessizce yeni bir model yayınladı: o1-preview. İlk testlerde AIME 2024 matematik olimpiyatı %12'lik GPT-4o skoru → %74'e fırladı. 6 kat artış. AI Twitter'da yangın çıktı. Anthropic ve Google'da acil toplantılar. Ne olmuştu?

Basit cevap: model düşünmeye başladı. Soruyu alıyor, 30-60 saniye 'düşünüyor' (binlerce 'reasoning token' üretiyor), sonra cevap veriyor. Hem matematik, hem fizik, hem kod — her şeyde dramatic improvement.

Karmaşık cevap: o1 7 yıllık araştırmanın damıtması. 2022'de Jason Wei'nin küçük bir prompting trick'i (Chain-of-Thought) buralara nasıl ulaştı? Bu ders bu yedi yıllık yolculuğun tam haritasını çıkartıyor. 'Reasoning' lafının kavramsal evrimi, dönüm noktası paper'ları, niye 2024'te ortaya çıktı, Türkiye'deki bizler için ne ifade ediyor. Müfredatın en güncel araştırma sınırı.

Bu Derste Neler Var? (14 Bölüm)#

Pre-CoT dönemi — niye GPT-3 matematiği çözemiyordu
Wei vd. 2022 — Chain-of-Thought paper'ı
Niye 'düşünmek' işe yarar — bilişsel sezgi
Wang vd. 2022 — Self-Consistency: çoğunluk oyu
Yao vd. 2023 — Tree of Thoughts: arama ağacı
Shinn vd. 2023 — Reflexion: kendi hatasını gör
2023-2024 köprü dönemi — process reward modeller
OpenAI'in 'Strawberry' projesi — kapalı kapılar ardında
o1-preview lansman (12 Eylül 2024)
o1'in mimari hipotezleri — bilmediklerimiz
DeepSeek-R1 (20 Ocak 2025) — açık karşılık
Test-time compute yeni scaling boyutu
Türkçe için reasoning — pratik anlam
Egzersizler

1. Pre-CoT Dönemi — Niye GPT-3 Matematik Çözemezdi#

1.1 2020 ve sonrası — şaşırtıcı eksiklik#

GPT-3 Haziran 2020'de yayınlandı. Şiir yazıyordu, kod yazıyordu, dil çeviriyordu. Ama matematik konusunda rezildi.

Örnek soru: 'Bir mağazada 23 kalem var. 7 kalem daha geldi. Sonra 5'i satıldı. Şu an kaç kalem var?'

GPT-3 cevabı: '24' veya '20' veya başka bir yanlış sayı. Doğru cevap 25.

Niye? Çünkü GPT-3 metin devamı tahmin ediyor, hesap yapmıyor. Eğitim corpus'unda 'matematik soru-cevap pattern'i' var ama gerçek hesaplama yok.

1.2 GSM8K benchmark — 2021 alarmı#

2021'de Karl Cobbe ve OpenAI ekibi GSM8K veri setini yayınladı: 8.500 ilkokul-orta seviye matematik problemi.

GPT-3 (175B) accuracy: ~%5. Yani 100 problemden sadece 5'ini çözüyor.

Karşılaştırma: ilkokul 4. sınıf öğrencisi yaklaşık %50.

Bu acı bir gerçek: 175 milyar parametreli model, 10 yaşındaki çocuğun matematiğinin yanından geçemiyor.

1.3 'Few-shot prompting' yetmedi#

2020-2021'de standart yaklaşım: 'few-shot prompting'. Modele 3-5 örnek matematik problemi ver, sonra yenisini sor. GPT-3 örnekleri 'taklit ediyor', ama hâlâ hata yapıyor.

Çünkü modeller örneklerdeki mantığı değil, formatı taklit ediyordu.

1.4 Niye böyle?#

Teori: LLM'lerin pre-training amacı next token prediction. Bu, 'verilen context'in en olası devamını tahmin etmek'. Matematik problem çözmek için: hesap, akıl yürütme, ara adımlar gerekli. Ama LLM 'her cevabı bir token' olarak görüyor — ara adımları üretmiyor.

Bu sınır, 'reasoning' sorununu doğurdu.

2-3. Wei vd. 2022 — Chain-of-Thought Devrimi#

2.1 Paper künyesi#

'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models' Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou Google Brain, NeurIPS 2022

İlk submission: Ocak 2022. Yayın: Mayıs 2022. NeurIPS sunum: Aralık 2022.

2.2 Fikrin doğuşu#

Wei ve ekibi GPT-3'ün davranışını gözlemliyor. Bir gün şunu fark ediyorlar:

Few-shot prompt (sadece soru-cevap çiftleri):

Q: Mağazada 5 kalem var. 3 kalem daha geliyor. Toplam kaç?
A: 8

Q: 23 kalem var. 7 geliyor. 5 satılıyor. Kaç kalem?
A: ?

GPT-3: 'A: 24' (yanlış)

Chain-of-Thought prompt (cevaba ara adımlar dahil):

Q: Mağazada 5 kalem var. 3 kalem daha geliyor. Toplam kaç?
A: Mağazada 5 kalem vardı. 3 yeni geldi. Toplam 5 + 3 = 8 kalem.

Q: 23 kalem var. 7 geliyor. 5 satılıyor. Kaç kalem?
A: ?

GPT-3: 'A: Mağazada 23 kalem vardı. 7 yeni geldi, toplam 30 oldu. Sonra 5 satıldı, geriye 30 - 5 = 25 kaldı.' (doğru!)

2.3 Sonuçlar — 'kötüden olağanüstüye'#

GSM8K benchmark:

GPT-3 standard prompt: %18
GPT-3 + CoT prompt: %57 (3× artış)
PaLM 540B + CoT: %78

Benzer iyileşmeler her benchmark'ta. Mantık problemleri, soyut akıl yürütme, common sense — her yerde.

2.4 'Sihrin' anlamı#

Wei vd. CoT'un emergent ability olduğunu kanıtladı. Yani:

Küçük modellerde (GPT-2, GPT-3 small): CoT işe yaramıyor
Büyük modellerde (GPT-3 175B, PaLM 540B): CoT dramatic etki
Eşik: ~100B parametre civarında

Bu, AI tarihinin önemli bir gözlemi: bazı yetenekler scale'de aniden ortaya çıkıyor.

3.1 Niye 'düşünmek' işe yarar?#

Bilişsel sezgi:

(a) Token'lar 'düşünce' birimi: model her token'da hesaplama yapar (forward pass). 'Düşünce zinciri' uzadıkça, daha çok hesaplama, daha çok 'analiz'.

(b) Ara adımlar yanılgı azaltır: kompleks problemi parçalara böl, her parça daha kolay. Hata olasılığı azalır.

(c) Self-consistency potansiyeli: aynı problemi farklı yollardan çöz, sonuçları karşılaştır.

(d) Self-correction potansiyeli: ara adım yanlışsa, model sonraki adımda fark edebilir.

3.2 İnsan analoji#

İnsan da matematik problemi çözerken kafadan yapmıyor — kağıda yazıyor, ara adımları takip ediyor. CoT, LLM'e bunu öğretiyor.

Ma Türkçe deyim: 'Kağıt kalem hakkı kuvvetlendirir.' Burada 'kağıt' = CoT tokenları.

3.3 Sınırı#

CoT prompting bir trick. Model'in iç davranışını değiştirmiyor, sadece output formatını değiştiriyor. Eğitim ile kazanılmış 'reasoning ability' yok — sadece pattern reproduction.

Bu sınır, sonraki paper'lara ve nihayetinde o1'e yol açacak.

4-6. Self-Consistency, Tree of Thoughts, Reflexion#

4.1 Wang vd. 2022 — Self-Consistency#

'Self-Consistency Improves Chain of Thought Reasoning in Language Models' Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed H. Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou Google Brain, ICLR 2023

Fikir: aynı soruyu birden fazla kez sor (farklı temperature ile farklı 'düşünce zincirleri'). En çok tekrarlanan cevabı seç.

GSM8K:

CoT (tek deneme): %57
CoT + Self-Consistency (5 deneme, çoğunluk): %74
40 deneme: %77

Niye işe yarıyor: 'wisdom of crowds'. Tek yanlış muhakeme zinciri olabilir; 5'inin çoğunluğu doğruyu bulur.

Maliyet: 5× compute. Self-consistency 'ucuz' bir trick değil. Ama ilk 'test-time compute scaling' örneği — daha çok hesaplama = daha iyi cevap.

5.1 Yao vd. 2023 — Tree of Thoughts (ToT)#

'Tree of Thoughts: Deliberate Problem Solving with Large Language Models' Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Tom Griffiths, Yuan Cao, Karthik Narasimhan Princeton + Google DeepMind, NeurIPS 2023

CoT'tan bir adım öteye: zincirler yerine ağaç. Her düşünce adımında farklı alternatifler üret, hangisi umut verici, ona dallan.

Bilgisayar bilim klasiği: depth-first search, breadth-first search, beam search.

Game of 24 (4 sayıdan 24'e ulaşan denklem):

CoT: %4 başarı
ToT: %74 başarı
(model: GPT-4)

İnanılmaz iyileşme — ama maliyet 100×+ (binlerce token üretiyor her soruda).

ToT'un öğrettiği: 'düşünmek' lineer değil, arama gibi yapılmalı. Bu, o1'in temellerinden biri.

6.1 Shinn vd. 2023 — Reflexion#

'Reflexion: Language Agents with Verbal Reinforcement Learning' Noah Shinn, Federico Cassano, Beck Labash, Ashwin Gopinath, Karthik Narasimhan, Shunyu Yao Princeton, NeurIPS 2023

Fikir: model yanlış cevap verdiğinde, kendi hatasını gözlemleyip stratejisini güncellemeli.

Protokol:

Model cevap verir
Cevap test edilir (matematik için: hesaplama, kod için: testler)
Test başarısızsa: model 'reflection' yazıyor ('Hatam buradaydı...')
Reflection prompt'a eklenir, model yeniden dener
Tekrar et

HumanEval kod benchmark:

GPT-4 (tek deneme): %66
GPT-4 + Reflexion (3 deneme): %88

Reflexion 'reinforcement learning'in light versionu — gerçek RL değil, prompt-based feedback loop. Ama prensip aynı.

6.2 Trio'nun ortak teması#

CoT, Self-Consistency, ToT, Reflexion — hepsi test-time compute kullanıyor. Yani:

Model'i değiştirme (eğitim yok)
Inference'ta daha çok çalış (compute harca)
Karşılığında: daha iyi sonuç

Bu, yeni bir scaling boyutunu açtı. Pre-training compute (scaling laws) + test-time compute (yeni boyut).

7-10. 'Strawberry'den o1'e — Kapalı Kapılar Ardındaki Devrim#

7.1 2023 — yaygın söylenti#

2023 ortasından itibaren OpenAI içinden sızıntılar: 'Q*' (Q-star) isimli bir proje var. Reasoning üzerinde çalışılıyor. AGI'a yakınız diyenler var.

Kasım 2023: Sam Altman'ın kısa görevden alınması skandalı. Bazı kaynaklar Q* projesi ile ilişkilendirdi (kanıtlanmamış).

2024 başı: 'Strawberry' proje kod adı sızdı. Yeni model üzerinde çalışılıyor.

Tüm bu süre boyunca kimse detay bilmiyor. Ne mimari, ne eğitim yöntemi.

7.2 Process Reward Modeller — bir önbilgi#

2023 boyunca açık-kaynak community de bağımsız olarak benzer fikirlere ulaştı:

'Let's Verify Step by Step' (Lightman vd., OpenAI, Mayıs 2023):

Outcome reward (sadece son cevap): %71 GSM8K
Process reward (her ara adım): %78 GSM8K

'Process Reward Model' (PRM): her reasoning adımına ayrı reward ver. Eğitim sırasında model 'sadece son cevap doğru olsun' değil, 'her adım mantıklı olsun' diye optimize ediliyor.

Bu, sonra o1'in temellerinden biri olacak.

8.1 12 Eylül 2024 — o1-preview lansman#

Perşembe sabahı OpenAI blog post: 'Learning to Reason with LLMs'

İlk paragraf: 'We're introducing o1, a new series of AI models designed to spend more time thinking before they respond. Like a human, these models can reason through complex tasks and solve harder problems than previous models in science, coding, and math.'

İlk testler şok:

AIME 2024 matematik olimpiyatı:
- GPT-4o: %12
- o1-preview: %74
- o1 (full): %83 (sonraki lansman)
Codeforces:
- GPT-4o: 11. percentile (kötü programcı)
- o1: 89. percentile (uzman programcı seviyesi)
PhD-level science (GPQA):
- GPT-4o: %39
- o1: %78 (PhD seviyesinde)

8.2 Niye o1 farklı?#

OpenAI blog post'undan ipuçları:

'o1 models are trained with reinforcement learning to perform complex reasoning.'
'o1 thinks before it answers — it produces a long internal chain of thought before responding.'
'Performance consistently improves with more reinforcement learning (train-time compute) and with more time spent thinking (test-time compute).'

Yeni paradigma: model eğitildi uzun reasoning chain'leri üretmeye. CoT prompting değil — modelin iç davranışı.

9.1 o1'in mimari hipotezleri (kanıtlanmamış)#

OpenAI mimariyi açıklamadı. Spekülasyonlar:

Hipotez A: PPO-tarzı RL ile reasoning chain'ler eğitildi. Model uzun chain üretti, ödül 'doğru cevap mı'. Self-play / search ile.

Hipotez B: Process Reward Model (PRM) eğitildi her ara adıma reward verdi. RL ile model 'doğru reasoning chain'leri' öğrendi.

Hipotez C: Monte Carlo Tree Search (MCTS) — model birden çok chain üretiyor, hangisi en iyi 'puanlanıyor' (PRM ile), seçiliyor. AlphaGo-tarzı.

En olası: A + B + C kombinasyonu.

10.1 'Hidden reasoning tokens'#

o1'in en tartışmalı özelliği: kullanıcı reasoning tokenları görmüyor. Sadece final cevap.

Niye?

IP koruma (rakipler taklit etmesin)
Safety (model 'kötü düşünceleri' özgürce yazsın, kullanıcıya filtrelenmiş sonuç gitsin)
Pricing (reasoning tokens da ücretlendiriliyor — model ne kadar düşündüğünü user görmeden)

Kritikler: 'AI safety için tehlikeli — modelin niye böyle düşündüğünü göremezsek nasıl güvenebiliriz?'

Bu tartışma 2025'te devam ediyor.

11-13. DeepSeek-R1, Test-Time Compute, Türkçe#

11.1 20 Ocak 2025 — DeepSeek-R1#

Çinli startup DeepSeek 4 ay sonra cevap verdi: R1, tamamen açık, paper yayınlandı, ağırlıklar HuggingFace'te.

Kalite o1-preview ile benzer (bazı testlerde aynı, bazılarında biraz altta/üstte). Maliyet API olarak o1'in %5'i. Self-host edilebilir.

Detay Modül 15.5'te işlendi. Burada özet:

GRPO algorithm (PPO sadeleştirilmesi)
4 aşama: R1-Zero (sıfır SFT) → Cold Start → Reasoning RL → Distill
'Aha moments' fenomeni — model kendiliğinden 'düşünüp tekrar bakma' davranışı geliştiriyor

R1'in tarihsel önemi: kapalı (o1) vs açık (R1) yarışında, açıklığın bu kadar yakın olduğunu gösterdi. AI demokrasisi için dönüm noktası.

12.1 Test-time compute yeni scaling boyutu#

Kaplan vd. 2020 scaling laws (Modül 12): pre-training compute → loss.

Now: test-time compute → quality. Daha çok düşün → daha iyi cevap.

İki boyut ayrı:

Train-time compute: model'i eğitirken harcanan FLOPs. Çoğu projede sabit.
Test-time compute: model inference'ta her sorgu için harcadığı FLOPs. Variable.

o1 test-time compute'u dramatik şekilde artırıyor: GPT-4o cevap için ~500 token, o1 cevap için ~10,000 reasoning token (görünmüyor) + 500 cevap.

20× test-time compute artışı. Karşılığında 4-6× kalite artışı. Trade-off değerli — özellikle matematik, kod, mantık için.

13.1 Türkçe için reasoning ne ifade ediyor?#

Türkçe matematik corpus'u sınırlı: pre-training'de Türkçe matematik problemleri az. Bu, Türkçe reasoning'in zayıf olmasına yol açıyor.

TR-MATH benchmark (hipotetik):

GPT-4o Türkçe: ~%8
GPT-4o İngilizce: %12
Türkçe ek %30 daha kötü.

o1 Türkçe: tahmini %60 (vs İngilizce %83). Hâlâ Türkçe penalty var ama hız çok düştü.

Pratik öneriler:

Türkçe matematik task'ı için: o1 veya R1-Distill kullan, GPT-4o yetersiz.
Türkçe çevirili problem: 'çevir → İngilizce çöz → Türkçe cevapla' bazen daha iyi (cross-lingual reasoning).
Türkçe matematik corpus'u biriktir (YKS, KPSS, üniversite sınavları) — gelecek reasoning model'lerini Türkçe için fine-tune et.

14.1 Egzersizler#

E1. GSM8K %5'ten %83'e nasıl çıktı? 7 yıllık yolculuğu 5 dönüm noktasıyla özetle.

E2. 'Test-time compute' yeni scaling boyutu. Bu, daha önce niye yoktu? 2024'te ortaya çıkmasının üç sebebi.

E3. CoT prompting bir 'trick' — Wei 2022. o1 modelinin eğitildiği. İkisi arasındaki fark neden bu kadar büyük? Bilişsel + matematiksel argüman.

E4. Tree of Thoughts 'Game of 24' problemde %74. Maliyet 100×+. Bu trade-off ne zaman değer?

E5. Reflexion 'verbal RL' — gerçek RL değil. Niye işe yarıyor? Production'da kullanılabilir mi?

E6. 'Strawberry' projesinin Q* ile ilişkisi gerçekten var mıydı? Kanıtların ne, spekülasyon ne?

E7. o1 reasoning tokens'larını gizliyor. AI safety açısından bu doğru mu yanlış mı? Üç paydaş açısından değerlendir.

E8. DeepSeek-R1 'açık' diye övüldü. Ama paper'da bile bazı bilgiler eksik. R1 ne kadar açık, ne kadar 'açıklık görüntüsü'?

E9. Türkçe matematik corpus'u nasıl toplanır? Kalite filtreleri ne olmalı?

E10. 2030'a kadar 'reasoning model'ler nereye gider? 3 senaryo yaz.

✅ Ders 17.1 Özeti — Reasoning Tarihi

GSM8K %5'ten %95+'a çıkış: 7 yıllık dönüşüm. Dönüm noktaları: Wei 2022 CoT prompting (%5→%57), Wang 2022 self-consistency, Yao 2023 Tree of Thoughts, Shinn 2023 Reflexion — hepsi 'prompting tricks'. 12 Eylül 2024 OpenAI o1: ilk eğitilmiş reasoning model. Test-time compute yeni scaling boyutu — pre-training compute'tan ayrı. 20 Ocak 2025 DeepSeek-R1: açık karşılık, GRPO + 4 aşama. Türkçe için reasoning: corpus sınırlı, English'ten geride. Pratik çözüm: o1/R1 kullanım + Türkçe matematik corpus topla. Sonraki ders: o1 mimarinin spekülatif analizi + R1 GRPO'nun matematik anatomisi.

Sonraki Ders: Test-Time Compute Matematik#

Ders 17.2'de test-time compute scaling matematiği. Snell vd. 2024 'Scaling LLM Test-Time Compute Optimally' paper'ı — bu yeni boyutta scaling laws ne? Tek bir cevaba 10K reasoning token harcamak değer mi? Multi-sample (self-consistency) vs deep thinking trade-off'ları. Tek soruda matematik.

Frequently Asked Questions

**Still used**, but context-dependent: **CoT still valuable scenarios**: - API cost critical (o1 5-10× more expensive) - Latency matters (o1 30-60sec, GPT-4o + CoT 2-3sec) - Working with open-source models (Llama-3, etc.) — no o1 - Reasoning quality sufficient (not math, just chat) **o1/R1 better**: - Complex math, code - Long planning tasks - Cost/latency irrelevant, quality priority In practice: most Turkish SaaS still use CoT prompting (GPT-4o + 'think step by step'). o1 is niche.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

Pillar topics this article maps to

Pillar Topic

Prompt and Context Engineering

Prompt engineering is the applied discipline of designing instructions, examples, context and output controls so that an LLM produces consistent, accurate and cost-efficient outputs.