Should I prefer R1-distilled-7B or Llama-3-Instruct-8B for Turkish?

Depends on use-case: **Reasoning-heavy tasks** (math, code, logic): R1-Distill-Qwen-7B **much better**. Llama-3-8B-Instruct limited for math (~%5 AIME). R1-Distill-7B ~%30+. **General chat, help** (Turkish chatbot): Llama-3-8B-Instruct **better**. RLHF refined, dialog quality high. R1 reasoning-biased, overkill for simple chat. **Hybrid**: use both with **routing**: small classifier decides which model to send user query to. 'Math or chat?' Route accordingly. Practical: for Turkish general chatbot use Llama-3-8B-Instruct + Turkish DPO. For reasoning specifically R1-Distill-Qwen-32B (7B limited).

How much data needed for reasoning fine-tune with R1?

Minimum effective amount: **5K reasoning examples**. Structure: ``` { 'problem': 'A problem...', 'reasoning_chain': ' Let me think step by step... ', 'answer': ' Final answer ' } ``` **Difficulty for Turkish**: quality Turkish reasoning corpus scarce. Sources: - TÜBİTAK olympiad problems + solutions - Turkish math textbooks - University exam archives (YKS, KPSS exam types) - Manual creation (translate with ChatGPT/Claude, human verify) **Cost**: 5K quality examples ~$500-2000 (labeling + verification). **Training**: SFT + DPO on R1-Distill. 1 H100, 24 hours, $60. Total: ~$1000.

Are 'aha moments' really emergent, or do they come from pre-training data?

Debated. Two camps: **Emergent camp**: 'These patterns emerge from RL training dynamics. Pre-training has 'I'm thinking' words but 'wait, let me reconsider' style meta-cognitive patterns **aren't planned**.' **Data-driven camp**: 'Pre-training data is 100T+ tokens. These patterns exist in forum discussions, academic papers, problem-solving videos. Model **knows** them, RL just **triggers**.' **Truth likely in middle**: pattern **seeds** in pre-training, **amplification** in RL. Not pure emergent or pure data, but interaction of both. Research open: which patterns come how much from pre-training vs RL? Mechanistic interpretability field is working on these questions.

GRPO and Reasoning RL: Inside DeepSeek-R1 — From Group-Based Advantage Estimation to Process Reward

GRPO (Group Relative Policy Optimization): DeepSeek's elegant simplification of PPO. Advantage estimation without value function, group comparison, computational efficiency. Anatomy of DeepSeek-R1 paper (Jan 2025), RL ordering of reasoning training, 'aha moments' phenomenon, role of process reward models, o1 vs R1 architecture comparison, practical notes for Turkish reasoning model.

Şükrü Yusuf KAYA

75 min read

5/13/2026

Advanced

GRPO ve Reasoning RL: DeepSeek-R1'in İçi — Grup-Bazlı Avantaj Tahmininden Process Reward'a

🧬 GRPO — RL'in Geleceği, Hesaplı Şımarması

20 Ocak 2025. DeepSeek-AI 'R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning' paper'ını yayınladı. OpenAI o1'in 4 ay sonrası. Ama farklıydı: tam açık. Ağırlıklar HuggingFace'te, paper detaylı, kod GitHub'da. Reasoning model dünyasına demokrasi geldi. Altta yatan algoritma: GRPO (Group Relative Policy Optimization) — PPO'nun bir varyantı, value function'sız. Daha basit, daha verimli, daha az hyperparametre. R1 hâlâ DeepSeek tarafından eğitilmiş bir model — kullanmak veya 'distilled' küçük varyantları self-host etmek mümkün. Bu ders GRPO'nun matematiğini, R1'in 'aha moments' fenomenini, Türkçe için kullanım pratisyenliğini işliyor. RLHF müfredatının en güncel araştırma yüzü.

Bu Derste Neler Var? (11 Bölüm)#

GRPO doğuşu — DeepSeek matematik intuition'u
PPO ile fark — value function'ı nasıl kaldırdı?
Group advantage — örnek karşılaştırma matematiği
GRPO loss — tam formül
DeepSeek-R1 paper'ı — Ocak 2025
Reasoning eğitim sıralaması — Cold start → R1
'Aha moments' — model kendiliğinden zincir-of-thought'u keşfediyor
Process reward vs outcome reward
o1 vs R1 karşılaştırma — kapalı vs açık reasoning
Türkçe reasoning — R1-distilled kullanım
Egzersizler ve sezgi soruları

1-4. GRPO Matematik#

1.1 DeepSeek'in ihtiyacı#

2024 ortası. DeepSeek-AI ekibi R1 üzerinde çalışıyor. PPO denediler — çalışıyor ama:

Value function eğitimi pahalı (extra forward pass)
Value head + policy head birbirini bozuyor (training instability)
Reward sparse — uzun reasoning chain'lerde value function tahmini zor

Çözüm fikri: 'Value function'ı tamamen kaldır. Advantage'ı grup karşılaştırması ile hesapla.'

1.2 GRPO'nun temel fikri#

PPO: her token'da advantage = R_t - V(s_t) (value function tahmin)

GRPO: 'aynı prompt'tan G yanıt üret, her yanıt için ham reward al, yanıt seviyesinde gruba göre normalize et'.

For each prompt p:
  Yanıtlar: y_1, y_2, ..., y_G (G örnek, farklı temperature)
  Reward: r_1, r_2, ..., r_G (RM tarafından puanlanmış)
  Group statistics:
    μ = mean(r_1, ..., r_G)
    σ = std(r_1, ..., r_G)
  Advantage:
    A_i = (r_i - μ) / σ

Yani: bir yanıt grup ortalamasından yüksek mi (pozitif advantage), düşük mü (negatif). Standardize edildi (z-score).

1.3 Niye 'relative' işe yarıyor?#

Aynı prompt'a yanıtlar comparable (aynı zorlukta).
Mutlak reward'tan göreceli reward'a geçiş → varyans azalır.
Value function'ın temel görevi (baseline) buydu — GRPO bunu grup ortalamasıyla yapıyor.

1.4 GRPO loss#

L_GRPO = -E_p [ Σ_i Σ_t min(r_t · A_i, clip(r_t, 1-ε, 1+ε) · A_i) ]

r_t = π_θ(y_i^t) / π_old(y_i^t) — importance ratio (PPO ile aynı)
A_i — yanıt seviyesinde grup-relative advantage
Clipping (PPO ile aynı)

Fark: A_t (token-level) yerine A_i (response-level). Ve value function tahmini yerine grup ortalaması.

2.1 Computational verimlilik#

PPO:

Per step: forward (policy) + forward (value) + forward (ref) = 3 forward
- RM forward (4 toplam)

GRPO:

Per step: forward (policy) + forward (ref) = 2 forward
- G adet generation + G adet RM forward (paralel)

GRPO her step daha az parametre eğitiyor (value head yok). Memory %15-20 daha az.

2.2 Hyperparametre azalması#

PPO: ~12 hyperparametre (clip, KL, value loss weight, entropy, GAE λ, γ, ...) GRPO: ~7 hyperparametre (clip, KL, group size G, ...)

Deneysel ayarı kolaylaştırıyor.

5-7. DeepSeek-R1 Paper Anatomi#

5.1 Paper künyesi#

'DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning' DeepSeek-AI arXiv: 2501.12948 — 20 Ocak 2025

5.2 R1'in dört aşaması#

Aşama 1: R1-Zero

DeepSeek-V3 base modelle başla (671B param, 37B active MoE)
SFT yok. Doğrudan RL (GRPO) ile eğit.
Reward: matematik doğruluğu + kod testi pass + format compliance
Sonuç: AIME 2024'te %15.6 → %71.0! Sıfır SFT, sadece RL.

Aşama 2: R1 Cold Start

R1-Zero'nun bir sorunu: çıktı okumayı zorlaştıran 'düşünce karmaşası' var.
Çözüm: 'cold start' verisi topla — 1000-2000 yüksek-kaliteli reasoning örneği. Bunla SFT yap.

Aşama 3: Reasoning-oriented RL

Cold-started model üzerinde tekrar GRPO
Çoğunluk verisi matematik + kod (objective reward)
Bir miktar genel veri (subjektif reward, model-based)
Düşünce sürecinin format compliance'i ödüllendiriliyor:
<think>...</think><answer>...</answer>

Aşama 4: Distillation

R1'i Llama-3, Qwen tabanlı modellere distill et
7B, 32B, 70B varyantlar
Açık ağırlıklarla yayınla

6.1 'Aha moments' fenomeni#

R1-Zero'nun (sıfır SFT, sadece RL) eğitimi sırasında DeepSeek ekibi şaşırtıcı bir şey gözledi: model kendiliğinden 'durup düşünme', 'farklı yaklaşım denerim', 'tekrar kontrol edeyim' gibi cümleler üretmeye başladı.

Paper'da örnek (Türkçe çeviri):

Problem: x² + 4x + 4 = 0 çöz.
R1-Zero: 'x'i yalnız bırakmak için adım atayım. x² + 4x = -4. 
          ... Hmm, bekle. Bu kareli forma uyar mı? 
          (x + 2)² = x² + 4x + 4 = 0. 
          O zaman x + 2 = 0, yani x = -2.
          Tekrar kontrol edeyim: (-2)² + 4(-2) + 4 = 4 - 8 + 4 = 0 ✓.'

Bunu kimse modele öğretmedi. RL ödülünün etkisiyle model bu davranışı keşfetti. AI tarihinin en şaşırtıcı momentlerinden.

6.2 Niye 'aha moment'lar oluşuyor?#

Hipotez: matematik doğruluğu ödülü uzun reasoning chain'leri doğal olarak seçtiriyor. Kısa cevaplar sıklıkla yanlış → düşük reward. Uzun, dikkatli reasoning daha doğru → yüksek reward. RL bu pattern'i pekiştiriyor.

Başlangıçta rastgele bir reasoning chain üretiliyor; ödüllendirilenler güçleniyor; en faydalı kalıplar ('kontrol edeyim', 'farklı yol denerim') kuvvetleniyor.

Bu 'emergent capability' — büyük modellerin scale'de ortaya çıkardığı, beklenmedik beceriler.

7.1 Process reward vs outcome reward#

İki tip reward tasarımı:

Outcome reward (R1'in baz aldığı): sadece son cevap doğru mu?

Matematik: nihai cevap doğru mu (sayı eşleştirme)?
Kod: testler geçti mi?
Hızlı, basit, ucuz
Zayıf: hatalı reasoning hâlâ doğru cevaba ulaşabilir (model 'sembolik' düşünmeyi öğrenmez)

Process reward (PRM, process reward model): her reasoning adımı doğru mu?

Her adım için ayrı model değerlendirmesi
Pahalı, karmaşık
Güçlü: hatalı yolu da cezalandırır, sembolik anlam öğretir

R1 paper'ı: PRM denediler ama 'reward hacking' problemleri yüzünden vazgeçtiler. Outcome reward + uzun reasoning chain yeterli oldu.

2025'in açık problemi: PRM'leri stabilize etmek. Bu alanda aktif araştırma var.

9-10. o1 vs R1 + Türkçe#

9.1 o1 vs R1 — mimari farklar#

Özellik	OpenAI o1	DeepSeek-R1
Açıklık	Kapalı (sadece API)	Tam açık (ağırlık + paper)
Reasoning görünür	Hayır (kullanıcı görmez)	Evet ( `<think>` tag'leri ile)
Algoritma	Bilinmiyor (PPO benzeri tahmin)	GRPO
SFT	Var (tahmin)	R1-Zero: yok. R1: cold start var
Aşama sayısı	Bilinmiyor	4 (Zero → Cold → RL → Distill)
AIME 2024	~89%	~80%
Self-host	Yok (sadece API)	Evet (distilled 7B-70B)
Lisans	Closed	MIT (R1) / Apache 2.0 (distilled)

9.2 R1'in kazançları#

R1, AI tarihinde 'kapalı vs açık' tartışmasında dönüm noktası:

4 ay geride OpenAI yetişti (o1 Eylül 2024, R1 Ocak 2025)
Tam açık → akademik araştırma fırlama
Distilled küçük modeller → herkes self-host edebilir

Bu DeepSeek'i AI dünyasının en saygı duyulan açık-kaynak lab'ı yaptı.

10.1 Türkçe reasoning model'i#

Strateji 1: R1-distilled kullan

HuggingFace'ten
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
(veya 14B, 32B) indir
Türkçe prompt ile dene — Türkçe quality genelde iyi (Qwen base multilingual)
Self-host vLLM ile (Modül 16.1)

Strateji 2: R1'i Türkçe data ile fine-tune et

5-10K Türkçe reasoning örneği topla (matematik, mantık, kod)
DPO ile fine-tune et (Modül 15.4)
Türkçe-specific reasoning patterns iyileştirir

Strateji 3: Kendin GRPO eğit

Llama-3-8B + Türkçe matematik corpus + GRPO
8× H100, 1-2 hafta, $1000-3000
En pahalı ama tam kontrol

10.2 Pratik karşılaştırma (Türkçe matematik problem'i)#

Model	AIME 2024 Türkçe çevrilmiş	Maliyet
Llama-3-8B-Instruct (base)	%5	Bedava (open)
Llama-3-8B + Türkçe DPO	%8	$50
R1-Distill-Qwen-7B	%30	Bedava (open)
R1-Distill-Qwen-32B	%55	Bedava (open)
o1-mini (API)	%60	$$$$
o1-full (API)	%80	$$$$$

Türkçe için: R1-Distill-32B sweet spot — open, self-hostable, kalite o1-mini'ye yakın.

10.3 Türkçe için ek dikkat#

R1 düşünce çıktısı bazen İngilizce karışıyor (model multilingual). Sıkı sıkıya Türkçe istiyorsan: 'Tüm düşünceni Türkçe yap' system prompt'u ile zorla.
Matematik notasyonu (
x²
,
√
, integral) Türkçe ile bazı yerlerde garip görünebilir — model genelde standart matematik notasyonu kullanır.
Türkçe matematik corpus'u (TUBİTAK olimpiyat soruları, üniversite sınav arşivleri) Türkçe reasoning fine-tune için harika kaynak.

11. Egzersizler#

E1. GRPO 'group advantage' kullanıyor — niye PPO'nun value function'ından daha basit? İki argüman ver.

E2. R1-Zero (sıfır SFT) AIME'da %71 alıyor. Bu bilim kurgu gibi — niye işe yarıyor? RL'in 'keşif' yeteneğiyle ilişkilendir.

E3. Process reward vs outcome reward — Türkçe matematik için hangisi tercih edilmeli? Sınırları/tuzakları açıkla.

E4. GRPO eğitiminde grup size G'yi 8'den 32'ye çıkarırsan ne değişir? Avantajları ve dezavantajları.

E5. R1 paper'ı 'aha moments'ı vurguluyor. Bu emergent davranış mı, yoksa data biasından mı kaynaklanıyor? Argüman ver.

E6. o1 reasoning'i kullanıcıya göstermiyor (gizli). R1 gösteriyor. Hangisi 'doğru tasarım'? Üç farklı paydaş açısından (kullanıcı, geliştirici, regülatör) değerlendir.

E7. Türkçe için R1-distilled-7B vs 32B seçimi: hangi senaryolarda hangisi mantıklı?

E8. PRM (process reward model) 'reward hacking'e açık dedik. Hacking örneği ver — model PRM'i nasıl kandırabilir?

E9. GRPO ile DPO arasındaki fark ne? GRPO 'online DPO' diyebilir miyiz? Niye/değil?

E10. 2026 yılı: hipotetik olarak R2 yayınlandı. Bu paper'ın muhtemelen ne yeni getireceğini tahmin et (3 özellik).

✅ Ders 15.5 Özeti — GRPO ve Reasoning RL

GRPO (Group Relative Policy Optimization): DeepSeek'in PPO'ya getirdiği elegant sadeleştirme. Value function ortadan kalkıyor — advantage grup ortalama/std normalizasyonuyla hesaplanıyor. Memory %15-20 daha az, hyperparametre %50 daha az. DeepSeek-R1 paper (Ocak 2025): R1-Zero (sıfır SFT, sadece RL) AIME 2024'te %71. 'Aha moments' — model kendiliğinden 'durup düşünme' davranışı keşfediyor (emergent capability). 4-aşama R1 pipeline'ı: Zero → Cold Start → Reasoning RL → Distill. R1 fully open, o1 kapalı. R1-distilled 7B-70B varyantları self-host. Türkçe için strateji: R1-Distill-Qwen-32B + (gerekirse) Türkçe DPO. AIME Türkçe %55 — o1-mini civarında. Sonraki ders capstone: kendi Türkçe DPO modelin sıfırdan üretim.

Sonraki Ders: Capstone — Türkçe DPO Üretim#

Ders 15.6'da Modül 15'in capstone'u: 5K Türkçe karşılaştırma verisini topla, Llama-3-8B-Instruct üzerine DPO ile fine-tune et, MT-Bench-TR ile evaluate et, HuggingFace Hub'da yayınla. Müfredatın altıncı production artefakt'ı. Modül 6.10 TurkTokenizer-tr, Modül 7.6 Semantic Search, Modül 11.3 Mini Llama Pretrain, Modül 14.3 SFT, Modül 16.2 ChatGPT klonu ile birlikte 6 'gerçek dünya' eseri.

Frequently Asked Questions

Empirically: **comparable or slightly better** in specific setups, but evidence not yet mature. GRPO advantages: - Fewer parameters (no value head) - Fewer hyperparameters - Computational efficiency - More stable in sparse reward scenarios (like reasoning) GRPO disadvantages: - Need to generate G samples per group (G generations per step) - Superiority over PPO not clear in dense reward scenarios - Not yet widely used — limited community experience 2025 trend: GRPO **preferred for reasoning training**, PPO/DPO still dominant for classical RLHF.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...