GRPO and Reasoning RL: Inside DeepSeek-R1 — From Group-Based Advantage Estimation to Process Reward
GRPO (Group Relative Policy Optimization): DeepSeek's elegant simplification of PPO. Advantage estimation without value function, group comparison, computational efficiency. Anatomy of DeepSeek-R1 paper (Jan 2025), RL ordering of reasoning training, 'aha moments' phenomenon, role of process reward models, o1 vs R1 architecture comparison, practical notes for Turkish reasoning model.
Şükrü Yusuf KAYA
75 min read
Advanced🧬 GRPO — RL'in Geleceği, Hesaplı Şımarması
20 Ocak 2025. DeepSeek-AI 'R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning' paper'ını yayınladı. OpenAI o1'in 4 ay sonrası. Ama farklıydı: tam açık. Ağırlıklar HuggingFace'te, paper detaylı, kod GitHub'da. Reasoning model dünyasına demokrasi geldi. Altta yatan algoritma: GRPO (Group Relative Policy Optimization) — PPO'nun bir varyantı, value function'sız. Daha basit, daha verimli, daha az hyperparametre. R1 hâlâ DeepSeek tarafından eğitilmiş bir model — kullanmak veya 'distilled' küçük varyantları self-host etmek mümkün. Bu ders GRPO'nun matematiğini, R1'in 'aha moments' fenomenini, Türkçe için kullanım pratisyenliğini işliyor. RLHF müfredatının en güncel araştırma yüzü.
Bu Derste Neler Var? (11 Bölüm)#
- GRPO doğuşu — DeepSeek matematik intuition'u
- PPO ile fark — value function'ı nasıl kaldırdı?
- Group advantage — örnek karşılaştırma matematiği
- GRPO loss — tam formül
- DeepSeek-R1 paper'ı — Ocak 2025
- Reasoning eğitim sıralaması — Cold start → R1
- 'Aha moments' — model kendiliğinden zincir-of-thought'u keşfediyor
- Process reward vs outcome reward
- o1 vs R1 karşılaştırma — kapalı vs açık reasoning
- Türkçe reasoning — R1-distilled kullanım
- Egzersizler ve sezgi soruları
1-4. GRPO Matematik#
1.1 DeepSeek'in ihtiyacı#
2024 ortası. DeepSeek-AI ekibi R1 üzerinde çalışıyor. PPO denediler — çalışıyor ama:
- Value function eğitimi pahalı (extra forward pass)
- Value head + policy head birbirini bozuyor (training instability)
- Reward sparse — uzun reasoning chain'lerde value function tahmini zor
Çözüm fikri: 'Value function'ı tamamen kaldır. Advantage'ı grup karşılaştırması ile hesapla.'
1.2 GRPO'nun temel fikri#
PPO: her token'da advantage = R_t - V(s_t) (value function tahmin)
GRPO: 'aynı prompt'tan G yanıt üret, her yanıt için ham reward al, yanıt seviyesinde gruba göre normalize et'.
For each prompt p: Yanıtlar: y_1, y_2, ..., y_G (G örnek, farklı temperature) Reward: r_1, r_2, ..., r_G (RM tarafından puanlanmış) Group statistics: μ = mean(r_1, ..., r_G) σ = std(r_1, ..., r_G) Advantage: A_i = (r_i - μ) / σ
Yani: bir yanıt grup ortalamasından yüksek mi (pozitif advantage), düşük mü (negatif). Standardize edildi (z-score).
1.3 Niye 'relative' işe yarıyor?#
- Aynı prompt'a yanıtlar comparable (aynı zorlukta).
- Mutlak reward'tan göreceli reward'a geçiş → varyans azalır.
- Value function'ın temel görevi (baseline) buydu — GRPO bunu grup ortalamasıyla yapıyor.
1.4 GRPO loss#
L_GRPO = -E_p [ Σ_i Σ_t min(r_t · A_i, clip(r_t, 1-ε, 1+ε) · A_i) ]
- r_t = π_θ(y_i^t) / π_old(y_i^t) — importance ratio (PPO ile aynı)
- A_i — yanıt seviyesinde grup-relative advantage
- Clipping (PPO ile aynı)
Fark: A_t (token-level) yerine A_i (response-level). Ve value function tahmini yerine grup ortalaması.
2.1 Computational verimlilik#
PPO:
- Per step: forward (policy) + forward (value) + forward (ref) = 3 forward
-
- RM forward (4 toplam)
GRPO:
- Per step: forward (policy) + forward (ref) = 2 forward
-
- G adet generation + G adet RM forward (paralel)
GRPO her step daha az parametre eğitiyor (value head yok). Memory %15-20 daha az.
2.2 Hyperparametre azalması#
PPO: ~12 hyperparametre (clip, KL, value loss weight, entropy, GAE λ, γ, ...)
GRPO: ~7 hyperparametre (clip, KL, group size G, ...)
Deneysel ayarı kolaylaştırıyor.
5-7. DeepSeek-R1 Paper Anatomi#
5.1 Paper künyesi#
'DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning'
DeepSeek-AI
arXiv: 2501.12948 — 20 Ocak 2025
5.2 R1'in dört aşaması#
Aşama 1: R1-Zero
- DeepSeek-V3 base modelle başla (671B param, 37B active MoE)
- SFT yok. Doğrudan RL (GRPO) ile eğit.
- Reward: matematik doğruluğu + kod testi pass + format compliance
- Sonuç: AIME 2024'te %15.6 → %71.0! Sıfır SFT, sadece RL.
Aşama 2: R1 Cold Start
- R1-Zero'nun bir sorunu: çıktı okumayı zorlaştıran 'düşünce karmaşası' var.
- Çözüm: 'cold start' verisi topla — 1000-2000 yüksek-kaliteli reasoning örneği. Bunla SFT yap.
Aşama 3: Reasoning-oriented RL
- Cold-started model üzerinde tekrar GRPO
- Çoğunluk verisi matematik + kod (objective reward)
- Bir miktar genel veri (subjektif reward, model-based)
- Düşünce sürecinin format compliance'i ödüllendiriliyor:
<think>...</think><answer>...</answer>
Aşama 4: Distillation
- R1'i Llama-3, Qwen tabanlı modellere distill et
- 7B, 32B, 70B varyantlar
- Açık ağırlıklarla yayınla
6.1 'Aha moments' fenomeni#
R1-Zero'nun (sıfır SFT, sadece RL) eğitimi sırasında DeepSeek ekibi şaşırtıcı bir şey gözledi: model kendiliğinden 'durup düşünme', 'farklı yaklaşım denerim', 'tekrar kontrol edeyim' gibi cümleler üretmeye başladı.
Paper'da örnek (Türkçe çeviri):
Problem: x² + 4x + 4 = 0 çöz. R1-Zero: 'x'i yalnız bırakmak için adım atayım. x² + 4x = -4. ... Hmm, bekle. Bu kareli forma uyar mı? (x + 2)² = x² + 4x + 4 = 0. O zaman x + 2 = 0, yani x = -2. Tekrar kontrol edeyim: (-2)² + 4(-2) + 4 = 4 - 8 + 4 = 0 ✓.'
Bunu kimse modele öğretmedi. RL ödülünün etkisiyle model bu davranışı keşfetti. AI tarihinin en şaşırtıcı momentlerinden.
6.2 Niye 'aha moment'lar oluşuyor?#
Hipotez: matematik doğruluğu ödülü uzun reasoning chain'leri doğal olarak seçtiriyor. Kısa cevaplar sıklıkla yanlış → düşük reward. Uzun, dikkatli reasoning daha doğru → yüksek reward. RL bu pattern'i pekiştiriyor.
Başlangıçta rastgele bir reasoning chain üretiliyor; ödüllendirilenler güçleniyor; en faydalı kalıplar ('kontrol edeyim', 'farklı yol denerim') kuvvetleniyor.
Bu 'emergent capability' — büyük modellerin scale'de ortaya çıkardığı, beklenmedik beceriler.
7.1 Process reward vs outcome reward#
İki tip reward tasarımı:
Outcome reward (R1'in baz aldığı): sadece son cevap doğru mu?
- Matematik: nihai cevap doğru mu (sayı eşleştirme)?
- Kod: testler geçti mi?
- Hızlı, basit, ucuz
- Zayıf: hatalı reasoning hâlâ doğru cevaba ulaşabilir (model 'sembolik' düşünmeyi öğrenmez)
Process reward (PRM, process reward model): her reasoning adımı doğru mu?
- Her adım için ayrı model değerlendirmesi
- Pahalı, karmaşık
- Güçlü: hatalı yolu da cezalandırır, sembolik anlam öğretir
R1 paper'ı: PRM denediler ama 'reward hacking' problemleri yüzünden vazgeçtiler. Outcome reward + uzun reasoning chain yeterli oldu.
2025'in açık problemi: PRM'leri stabilize etmek. Bu alanda aktif araştırma var.
9-10. o1 vs R1 + Türkçe#
9.1 o1 vs R1 — mimari farklar#
| Özellik | OpenAI o1 | DeepSeek-R1 |
|---|---|---|
| Açıklık | Kapalı (sadece API) | Tam açık (ağırlık + paper) |
| Reasoning görünür | Hayır (kullanıcı görmez) | Evet (<think> |
| Algoritma | Bilinmiyor (PPO benzeri tahmin) | GRPO |
| SFT | Var (tahmin) | R1-Zero: yok. R1: cold start var |
| Aşama sayısı | Bilinmiyor | 4 (Zero → Cold → RL → Distill) |
| AIME 2024 | ~89% | ~80% |
| Self-host | Yok (sadece API) | Evet (distilled 7B-70B) |
| Lisans | Closed | MIT (R1) / Apache 2.0 (distilled) |
9.2 R1'in kazançları#
R1, AI tarihinde 'kapalı vs açık' tartışmasında dönüm noktası:
- 4 ay geride OpenAI yetişti (o1 Eylül 2024, R1 Ocak 2025)
- Tam açık → akademik araştırma fırlama
- Distilled küçük modeller → herkes self-host edebilir
Bu DeepSeek'i AI dünyasının en saygı duyulan açık-kaynak lab'ı yaptı.
10.1 Türkçe reasoning model'i#
Strateji 1: R1-distilled kullan
- HuggingFace'ten (veya 14B, 32B) indir
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B - Türkçe prompt ile dene — Türkçe quality genelde iyi (Qwen base multilingual)
- Self-host vLLM ile (Modül 16.1)
Strateji 2: R1'i Türkçe data ile fine-tune et
- 5-10K Türkçe reasoning örneği topla (matematik, mantık, kod)
- DPO ile fine-tune et (Modül 15.4)
- Türkçe-specific reasoning patterns iyileştirir
Strateji 3: Kendin GRPO eğit
- Llama-3-8B + Türkçe matematik corpus + GRPO
- 8× H100, 1-2 hafta, $1000-3000
- En pahalı ama tam kontrol
10.2 Pratik karşılaştırma (Türkçe matematik problem'i)#
| Model | AIME 2024 Türkçe çevrilmiş | Maliyet |
|---|---|---|
| Llama-3-8B-Instruct (base) | %5 | Bedava (open) |
| Llama-3-8B + Türkçe DPO | %8 | $50 |
| R1-Distill-Qwen-7B | %30 | Bedava (open) |
| R1-Distill-Qwen-32B | %55 | Bedava (open) |
| o1-mini (API) | %60 | $$$$ |
| o1-full (API) | %80 | $$$$$ |
Türkçe için: R1-Distill-32B sweet spot — open, self-hostable, kalite o1-mini'ye yakın.
10.3 Türkçe için ek dikkat#
- R1 düşünce çıktısı bazen İngilizce karışıyor (model multilingual). Sıkı sıkıya Türkçe istiyorsan: 'Tüm düşünceni Türkçe yap' system prompt'u ile zorla.
- Matematik notasyonu (,
x², integral) Türkçe ile bazı yerlerde garip görünebilir — model genelde standart matematik notasyonu kullanır.√ - Türkçe matematik corpus'u (TUBİTAK olimpiyat soruları, üniversite sınav arşivleri) Türkçe reasoning fine-tune için harika kaynak.
11. Egzersizler#
E1. GRPO 'group advantage' kullanıyor — niye PPO'nun value function'ından daha basit? İki argüman ver.
E2. R1-Zero (sıfır SFT) AIME'da %71 alıyor. Bu bilim kurgu gibi — niye işe yarıyor? RL'in 'keşif' yeteneğiyle ilişkilendir.
E3. Process reward vs outcome reward — Türkçe matematik için hangisi tercih edilmeli? Sınırları/tuzakları açıkla.
E4. GRPO eğitiminde grup size G'yi 8'den 32'ye çıkarırsan ne değişir? Avantajları ve dezavantajları.
E5. R1 paper'ı 'aha moments'ı vurguluyor. Bu emergent davranış mı, yoksa data biasından mı kaynaklanıyor? Argüman ver.
E6. o1 reasoning'i kullanıcıya göstermiyor (gizli). R1 gösteriyor. Hangisi 'doğru tasarım'? Üç farklı paydaş açısından (kullanıcı, geliştirici, regülatör) değerlendir.
E7. Türkçe için R1-distilled-7B vs 32B seçimi: hangi senaryolarda hangisi mantıklı?
E8. PRM (process reward model) 'reward hacking'e açık dedik. Hacking örneği ver — model PRM'i nasıl kandırabilir?
E9. GRPO ile DPO arasındaki fark ne? GRPO 'online DPO' diyebilir miyiz? Niye/değil?
E10. 2026 yılı: hipotetik olarak R2 yayınlandı. Bu paper'ın muhtemelen ne yeni getireceğini tahmin et (3 özellik).
✅ Ders 15.5 Özeti — GRPO ve Reasoning RL
GRPO (Group Relative Policy Optimization): DeepSeek'in PPO'ya getirdiği elegant sadeleştirme. Value function ortadan kalkıyor — advantage grup ortalama/std normalizasyonuyla hesaplanıyor. Memory %15-20 daha az, hyperparametre %50 daha az. DeepSeek-R1 paper (Ocak 2025): R1-Zero (sıfır SFT, sadece RL) AIME 2024'te %71. 'Aha moments' — model kendiliğinden 'durup düşünme' davranışı keşfediyor (emergent capability). 4-aşama R1 pipeline'ı: Zero → Cold Start → Reasoning RL → Distill. R1 fully open, o1 kapalı. R1-distilled 7B-70B varyantları self-host. Türkçe için strateji: R1-Distill-Qwen-32B + (gerekirse) Türkçe DPO. AIME Türkçe %55 — o1-mini civarında. Sonraki ders capstone: kendi Türkçe DPO modelin sıfırdan üretim.
Sonraki Ders: Capstone — Türkçe DPO Üretim#
Ders 15.6'da Modül 15'in capstone'u: 5K Türkçe karşılaştırma verisini topla, Llama-3-8B-Instruct üzerine DPO ile fine-tune et, MT-Bench-TR ile evaluate et, HuggingFace Hub'da yayınla. Müfredatın altıncı production artefakt'ı. Modül 6.10 TurkTokenizer-tr, Modül 7.6 Semantic Search, Modül 11.3 Mini Llama Pretrain, Modül 14.3 SFT, Modül 16.2 ChatGPT klonu ile birlikte 6 'gerçek dünya' eseri.
Frequently Asked Questions
Empirically: **comparable or slightly better** in specific setups, but evidence not yet mature.
GRPO advantages:
- Fewer parameters (no value head)
- Fewer hyperparameters
- Computational efficiency
- More stable in sparse reward scenarios (like reasoning)
GRPO disadvantages:
- Need to generate G samples per group (G generations per step)
- Superiority over PPO not clear in dense reward scenarios
- Not yet widely used — limited community experience
2025 trend: GRPO **preferred for reasoning training**, PPO/DPO still dominant for classical RLHF.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
Module 0: Course Framework & Workshop Setup
Who Is an LLM Engineer? The AI Engineering Career Ladder from Junior to Staff
Start LearningModule 0: Course Framework & Workshop Setup
Course Philosophy: Why This Path, Why This Order — The Skeleton of an 8-Month Curriculum
Start LearningModule 0: Course Framework & Workshop Setup