Skip to content

GRPO and Reasoning RL: Inside DeepSeek-R1 — From Group-Based Advantage Estimation to Process Reward

GRPO (Group Relative Policy Optimization): DeepSeek's elegant simplification of PPO. Advantage estimation without value function, group comparison, computational efficiency. Anatomy of DeepSeek-R1 paper (Jan 2025), RL ordering of reasoning training, 'aha moments' phenomenon, role of process reward models, o1 vs R1 architecture comparison, practical notes for Turkish reasoning model.

Şükrü Yusuf KAYA
75 min read
Advanced
GRPO ve Reasoning RL: DeepSeek-R1'in İçi — Grup-Bazlı Avantaj Tahmininden Process Reward'a
🧬 GRPO — RL'in Geleceği, Hesaplı Şımarması
20 Ocak 2025. DeepSeek-AI 'R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning' paper'ını yayınladı. OpenAI o1'in 4 ay sonrası. Ama farklıydı: tam açık. Ağırlıklar HuggingFace'te, paper detaylı, kod GitHub'da. Reasoning model dünyasına demokrasi geldi. Altta yatan algoritma: GRPO (Group Relative Policy Optimization) — PPO'nun bir varyantı, value function'sız. Daha basit, daha verimli, daha az hyperparametre. R1 hâlâ DeepSeek tarafından eğitilmiş bir model — kullanmak veya 'distilled' küçük varyantları self-host etmek mümkün. Bu ders GRPO'nun matematiğini, R1'in 'aha moments' fenomenini, Türkçe için kullanım pratisyenliğini işliyor. RLHF müfredatının en güncel araştırma yüzü.

Bu Derste Neler Var? (11 Bölüm)#

  1. GRPO doğuşu — DeepSeek matematik intuition'u
  2. PPO ile fark — value function'ı nasıl kaldırdı?
  3. Group advantage — örnek karşılaştırma matematiği
  4. GRPO loss — tam formül
  5. DeepSeek-R1 paper'ı — Ocak 2025
  6. Reasoning eğitim sıralaması — Cold start → R1
  7. 'Aha moments' — model kendiliğinden zincir-of-thought'u keşfediyor
  8. Process reward vs outcome reward
  9. o1 vs R1 karşılaştırma — kapalı vs açık reasoning
  10. Türkçe reasoning — R1-distilled kullanım
  11. Egzersizler ve sezgi soruları

1-4. GRPO Matematik#

1.1 DeepSeek'in ihtiyacı#

2024 ortası. DeepSeek-AI ekibi R1 üzerinde çalışıyor. PPO denediler — çalışıyor ama:
  • Value function eğitimi pahalı (extra forward pass)
  • Value head + policy head birbirini bozuyor (training instability)
  • Reward sparse — uzun reasoning chain'lerde value function tahmini zor
Çözüm fikri: 'Value function'ı tamamen kaldır. Advantage'ı grup karşılaştırması ile hesapla.'

1.2 GRPO'nun temel fikri#

PPO: her token'da advantage = R_t - V(s_t) (value function tahmin)
GRPO: 'aynı prompt'tan G yanıt üret, her yanıt için ham reward al, yanıt seviyesinde gruba göre normalize et'.
For each prompt p: Yanıtlar: y_1, y_2, ..., y_G (G örnek, farklı temperature) Reward: r_1, r_2, ..., r_G (RM tarafından puanlanmış) Group statistics: μ = mean(r_1, ..., r_G) σ = std(r_1, ..., r_G) Advantage: A_i = (r_i - μ) / σ
Yani: bir yanıt grup ortalamasından yüksek mi (pozitif advantage), düşük mü (negatif). Standardize edildi (z-score).

1.3 Niye 'relative' işe yarıyor?#

  • Aynı prompt'a yanıtlar comparable (aynı zorlukta).
  • Mutlak reward'tan göreceli reward'a geçiş → varyans azalır.
  • Value function'ın temel görevi (baseline) buydu — GRPO bunu grup ortalamasıyla yapıyor.

1.4 GRPO loss#

L_GRPO = -E_p [ Σ_i Σ_t min(r_t · A_i, clip(r_t, 1-ε, 1+ε) · A_i) ]
  • r_t = π_θ(y_i^t) / π_old(y_i^t) — importance ratio (PPO ile aynı)
  • A_i — yanıt seviyesinde grup-relative advantage
  • Clipping (PPO ile aynı)
Fark: A_t (token-level) yerine A_i (response-level). Ve value function tahmini yerine grup ortalaması.

2.1 Computational verimlilik#

PPO:
  • Per step: forward (policy) + forward (value) + forward (ref) = 3 forward
    • RM forward (4 toplam)
GRPO:
  • Per step: forward (policy) + forward (ref) = 2 forward
    • G adet generation + G adet RM forward (paralel)
GRPO her step daha az parametre eğitiyor (value head yok). Memory %15-20 daha az.

2.2 Hyperparametre azalması#

PPO: ~12 hyperparametre (clip, KL, value loss weight, entropy, GAE λ, γ, ...) GRPO: ~7 hyperparametre (clip, KL, group size G, ...)
Deneysel ayarı kolaylaştırıyor.

5-7. DeepSeek-R1 Paper Anatomi#

5.1 Paper künyesi#

'DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning' DeepSeek-AI arXiv: 2501.12948 — 20 Ocak 2025

5.2 R1'in dört aşaması#

Aşama 1: R1-Zero
  • DeepSeek-V3 base modelle başla (671B param, 37B active MoE)
  • SFT yok. Doğrudan RL (GRPO) ile eğit.
  • Reward: matematik doğruluğu + kod testi pass + format compliance
  • Sonuç: AIME 2024'te %15.6 → %71.0! Sıfır SFT, sadece RL.
Aşama 2: R1 Cold Start
  • R1-Zero'nun bir sorunu: çıktı okumayı zorlaştıran 'düşünce karmaşası' var.
  • Çözüm: 'cold start' verisi topla — 1000-2000 yüksek-kaliteli reasoning örneği. Bunla SFT yap.
Aşama 3: Reasoning-oriented RL
  • Cold-started model üzerinde tekrar GRPO
  • Çoğunluk verisi matematik + kod (objective reward)
  • Bir miktar genel veri (subjektif reward, model-based)
  • Düşünce sürecinin format compliance'i ödüllendiriliyor:
    <think>...</think><answer>...</answer>
Aşama 4: Distillation
  • R1'i Llama-3, Qwen tabanlı modellere distill et
  • 7B, 32B, 70B varyantlar
  • Açık ağırlıklarla yayınla

6.1 'Aha moments' fenomeni#

R1-Zero'nun (sıfır SFT, sadece RL) eğitimi sırasında DeepSeek ekibi şaşırtıcı bir şey gözledi: model kendiliğinden 'durup düşünme', 'farklı yaklaşım denerim', 'tekrar kontrol edeyim' gibi cümleler üretmeye başladı.
Paper'da örnek (Türkçe çeviri):
Problem: x² + 4x + 4 = 0 çöz. R1-Zero: 'x'i yalnız bırakmak için adım atayım. x² + 4x = -4. ... Hmm, bekle. Bu kareli forma uyar mı? (x + 2)² = x² + 4x + 4 = 0. O zaman x + 2 = 0, yani x = -2. Tekrar kontrol edeyim: (-2)² + 4(-2) + 4 = 4 - 8 + 4 = 0 ✓.'
Bunu kimse modele öğretmedi. RL ödülünün etkisiyle model bu davranışı keşfetti. AI tarihinin en şaşırtıcı momentlerinden.

6.2 Niye 'aha moment'lar oluşuyor?#

Hipotez: matematik doğruluğu ödülü uzun reasoning chain'leri doğal olarak seçtiriyor. Kısa cevaplar sıklıkla yanlış → düşük reward. Uzun, dikkatli reasoning daha doğru → yüksek reward. RL bu pattern'i pekiştiriyor.
Başlangıçta rastgele bir reasoning chain üretiliyor; ödüllendirilenler güçleniyor; en faydalı kalıplar ('kontrol edeyim', 'farklı yol denerim') kuvvetleniyor.
Bu 'emergent capability' — büyük modellerin scale'de ortaya çıkardığı, beklenmedik beceriler.

7.1 Process reward vs outcome reward#

İki tip reward tasarımı:
Outcome reward (R1'in baz aldığı): sadece son cevap doğru mu?
  • Matematik: nihai cevap doğru mu (sayı eşleştirme)?
  • Kod: testler geçti mi?
  • Hızlı, basit, ucuz
  • Zayıf: hatalı reasoning hâlâ doğru cevaba ulaşabilir (model 'sembolik' düşünmeyi öğrenmez)
Process reward (PRM, process reward model): her reasoning adımı doğru mu?
  • Her adım için ayrı model değerlendirmesi
  • Pahalı, karmaşık
  • Güçlü: hatalı yolu da cezalandırır, sembolik anlam öğretir
R1 paper'ı: PRM denediler ama 'reward hacking' problemleri yüzünden vazgeçtiler. Outcome reward + uzun reasoning chain yeterli oldu.
2025'in açık problemi: PRM'leri stabilize etmek. Bu alanda aktif araştırma var.

9-10. o1 vs R1 + Türkçe#

9.1 o1 vs R1 — mimari farklar#

ÖzellikOpenAI o1DeepSeek-R1
AçıklıkKapalı (sadece API)Tam açık (ağırlık + paper)
Reasoning görünürHayır (kullanıcı görmez)Evet (
<think>
tag'leri ile)
AlgoritmaBilinmiyor (PPO benzeri tahmin)GRPO
SFTVar (tahmin)R1-Zero: yok. R1: cold start var
Aşama sayısıBilinmiyor4 (Zero → Cold → RL → Distill)
AIME 2024~89%~80%
Self-hostYok (sadece API)Evet (distilled 7B-70B)
LisansClosedMIT (R1) / Apache 2.0 (distilled)

9.2 R1'in kazançları#

R1, AI tarihinde 'kapalı vs açık' tartışmasında dönüm noktası:
  • 4 ay geride OpenAI yetişti (o1 Eylül 2024, R1 Ocak 2025)
  • Tam açık → akademik araştırma fırlama
  • Distilled küçük modeller → herkes self-host edebilir
Bu DeepSeek'i AI dünyasının en saygı duyulan açık-kaynak lab'ı yaptı.

10.1 Türkçe reasoning model'i#

Strateji 1: R1-distilled kullan
  • HuggingFace'ten
    deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
    (veya 14B, 32B) indir
  • Türkçe prompt ile dene — Türkçe quality genelde iyi (Qwen base multilingual)
  • Self-host vLLM ile (Modül 16.1)
Strateji 2: R1'i Türkçe data ile fine-tune et
  • 5-10K Türkçe reasoning örneği topla (matematik, mantık, kod)
  • DPO ile fine-tune et (Modül 15.4)
  • Türkçe-specific reasoning patterns iyileştirir
Strateji 3: Kendin GRPO eğit
  • Llama-3-8B + Türkçe matematik corpus + GRPO
  • 8× H100, 1-2 hafta, $1000-3000
  • En pahalı ama tam kontrol

10.2 Pratik karşılaştırma (Türkçe matematik problem'i)#

ModelAIME 2024 Türkçe çevrilmişMaliyet
Llama-3-8B-Instruct (base)%5Bedava (open)
Llama-3-8B + Türkçe DPO%8$50
R1-Distill-Qwen-7B%30Bedava (open)
R1-Distill-Qwen-32B%55Bedava (open)
o1-mini (API)%60$$$$
o1-full (API)%80$$$$$
Türkçe için: R1-Distill-32B sweet spot — open, self-hostable, kalite o1-mini'ye yakın.

10.3 Türkçe için ek dikkat#

  • R1 düşünce çıktısı bazen İngilizce karışıyor (model multilingual). Sıkı sıkıya Türkçe istiyorsan: 'Tüm düşünceni Türkçe yap' system prompt'u ile zorla.
  • Matematik notasyonu (
    ,
    , integral) Türkçe ile bazı yerlerde garip görünebilir — model genelde standart matematik notasyonu kullanır.
  • Türkçe matematik corpus'u (TUBİTAK olimpiyat soruları, üniversite sınav arşivleri) Türkçe reasoning fine-tune için harika kaynak.

11. Egzersizler#

E1. GRPO 'group advantage' kullanıyor — niye PPO'nun value function'ından daha basit? İki argüman ver.
E2. R1-Zero (sıfır SFT) AIME'da %71 alıyor. Bu bilim kurgu gibi — niye işe yarıyor? RL'in 'keşif' yeteneğiyle ilişkilendir.
E3. Process reward vs outcome reward — Türkçe matematik için hangisi tercih edilmeli? Sınırları/tuzakları açıkla.
E4. GRPO eğitiminde grup size G'yi 8'den 32'ye çıkarırsan ne değişir? Avantajları ve dezavantajları.
E5. R1 paper'ı 'aha moments'ı vurguluyor. Bu emergent davranış mı, yoksa data biasından mı kaynaklanıyor? Argüman ver.
E6. o1 reasoning'i kullanıcıya göstermiyor (gizli). R1 gösteriyor. Hangisi 'doğru tasarım'? Üç farklı paydaş açısından (kullanıcı, geliştirici, regülatör) değerlendir.
E7. Türkçe için R1-distilled-7B vs 32B seçimi: hangi senaryolarda hangisi mantıklı?
E8. PRM (process reward model) 'reward hacking'e açık dedik. Hacking örneği ver — model PRM'i nasıl kandırabilir?
E9. GRPO ile DPO arasındaki fark ne? GRPO 'online DPO' diyebilir miyiz? Niye/değil?
E10. 2026 yılı: hipotetik olarak R2 yayınlandı. Bu paper'ın muhtemelen ne yeni getireceğini tahmin et (3 özellik).
✅ Ders 15.5 Özeti — GRPO ve Reasoning RL
GRPO (Group Relative Policy Optimization): DeepSeek'in PPO'ya getirdiği elegant sadeleştirme. Value function ortadan kalkıyor — advantage grup ortalama/std normalizasyonuyla hesaplanıyor. Memory %15-20 daha az, hyperparametre %50 daha az. DeepSeek-R1 paper (Ocak 2025): R1-Zero (sıfır SFT, sadece RL) AIME 2024'te %71. 'Aha moments' — model kendiliğinden 'durup düşünme' davranışı keşfediyor (emergent capability). 4-aşama R1 pipeline'ı: Zero → Cold Start → Reasoning RL → Distill. R1 fully open, o1 kapalı. R1-distilled 7B-70B varyantları self-host. Türkçe için strateji: R1-Distill-Qwen-32B + (gerekirse) Türkçe DPO. AIME Türkçe %55 — o1-mini civarında. Sonraki ders capstone: kendi Türkçe DPO modelin sıfırdan üretim.

Sonraki Ders: Capstone — Türkçe DPO Üretim#

Ders 15.6'da Modül 15'in capstone'u: 5K Türkçe karşılaştırma verisini topla, Llama-3-8B-Instruct üzerine DPO ile fine-tune et, MT-Bench-TR ile evaluate et, HuggingFace Hub'da yayınla. Müfredatın altıncı production artefakt'ı. Modül 6.10 TurkTokenizer-tr, Modül 7.6 Semantic Search, Modül 11.3 Mini Llama Pretrain, Modül 14.3 SFT, Modül 16.2 ChatGPT klonu ile birlikte 6 'gerçek dünya' eseri.

Frequently Asked Questions

Empirically: **comparable or slightly better** in specific setups, but evidence not yet mature. GRPO advantages: - Fewer parameters (no value head) - Fewer hyperparameters - Computational efficiency - More stable in sparse reward scenarios (like reasoning) GRPO disadvantages: - Need to generate G samples per group (G generations per step) - Superiority over PPO not clear in dense reward scenarios - Not yet widely used — limited community experience 2025 trend: GRPO **preferred for reasoning training**, PPO/DPO still dominant for classical RLHF.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content