Skip to content

DeepSeek-R1 GRPO in Depth: Mathematics of Open Reasoning RL — Group Relative Policy Optimization

Main training algorithm of DeepSeek-R1 (January 2025) GRPO (Group Relative Policy Optimization). Line-by-line derivation of differences from PPO. Value-function-free advantage estimation (group comparison). Detailed walk-through of 4-stage training (R1-Zero → Cold Start → Reasoning RL → Distill). Empirical phenomenon of 'aha moments' — examples and statistical analysis given in paper. Turkish R1 fine-tune strategies.

Şükrü Yusuf KAYA
90 min read
Advanced
DeepSeek-R1 GRPO Derinlemesine: Açık Reasoning RL'in Matematiği — Group Relative Policy Optimization
🔬 R1 — Açık Reasoning'in Matematik Dersi
20 Ocak 2025. DeepSeek-AI paper yayınladı: R1. 22 sayfa, tam matematik, kod referansları. o1'in açık karşılığı. Ne olağanüstüydü? Sadece kalite değil (o1'e çok yakın), açıklık da. Algoritma açık, ağırlıklar açık, training pipeline açık.
Bu ders R1'in ana algoritması GRPO'yu satır satır türetiyor. GRPO = Group Relative Policy Optimization. PPO'nun (Modül 15.3) sadeleştirilmiş versionu. Value function yok. Group-based advantage estimation. Daha az hyperparameter, daha basit implementation, daha az memory.
Bu, frontier reasoning AI'in altındaki matematik. Modül 15.5'te kısa giriş yapmıştık — bu ders onu derinleştiriyor (90 dakika vs 75 dakika), paper'dan empirik veri ekliyor, 'aha moments' fenomenini istatistiksel analiz ediyor.
Müfredatın en yeni araştırma içeriği. Sonunda: kendi reasoning model'ini eğitebilir, R1'i Türkçe için fine-tune edebileceksin.

Bu Derste Neler Var? (12 Bölüm)#

  1. R1 paper'ı özet — 22 sayfanın anatomisi
  2. PPO'dan GRPO'ya — niye sadeleştirme?
  3. GRPO matematik türevi — adım adım
  4. Group advantage estimation — value function ortadan kalkıyor
  5. R1-Zero deneyimi — sıfır SFT, sadece RL
  6. 'Aha moments' empirik analiz
  7. 4-aşama eğitim pipeline — Cold Start + Reasoning RL + Distill
  8. R1 vs R1-Zero karşılaştırma
  9. R1-Distill modeller — Qwen + Llama tabanlı
  10. Türkçe için R1 fine-tune stratejisi
  11. Production R1 deployment — vLLM ile
  12. Egzersizler ve pratik notlar

2-4. GRPO Matematik Türevi#

2.1 PPO'dan GRPO'ya — motivasyon#

PPO (Schulman 2017, Modül 15.3) reasoning task'larında çalışıyor ama:
  • Value function gerekiyor (extra forward pass)
  • Value head policy head'i bozabiliyor (training instability)
  • Sparse reward ile value tahmini zor (reasoning'de ödül sadece sonda)
DeepSeek ekibi 2024'te şunu fark etti: 'Eğer aynı prompt'tan G yanıt üretip puanlarımızı karşılaştırırsak, value function'a gerek kalmıyor.'

2.2 GRPO formal türev#

PPO advantage:
A_t^PPO = R_t - V(s_t)
Value function V tahmini.
GRPO advantage:
For each prompt p, sample G responses: y_1, ..., y_G Get rewards: r_1, ..., r_G Group statistics: μ = mean(r_1, ..., r_G) σ = std(r_1, ..., r_G) GRPO advantage for response y_i: A_i = (r_i - μ) / σ
Z-score standardizasyon. Grup içinde ortalamadan ne kadar daha iyi/kötü?

2.3 GRPO loss fonksiyonu#

PPO loss yapısını koruyor, ama advantage farklı:
L_GRPO = -E[ Σ_i Σ_t min( ratio_t × A_i, clip(ratio_t, 1-ε, 1+ε) × A_i ) - β × KL(π_θ || π_ref) ]
Değişiklikler:
  • Token-level advantage → response-level A_i
  • Value function loss yok (L^VF kaldırıldı)
  • KL penalty aynı (PPO'da olduğu gibi)
  • Cliprange aynı

2.4 Niye 'group relative' işe yarıyor?#

İstatistiksel argüman: aynı prompt'a verilen yanıtlar comparable (aynı zorluk, aynı context). Grup ortalaması doğal bir 'baseline' oluşturuyor.
Value function'ın işi (baseline tahmini) → grup ortalaması ile yapılıyor. Daha basit, daha kararlı.
Mathematical equivalence: G→∞ limiti'te grup ortalaması value function'a yaklaşıyor. Pratik G=4-16 yeter.

2.5 Computational savings#

PPO:
  • Forward (policy) + Forward (value) + Forward (ref) = 3 forward
  • Gradient hesabı 2 head üzerinden
GRPO:
  • Forward (policy) + Forward (ref) = 2 forward
    • G adet generation (paralel)
  • Gradient hesabı 1 head üzerinden
Memory: %15-20 az. Hyperparameter: ~7 (vs PPO'nun ~12).

4.1 Group size G seçimi#

G = 4: minimum, hızlı ama gürültülü G = 8: pratik sweet spot (DeepSeek-R1 kullandı) G = 16: daha kararlı, daha pahalı G = 32+: marjinal fayda azalan
Genelde G=8 önerilen başlangıç noktası.

5-6. R1-Zero ve 'Aha Moments'#

5.1 R1-Zero deneyimi#

DeepSeek paper'ının en şaşırtıcı kısmı: R1-Zero.
Kurulum:
  • Base model: DeepSeek-V3 (671B param, 37B active)
  • SFT yok (Modül 14'teki gibi fine-tune adımı atlanmış)
  • Doğrudan GRPO ile RL
  • Reward: outcome-only (matematik için: doğru cevap mı?)
Beklenti: çalışmaz veya kötü çalışır. Sonuç: AIME 2024'te %15.6 → %71.0!

5.2 'Aha moments' fenomeni#

R1-Zero eğitimi sırasında DeepSeek ekibi şaşırtıcı bir şey gözledi: model kendiliğinden 'durup düşünme' davranışı geliştirdi.
Paper'daki örnek (Türkçe çeviri):
Problem: '5x² - 3x + 1 = 0' çöz R1-Zero çıktısı (orijinal İngilizce): 'Let me solve this quadratic equation. a=5, b=-3, c=1. Discriminant = b²-4ac = 9-20 = -11. Hmm, wait. Let me verify: b² = 9, 4ac = 4·5·1 = 20. Yes, b² - 4ac = -11. Discriminant negative, so no real solutions. Actually wait, let me re-read the problem... [Sonra model orijinal soruyu tekrar okur, doğrulamayı yapar] Yes, my analysis is correct. No real solutions.'
'wait', 'let me verify', 'actually wait' — bu kalıplar hiçbir SFT verisinde yoktu. Model kendi kendine geliştirdi.

6.1 Niye 'aha moments' oluşuyor?#

Matematiksel argüman:
(a) Reward landscape: matematik problemi'nin reward'ı binary (doğru/yanlış). Kısa cevaplar sıklıkla yanlış.
(b) Test-time compute optimization: model 'daha uzun düşünüp daha doğru cevaplama' arasında trade-off öğreniyor.
(c) Emergent behavior: belirli reasoning patterns (kendini doğrulama, geri dönme) doğal olarak yüksek reward kazanıyor → RL pekiştiriyor.
Bu AI tarihinde bir an — model kendiliğinden 'meta-cognition' davranışı geliştirdi. Birçok araştırmacı 2-3 yıl önce 'bu olmaz' diyordu.

6.2 R1-Zero limitleri#

R1-Zero süper etkileyici ama kötü tarafları:
  • Okumayı zorlaştıran düşünce karmaşası: model bazen tekrarlanan, kafa karıştıran reasoning
  • Dil karışıklığı: bazen İngilizce + başka diller karışıyor
  • Format inconsistency: cevap formatı tutarsız
Bu yüzden R1 (full pipeline) eklendi — production'a hazır versiyonu.

7-9. 4-Aşama Pipeline + R1-Distill#

7.1 R1 Full Pipeline (DeepSeek paper)#

┌─────────────────────────────────────────────────────────────┐ │ Aşama 0: Base Model │ │ DeepSeek-V3 (671B params, 37B active MoE) │ │ Pre-trained, RL gör hazır │ └─────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ Aşama 1: R1-Zero (RL-only, no SFT) │ │ - GRPO ile direkt RL │ │ - Outcome reward (matematik doğruluğu, kod testleri) │ │ - Format compliance bonus │ │ - Sonuç: AIME %71, ama düşünce karmaşası problemi │ └─────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ Aşama 2: Cold Start (SFT) │ │ - 1000-2000 yüksek kaliteli reasoning örneği │ │ - İnsan ya da AI ile annotated, format tutarlı │ │ - 1 epoch SFT │ │ - Amaç: format tutarlılığı + okuma kolaylığı │ └─────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ Aşama 3: Reasoning RL │ │ - Cold-started model üzerinde tekrar GRPO │ │ - Daha geniş reasoning task dağılımı │ │ - Math + Code + General reasoning │ │ - Sonuç: AIME %79, format temiz │ └─────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ Aşama 4: Distillation │ │ - R1'in çıktılarıyla 800K reasoning dataset │ │ - Bu dataset Qwen + Llama tabanlı modellere SFT │ │ - Sonuç: R1-Distill-Qwen-32B, R1-Distill-Llama-70B vs. │ │ - Quality: full R1'in %80-90'ı, ama 20× daha küçük model │ └─────────────────────────────────────────────────────────────┘

8.1 R1 vs R1-Zero karşılaştırma#

ÖzellikR1-ZeroR1
SFTYok1000-2000 örnek
AIME 2024%71%79
Format tutarlılığıKötüİyi
OkunabilirlikDüşükYüksek
Production'a hazırHayırEvet
R1-Zero'nun akademik değeri: 'SFT olmadan da reasoning öğreniliyor' kanıtı. R1'in pratik değeri: production-ready Türkçe-eğitilebilir model.

9.1 R1-Distill modeller#

DeepSeek 6 distilled model yayınladı:
  • R1-Distill-Qwen-1.5B (mobile, edge)
  • R1-Distill-Qwen-7B (RTX 4090'da çalışır)
  • R1-Distill-Qwen-14B
  • R1-Distill-Qwen-32B (H100 sweet spot)
  • R1-Distill-Llama-8B
  • R1-Distill-Llama-70B (production frontier)
Distill nasıl çalışıyor:
  1. R1 (full 671B) 800K reasoning örnek üretir
  2. Bu örnekler Qwen veya Llama base'e SFT ile aktarılır
  3. Küçük model R1 davranışını taklit eder
Quality recovery:
  • R1 (full): AIME %79
  • R1-Distill-32B: AIME %72 (%91)
  • R1-Distill-14B: AIME %63 (%80)
  • R1-Distill-7B: AIME %55 (%70)
Küçük model çok bilgi koruyabiliyor. Distillation çok güçlü.

10.1 Türkçe için R1 stratejisi#

3 farklı yol:
Strateji A: R1-Distill-32B kullan (no fine-tune)
  • Hazır, Türkçe quality decent (~%50 AIME-TR)
  • Maliyet: $0 (self-host) + GPU
  • Süre: dakikalar (deployment)
Strateji B: R1-Distill-32B'yi Türkçe DPO ile fine-tune (Modül 15.6)
  • 5-10K Türkçe reasoning preference verisi
  • Quality: ~%55-60 AIME-TR (%5-10 boost)
  • Maliyet: $500-1000 (data + training)
  • Süre: 1-2 hafta
Strateji C: Sıfırdan GRPO ile Türkçe reasoning RL
  • En zor, en maliyetli
  • Türkçe-spesifik matematik corpus + GRPO eğitim
  • Quality potential: %60-65 AIME-TR
  • Maliyet: $10K-50K (compute + data)
  • Süre: 1-3 ay
Çoğu Türkçe team için: Strateji A veya B önerilir. Strateji C frontier research / academic projeleri için.
✅ Ders 17.4 Özeti — GRPO Derinlemesine
GRPO = PPO sadeleştirmesi. Value function yok, group-based advantage estimation (z-score). %15-20 az memory, 7 hyperparametre. R1-Zero: SFT olmadan AIME %71 — 'aha moments' fenomeni kendiliğinden gelişiyor. 4-aşama R1 pipeline: Zero → Cold Start → Reasoning RL → Distill. R1-Distill modeller: 1.5B-70B, quality recovery %70-91. Türkçe stratejileri: A (R1-Distill self-host), B (Türkçe DPO fine-tune), C (sıfırdan GRPO). Çoğu use case için A veya B yeter. Sonraki ders capstone: Türkçe reasoning model'i baştan sona — Strateji B'yi pratik olarak uygula.

Sonraki Ders: Capstone — Türkçe Reasoning Model#

Ders 17.5'te Modül 17'nin capstone'u. R1-Distill-Qwen-32B üzerine Türkçe matematik DPO fine-tune. YKS/TYT/TÜBİTAK matematik problemlerinden 5K Türkçe reasoning chain dataset. Single H100, 1 hafta, $200-500. Sonunda HuggingFace Hub'da yayında: sukruyusufkaya/r1-distill-tr-math-32b.

Frequently Asked Questions

Comparison not done in DeepSeek paper (only GRPO presented). Academic community independent tests (early 2025): **Empirical similarity**: GRPO and PPO **comparable** quality in most reasoning tasks. **GRPO advantages**: - %15-20 less memory (no value head) - %30 shorter implementation code - More tolerant to sparse reward - Fewer hyperparameters **PPO advantages**: - Mature since 2017 (lots of community experience) - Slightly better in continuous reward landscapes - More documentation **Decision**: new reasoning project = GRPO. Existing PPO setup working = continue.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content