İçeriğe geç

DeepSeek-R1 GRPO Derinlemesine: Açık Reasoning RL'in Matematiği — Group Relative Policy Optimization

DeepSeek-R1'in (Ocak 2025) ana eğitim algoritması GRPO (Group Relative Policy Optimization). PPO'dan farkları satır satır türev. Value function'sız avantaj tahmini (grup karşılaştırması). 4 aşamalı eğitim (R1-Zero → Cold Start → Reasoning RL → Distill) detaylı walk-through. 'Aha moments' empirik fenomeni — paper'da verilen örnekler ve istatistik analiz. Türkçe için R1 fine-tune stratejileri.

Şükrü Yusuf KAYA
90 dakikalık okuma
İleri
DeepSeek-R1 GRPO Derinlemesine: Açık Reasoning RL'in Matematiği — Group Relative Policy Optimization
🔬 R1 — Açık Reasoning'in Matematik Dersi
20 Ocak 2025. DeepSeek-AI paper yayınladı: R1. 22 sayfa, tam matematik, kod referansları. o1'in açık karşılığı. Ne olağanüstüydü? Sadece kalite değil (o1'e çok yakın), açıklık da. Algoritma açık, ağırlıklar açık, training pipeline açık.
Bu ders R1'in ana algoritması GRPO'yu satır satır türetiyor. GRPO = Group Relative Policy Optimization. PPO'nun (Modül 15.3) sadeleştirilmiş versionu. Value function yok. Group-based advantage estimation. Daha az hyperparameter, daha basit implementation, daha az memory.
Bu, frontier reasoning AI'in altındaki matematik. Modül 15.5'te kısa giriş yapmıştık — bu ders onu derinleştiriyor (90 dakika vs 75 dakika), paper'dan empirik veri ekliyor, 'aha moments' fenomenini istatistiksel analiz ediyor.
Müfredatın en yeni araştırma içeriği. Sonunda: kendi reasoning model'ini eğitebilir, R1'i Türkçe için fine-tune edebileceksin.

Bu Derste Neler Var? (12 Bölüm)#

  1. R1 paper'ı özet — 22 sayfanın anatomisi
  2. PPO'dan GRPO'ya — niye sadeleştirme?
  3. GRPO matematik türevi — adım adım
  4. Group advantage estimation — value function ortadan kalkıyor
  5. R1-Zero deneyimi — sıfır SFT, sadece RL
  6. 'Aha moments' empirik analiz
  7. 4-aşama eğitim pipeline — Cold Start + Reasoning RL + Distill
  8. R1 vs R1-Zero karşılaştırma
  9. R1-Distill modeller — Qwen + Llama tabanlı
  10. Türkçe için R1 fine-tune stratejisi
  11. Production R1 deployment — vLLM ile
  12. Egzersizler ve pratik notlar

2-4. GRPO Matematik Türevi#

2.1 PPO'dan GRPO'ya — motivasyon#

PPO (Schulman 2017, Modül 15.3) reasoning task'larında çalışıyor ama:
  • Value function gerekiyor (extra forward pass)
  • Value head policy head'i bozabiliyor (training instability)
  • Sparse reward ile value tahmini zor (reasoning'de ödül sadece sonda)
DeepSeek ekibi 2024'te şunu fark etti: 'Eğer aynı prompt'tan G yanıt üretip puanlarımızı karşılaştırırsak, value function'a gerek kalmıyor.'

2.2 GRPO formal türev#

PPO advantage:
A_t^PPO = R_t - V(s_t)
Value function V tahmini.
GRPO advantage:
For each prompt p, sample G responses: y_1, ..., y_G Get rewards: r_1, ..., r_G Group statistics: μ = mean(r_1, ..., r_G) σ = std(r_1, ..., r_G) GRPO advantage for response y_i: A_i = (r_i - μ) / σ
Z-score standardizasyon. Grup içinde ortalamadan ne kadar daha iyi/kötü?

2.3 GRPO loss fonksiyonu#

PPO loss yapısını koruyor, ama advantage farklı:
L_GRPO = -E[ Σ_i Σ_t min( ratio_t × A_i, clip(ratio_t, 1-ε, 1+ε) × A_i ) - β × KL(π_θ || π_ref) ]
Değişiklikler:
  • Token-level advantage → response-level A_i
  • Value function loss yok (L^VF kaldırıldı)
  • KL penalty aynı (PPO'da olduğu gibi)
  • Cliprange aynı

2.4 Niye 'group relative' işe yarıyor?#

İstatistiksel argüman: aynı prompt'a verilen yanıtlar comparable (aynı zorluk, aynı context). Grup ortalaması doğal bir 'baseline' oluşturuyor.
Value function'ın işi (baseline tahmini) → grup ortalaması ile yapılıyor. Daha basit, daha kararlı.
Mathematical equivalence: G→∞ limiti'te grup ortalaması value function'a yaklaşıyor. Pratik G=4-16 yeter.

2.5 Computational savings#

PPO:
  • Forward (policy) + Forward (value) + Forward (ref) = 3 forward
  • Gradient hesabı 2 head üzerinden
GRPO:
  • Forward (policy) + Forward (ref) = 2 forward
    • G adet generation (paralel)
  • Gradient hesabı 1 head üzerinden
Memory: %15-20 az. Hyperparameter: ~7 (vs PPO'nun ~12).

4.1 Group size G seçimi#

G = 4: minimum, hızlı ama gürültülü G = 8: pratik sweet spot (DeepSeek-R1 kullandı) G = 16: daha kararlı, daha pahalı G = 32+: marjinal fayda azalan
Genelde G=8 önerilen başlangıç noktası.

5-6. R1-Zero ve 'Aha Moments'#

5.1 R1-Zero deneyimi#

DeepSeek paper'ının en şaşırtıcı kısmı: R1-Zero.
Kurulum:
  • Base model: DeepSeek-V3 (671B param, 37B active)
  • SFT yok (Modül 14'teki gibi fine-tune adımı atlanmış)
  • Doğrudan GRPO ile RL
  • Reward: outcome-only (matematik için: doğru cevap mı?)
Beklenti: çalışmaz veya kötü çalışır. Sonuç: AIME 2024'te %15.6 → %71.0!

5.2 'Aha moments' fenomeni#

R1-Zero eğitimi sırasında DeepSeek ekibi şaşırtıcı bir şey gözledi: model kendiliğinden 'durup düşünme' davranışı geliştirdi.
Paper'daki örnek (Türkçe çeviri):
Problem: '5x² - 3x + 1 = 0' çöz R1-Zero çıktısı (orijinal İngilizce): 'Let me solve this quadratic equation. a=5, b=-3, c=1. Discriminant = b²-4ac = 9-20 = -11. Hmm, wait. Let me verify: b² = 9, 4ac = 4·5·1 = 20. Yes, b² - 4ac = -11. Discriminant negative, so no real solutions. Actually wait, let me re-read the problem... [Sonra model orijinal soruyu tekrar okur, doğrulamayı yapar] Yes, my analysis is correct. No real solutions.'
'wait', 'let me verify', 'actually wait' — bu kalıplar hiçbir SFT verisinde yoktu. Model kendi kendine geliştirdi.

6.1 Niye 'aha moments' oluşuyor?#

Matematiksel argüman:
(a) Reward landscape: matematik problemi'nin reward'ı binary (doğru/yanlış). Kısa cevaplar sıklıkla yanlış.
(b) Test-time compute optimization: model 'daha uzun düşünüp daha doğru cevaplama' arasında trade-off öğreniyor.
(c) Emergent behavior: belirli reasoning patterns (kendini doğrulama, geri dönme) doğal olarak yüksek reward kazanıyor → RL pekiştiriyor.
Bu AI tarihinde bir an — model kendiliğinden 'meta-cognition' davranışı geliştirdi. Birçok araştırmacı 2-3 yıl önce 'bu olmaz' diyordu.

6.2 R1-Zero limitleri#

R1-Zero süper etkileyici ama kötü tarafları:
  • Okumayı zorlaştıran düşünce karmaşası: model bazen tekrarlanan, kafa karıştıran reasoning
  • Dil karışıklığı: bazen İngilizce + başka diller karışıyor
  • Format inconsistency: cevap formatı tutarsız
Bu yüzden R1 (full pipeline) eklendi — production'a hazır versiyonu.

7-9. 4-Aşama Pipeline + R1-Distill#

7.1 R1 Full Pipeline (DeepSeek paper)#

┌─────────────────────────────────────────────────────────────┐ │ Aşama 0: Base Model │ │ DeepSeek-V3 (671B params, 37B active MoE) │ │ Pre-trained, RL gör hazır │ └─────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ Aşama 1: R1-Zero (RL-only, no SFT) │ │ - GRPO ile direkt RL │ │ - Outcome reward (matematik doğruluğu, kod testleri) │ │ - Format compliance bonus │ │ - Sonuç: AIME %71, ama düşünce karmaşası problemi │ └─────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ Aşama 2: Cold Start (SFT) │ │ - 1000-2000 yüksek kaliteli reasoning örneği │ │ - İnsan ya da AI ile annotated, format tutarlı │ │ - 1 epoch SFT │ │ - Amaç: format tutarlılığı + okuma kolaylığı │ └─────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ Aşama 3: Reasoning RL │ │ - Cold-started model üzerinde tekrar GRPO │ │ - Daha geniş reasoning task dağılımı │ │ - Math + Code + General reasoning │ │ - Sonuç: AIME %79, format temiz │ └─────────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ Aşama 4: Distillation │ │ - R1'in çıktılarıyla 800K reasoning dataset │ │ - Bu dataset Qwen + Llama tabanlı modellere SFT │ │ - Sonuç: R1-Distill-Qwen-32B, R1-Distill-Llama-70B vs. │ │ - Quality: full R1'in %80-90'ı, ama 20× daha küçük model │ └─────────────────────────────────────────────────────────────┘

8.1 R1 vs R1-Zero karşılaştırma#

ÖzellikR1-ZeroR1
SFTYok1000-2000 örnek
AIME 2024%71%79
Format tutarlılığıKötüİyi
OkunabilirlikDüşükYüksek
Production'a hazırHayırEvet
R1-Zero'nun akademik değeri: 'SFT olmadan da reasoning öğreniliyor' kanıtı. R1'in pratik değeri: production-ready Türkçe-eğitilebilir model.

9.1 R1-Distill modeller#

DeepSeek 6 distilled model yayınladı:
  • R1-Distill-Qwen-1.5B (mobile, edge)
  • R1-Distill-Qwen-7B (RTX 4090'da çalışır)
  • R1-Distill-Qwen-14B
  • R1-Distill-Qwen-32B (H100 sweet spot)
  • R1-Distill-Llama-8B
  • R1-Distill-Llama-70B (production frontier)
Distill nasıl çalışıyor:
  1. R1 (full 671B) 800K reasoning örnek üretir
  2. Bu örnekler Qwen veya Llama base'e SFT ile aktarılır
  3. Küçük model R1 davranışını taklit eder
Quality recovery:
  • R1 (full): AIME %79
  • R1-Distill-32B: AIME %72 (%91)
  • R1-Distill-14B: AIME %63 (%80)
  • R1-Distill-7B: AIME %55 (%70)
Küçük model çok bilgi koruyabiliyor. Distillation çok güçlü.

10.1 Türkçe için R1 stratejisi#

3 farklı yol:
Strateji A: R1-Distill-32B kullan (no fine-tune)
  • Hazır, Türkçe quality decent (~%50 AIME-TR)
  • Maliyet: $0 (self-host) + GPU
  • Süre: dakikalar (deployment)
Strateji B: R1-Distill-32B'yi Türkçe DPO ile fine-tune (Modül 15.6)
  • 5-10K Türkçe reasoning preference verisi
  • Quality: ~%55-60 AIME-TR (%5-10 boost)
  • Maliyet: $500-1000 (data + training)
  • Süre: 1-2 hafta
Strateji C: Sıfırdan GRPO ile Türkçe reasoning RL
  • En zor, en maliyetli
  • Türkçe-spesifik matematik corpus + GRPO eğitim
  • Quality potential: %60-65 AIME-TR
  • Maliyet: $10K-50K (compute + data)
  • Süre: 1-3 ay
Çoğu Türkçe team için: Strateji A veya B önerilir. Strateji C frontier research / academic projeleri için.
✅ Ders 17.4 Özeti — GRPO Derinlemesine
GRPO = PPO sadeleştirmesi. Value function yok, group-based advantage estimation (z-score). %15-20 az memory, 7 hyperparametre. R1-Zero: SFT olmadan AIME %71 — 'aha moments' fenomeni kendiliğinden gelişiyor. 4-aşama R1 pipeline: Zero → Cold Start → Reasoning RL → Distill. R1-Distill modeller: 1.5B-70B, quality recovery %70-91. Türkçe stratejileri: A (R1-Distill self-host), B (Türkçe DPO fine-tune), C (sıfırdan GRPO). Çoğu use case için A veya B yeter. Sonraki ders capstone: Türkçe reasoning model'i baştan sona — Strateji B'yi pratik olarak uygula.

Sonraki Ders: Capstone — Türkçe Reasoning Model#

Ders 17.5'te Modül 17'nin capstone'u. R1-Distill-Qwen-32B üzerine Türkçe matematik DPO fine-tune. YKS/TYT/TÜBİTAK matematik problemlerinden 5K Türkçe reasoning chain dataset. Single H100, 1 hafta, $200-500. Sonunda HuggingFace Hub'da yayında: sukruyusufkaya/r1-distill-tr-math-32b.

Sık Sorulan Sorular

DeepSeek paper'ında karşılaştırma yapılmamış (sadece GRPO sunulmuş). Akademik camianın bağımsız testleri (2025 başı): **Empirik benzerlik**: çoğu reasoning task'ta GRPO ve PPO **comparable** quality. **GRPO avantajları**: - %15-20 daha az memory (value head yok) - Implementation %30 daha kısa kod - Sparse reward'a daha tolerant - Daha az hyperparameter **PPO avantajları**: - 2017'den beri olgun (community deneyimi çok) - Continuous reward landscape'lerde biraz daha iyi - Daha çok dokümantasyon **Karar**: yeni reasoning project = GRPO. Mevcut PPO setup'ın çalışıyorsa = devam et.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler