For Turkish, R1-Distill-32B Llama or Qwen based?

DeepSeek released **two distill families**: **Qwen-based**: 1.5B, 7B, 14B, 32B - Strong multilingual (Qwen Chinese-centric but TR + EN + AR etc.) - Turkish quality: good - License: Qwen license (commercial OK) **Llama-based**: 8B, 70B - English-centric (Meta Llama based) - Turkish quality: moderate (multilingual finetuning may be needed) - License: Llama 3.1 community license **For Turkish**: - General reasoning: **R1-Distill-Qwen-32B** (multilingual base, good Turkish) - Frontier quality (70B): **R1-Distill-Llama-70B** + Turkish fine-tune - Edge/mobile: R1-Distill-Qwen-7B or 1.5B For most Turkish production, **Qwen 32B sweet spot**.

DeepSeek-R1 GRPO in Depth: Mathematics of Open Reasoning RL — Group Relative Policy Optimization

Main training algorithm of DeepSeek-R1 (January 2025) GRPO (Group Relative Policy Optimization). Line-by-line derivation of differences from PPO. Value-function-free advantage estimation (group comparison). Detailed walk-through of 4-stage training (R1-Zero → Cold Start → Reasoning RL → Distill). Empirical phenomenon of 'aha moments' — examples and statistical analysis given in paper. Turkish R1 fine-tune strategies.

Şükrü Yusuf KAYA

90 min read

5/13/2026

Advanced

DeepSeek-R1 GRPO Derinlemesine: Açık Reasoning RL'in Matematiği — Group Relative Policy Optimization

🔬 R1 — Açık Reasoning'in Matematik Dersi

20 Ocak 2025. DeepSeek-AI paper yayınladı: R1. 22 sayfa, tam matematik, kod referansları. o1'in açık karşılığı. Ne olağanüstüydü? Sadece kalite değil (o1'e çok yakın), açıklık da. Algoritma açık, ağırlıklar açık, training pipeline açık.

Bu ders R1'in ana algoritması GRPO'yu satır satır türetiyor. GRPO = Group Relative Policy Optimization. PPO'nun (Modül 15.3) sadeleştirilmiş versionu. Value function yok. Group-based advantage estimation. Daha az hyperparameter, daha basit implementation, daha az memory.

Bu, frontier reasoning AI'in altındaki matematik. Modül 15.5'te kısa giriş yapmıştık — bu ders onu derinleştiriyor (90 dakika vs 75 dakika), paper'dan empirik veri ekliyor, 'aha moments' fenomenini istatistiksel analiz ediyor.

Müfredatın en yeni araştırma içeriği. Sonunda: kendi reasoning model'ini eğitebilir, R1'i Türkçe için fine-tune edebileceksin.

Bu Derste Neler Var? (12 Bölüm)#

R1 paper'ı özet — 22 sayfanın anatomisi
PPO'dan GRPO'ya — niye sadeleştirme?
GRPO matematik türevi — adım adım
Group advantage estimation — value function ortadan kalkıyor
R1-Zero deneyimi — sıfır SFT, sadece RL
'Aha moments' empirik analiz
4-aşama eğitim pipeline — Cold Start + Reasoning RL + Distill
R1 vs R1-Zero karşılaştırma
R1-Distill modeller — Qwen + Llama tabanlı
Türkçe için R1 fine-tune stratejisi
Production R1 deployment — vLLM ile
Egzersizler ve pratik notlar

2-4. GRPO Matematik Türevi#

2.1 PPO'dan GRPO'ya — motivasyon#

PPO (Schulman 2017, Modül 15.3) reasoning task'larında çalışıyor ama:

Value function gerekiyor (extra forward pass)
Value head policy head'i bozabiliyor (training instability)
Sparse reward ile value tahmini zor (reasoning'de ödül sadece sonda)

DeepSeek ekibi 2024'te şunu fark etti: 'Eğer aynı prompt'tan G yanıt üretip puanlarımızı karşılaştırırsak, value function'a gerek kalmıyor.'

2.2 GRPO formal türev#

PPO advantage:

A_t^PPO = R_t - V(s_t)

Value function V tahmini.

GRPO advantage:

For each prompt p, sample G responses: y_1, ..., y_G
Get rewards: r_1, ..., r_G
Group statistics:
    μ = mean(r_1, ..., r_G)
    σ = std(r_1, ..., r_G)
GRPO advantage for response y_i:
    A_i = (r_i - μ) / σ

Z-score standardizasyon. Grup içinde ortalamadan ne kadar daha iyi/kötü?

2.3 GRPO loss fonksiyonu#

PPO loss yapısını koruyor, ama advantage farklı:

L_GRPO = -E[
    Σ_i Σ_t min(
        ratio_t × A_i,
        clip(ratio_t, 1-ε, 1+ε) × A_i
    ) - β × KL(π_θ || π_ref)
]

Değişiklikler:

Token-level advantage → response-level A_i
Value function loss yok (L^VF kaldırıldı)
KL penalty aynı (PPO'da olduğu gibi)
Cliprange aynı

2.4 Niye 'group relative' işe yarıyor?#

İstatistiksel argüman: aynı prompt'a verilen yanıtlar comparable (aynı zorluk, aynı context). Grup ortalaması doğal bir 'baseline' oluşturuyor.

Value function'ın işi (baseline tahmini) → grup ortalaması ile yapılıyor. Daha basit, daha kararlı.

Mathematical equivalence: G→∞ limiti'te grup ortalaması value function'a yaklaşıyor. Pratik G=4-16 yeter.

2.5 Computational savings#

PPO:

Forward (policy) + Forward (value) + Forward (ref) = 3 forward
Gradient hesabı 2 head üzerinden

GRPO:

Forward (policy) + Forward (ref) = 2 forward
- G adet generation (paralel)
Gradient hesabı 1 head üzerinden

Memory: %15-20 az. Hyperparameter: ~7 (vs PPO'nun ~12).

4.1 Group size G seçimi#

G = 4: minimum, hızlı ama gürültülü G = 8: pratik sweet spot (DeepSeek-R1 kullandı) G = 16: daha kararlı, daha pahalı G = 32+: marjinal fayda azalan

Genelde G=8 önerilen başlangıç noktası.

5-6. R1-Zero ve 'Aha Moments'#

5.1 R1-Zero deneyimi#

DeepSeek paper'ının en şaşırtıcı kısmı: R1-Zero.

Kurulum:

Base model: DeepSeek-V3 (671B param, 37B active)
SFT yok (Modül 14'teki gibi fine-tune adımı atlanmış)
Doğrudan GRPO ile RL
Reward: outcome-only (matematik için: doğru cevap mı?)

Beklenti: çalışmaz veya kötü çalışır. Sonuç: AIME 2024'te %15.6 → %71.0!

5.2 'Aha moments' fenomeni#

R1-Zero eğitimi sırasında DeepSeek ekibi şaşırtıcı bir şey gözledi: model kendiliğinden 'durup düşünme' davranışı geliştirdi.

Paper'daki örnek (Türkçe çeviri):

Problem: '5x² - 3x + 1 = 0' çöz

R1-Zero çıktısı (orijinal İngilizce):
'Let me solve this quadratic equation. 
 a=5, b=-3, c=1.
 Discriminant = b²-4ac = 9-20 = -11.
 Hmm, wait. Let me verify: b² = 9, 4ac = 4·5·1 = 20.
 Yes, b² - 4ac = -11.
 Discriminant negative, so no real solutions.
 Actually wait, let me re-read the problem...
 [Sonra model orijinal soruyu tekrar okur, doğrulamayı yapar]
 Yes, my analysis is correct. No real solutions.'

'wait', 'let me verify', 'actually wait' — bu kalıplar hiçbir SFT verisinde yoktu. Model kendi kendine geliştirdi.

6.1 Niye 'aha moments' oluşuyor?#

Matematiksel argüman:

(a) Reward landscape: matematik problemi'nin reward'ı binary (doğru/yanlış). Kısa cevaplar sıklıkla yanlış.

(b) Test-time compute optimization: model 'daha uzun düşünüp daha doğru cevaplama' arasında trade-off öğreniyor.

(c) Emergent behavior: belirli reasoning patterns (kendini doğrulama, geri dönme) doğal olarak yüksek reward kazanıyor → RL pekiştiriyor.

Bu AI tarihinde bir an — model kendiliğinden 'meta-cognition' davranışı geliştirdi. Birçok araştırmacı 2-3 yıl önce 'bu olmaz' diyordu.

6.2 R1-Zero limitleri#

R1-Zero süper etkileyici ama kötü tarafları:

Okumayı zorlaştıran düşünce karmaşası: model bazen tekrarlanan, kafa karıştıran reasoning
Dil karışıklığı: bazen İngilizce + başka diller karışıyor
Format inconsistency: cevap formatı tutarsız

Bu yüzden R1 (full pipeline) eklendi — production'a hazır versiyonu.

7-9. 4-Aşama Pipeline + R1-Distill#

7.1 R1 Full Pipeline (DeepSeek paper)#

┌─────────────────────────────────────────────────────────────┐
│ Aşama 0: Base Model                                            │
│ DeepSeek-V3 (671B params, 37B active MoE)                     │
│ Pre-trained, RL gör hazır                                       │
└─────────────────────────────────────────────────────────────┘
                            ↓
┌─────────────────────────────────────────────────────────────┐
│ Aşama 1: R1-Zero (RL-only, no SFT)                            │
│ - GRPO ile direkt RL                                            │
│ - Outcome reward (matematik doğruluğu, kod testleri)          │
│ - Format compliance bonus                                       │
│ - Sonuç: AIME %71, ama düşünce karmaşası problemi             │
└─────────────────────────────────────────────────────────────┘
                            ↓
┌─────────────────────────────────────────────────────────────┐
│ Aşama 2: Cold Start (SFT)                                      │
│ - 1000-2000 yüksek kaliteli reasoning örneği                  │
│ - İnsan ya da AI ile annotated, format tutarlı                │
│ - 1 epoch SFT                                                   │
│ - Amaç: format tutarlılığı + okuma kolaylığı                  │
└─────────────────────────────────────────────────────────────┘
                            ↓
┌─────────────────────────────────────────────────────────────┐
│ Aşama 3: Reasoning RL                                          │
│ - Cold-started model üzerinde tekrar GRPO                     │
│ - Daha geniş reasoning task dağılımı                          │
│ - Math + Code + General reasoning                              │
│ - Sonuç: AIME %79, format temiz                                │
└─────────────────────────────────────────────────────────────┘
                            ↓
┌─────────────────────────────────────────────────────────────┐
│ Aşama 4: Distillation                                          │
│ - R1'in çıktılarıyla 800K reasoning dataset                   │
│ - Bu dataset Qwen + Llama tabanlı modellere SFT              │
│ - Sonuç: R1-Distill-Qwen-32B, R1-Distill-Llama-70B vs.        │
│ - Quality: full R1'in %80-90'ı, ama 20× daha küçük model      │
└─────────────────────────────────────────────────────────────┘

8.1 R1 vs R1-Zero karşılaştırma#

Özellik	R1-Zero	R1
SFT	Yok	1000-2000 örnek
AIME 2024	%71	%79
Format tutarlılığı	Kötü	İyi
Okunabilirlik	Düşük	Yüksek
Production'a hazır	Hayır	Evet

R1-Zero'nun akademik değeri: 'SFT olmadan da reasoning öğreniliyor' kanıtı. R1'in pratik değeri: production-ready Türkçe-eğitilebilir model.

9.1 R1-Distill modeller#

DeepSeek 6 distilled model yayınladı:

R1-Distill-Qwen-1.5B (mobile, edge)
R1-Distill-Qwen-7B (RTX 4090'da çalışır)
R1-Distill-Qwen-14B
R1-Distill-Qwen-32B (H100 sweet spot)
R1-Distill-Llama-8B
R1-Distill-Llama-70B (production frontier)

Distill nasıl çalışıyor:

R1 (full 671B) 800K reasoning örnek üretir
Bu örnekler Qwen veya Llama base'e SFT ile aktarılır
Küçük model R1 davranışını taklit eder

Quality recovery:

R1 (full): AIME %79
R1-Distill-32B: AIME %72 (%91)
R1-Distill-14B: AIME %63 (%80)
R1-Distill-7B: AIME %55 (%70)

Küçük model çok bilgi koruyabiliyor. Distillation çok güçlü.

10.1 Türkçe için R1 stratejisi#

3 farklı yol:

Strateji A: R1-Distill-32B kullan (no fine-tune)

Hazır, Türkçe quality decent (~%50 AIME-TR)
Maliyet: $0 (self-host) + GPU
Süre: dakikalar (deployment)

Strateji B: R1-Distill-32B'yi Türkçe DPO ile fine-tune (Modül 15.6)

5-10K Türkçe reasoning preference verisi
Quality: ~%55-60 AIME-TR (%5-10 boost)
Maliyet: $500-1000 (data + training)
Süre: 1-2 hafta

Strateji C: Sıfırdan GRPO ile Türkçe reasoning RL

En zor, en maliyetli
Türkçe-spesifik matematik corpus + GRPO eğitim
Quality potential: %60-65 AIME-TR
Maliyet: $10K-50K (compute + data)
Süre: 1-3 ay

Çoğu Türkçe team için: Strateji A veya B önerilir. Strateji C frontier research / academic projeleri için.

✅ Ders 17.4 Özeti — GRPO Derinlemesine

GRPO = PPO sadeleştirmesi. Value function yok, group-based advantage estimation (z-score). %15-20 az memory, 7 hyperparametre. R1-Zero: SFT olmadan AIME %71 — 'aha moments' fenomeni kendiliğinden gelişiyor. 4-aşama R1 pipeline: Zero → Cold Start → Reasoning RL → Distill. R1-Distill modeller: 1.5B-70B, quality recovery %70-91. Türkçe stratejileri: A (R1-Distill self-host), B (Türkçe DPO fine-tune), C (sıfırdan GRPO). Çoğu use case için A veya B yeter. Sonraki ders capstone: Türkçe reasoning model'i baştan sona — Strateji B'yi pratik olarak uygula.

Sonraki Ders: Capstone — Türkçe Reasoning Model#

Ders 17.5'te Modül 17'nin capstone'u. R1-Distill-Qwen-32B üzerine Türkçe matematik DPO fine-tune. YKS/TYT/TÜBİTAK matematik problemlerinden 5K Türkçe reasoning chain dataset. Single H100, 1 hafta, $200-500. Sonunda HuggingFace Hub'da yayında: sukruyusufkaya/r1-distill-tr-math-32b.

Frequently Asked Questions

Comparison not done in DeepSeek paper (only GRPO presented). Academic community independent tests (early 2025): **Empirical similarity**: GRPO and PPO **comparable** quality in most reasoning tasks. **GRPO advantages**: - %15-20 less memory (no value head) - %30 shorter implementation code - More tolerant to sparse reward - Fewer hyperparameters **PPO advantages**: - Mature since 2017 (lots of community experience) - Slightly better in continuous reward landscapes - More documentation **Decision**: new reasoning project = GRPO. Existing PPO setup working = continue.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...