Türkçe için R1-Distill-32B Llama mı Qwen tabanlı mı?

DeepSeek **iki distill ailesi** çıkardı: **Qwen-based**: 1.5B, 7B, 14B, 32B - Multilingual güçlü (Qwen Çin merkezli ama TR + EN + AR vs.) - Türkçe quality: iyi - License: Qwen license (commercial OK) **Llama-based**: 8B, 70B - İngilizce-merkezli (Meta Llama tabanlı) - Türkçe quality: orta (multilingual finetuning gerekebilir) - License: Llama 3.1 community license **Türkçe için tercih**: - General reasoning: **R1-Distill-Qwen-32B** (multilingual base, Türkçe iyi) - Frontier quality (70B): **R1-Distill-Llama-70B** + Türkçe fine-tune - Edge/mobile: R1-Distill-Qwen-7B veya 1.5B Çoğu Türkçe production için **Qwen 32B sweet spot**.

DeepSeek-R1 GRPO Derinlemesine: Açık Reasoning RL'in Matematiği — Group Relative Policy Optimization

DeepSeek-R1'in (Ocak 2025) ana eğitim algoritması GRPO (Group Relative Policy Optimization). PPO'dan farkları satır satır türev. Value function'sız avantaj tahmini (grup karşılaştırması). 4 aşamalı eğitim (R1-Zero → Cold Start → Reasoning RL → Distill) detaylı walk-through. 'Aha moments' empirik fenomeni — paper'da verilen örnekler ve istatistik analiz. Türkçe için R1 fine-tune stratejileri.

Şükrü Yusuf KAYA

90 dakikalık okuma

24.06.2026

İleri

DeepSeek-R1 GRPO Derinlemesine: Açık Reasoning RL'in Matematiği — Group Relative Policy Optimization

🔬 R1 — Açık Reasoning'in Matematik Dersi

20 Ocak 2025. DeepSeek-AI paper yayınladı: R1. 22 sayfa, tam matematik, kod referansları. o1'in açık karşılığı. Ne olağanüstüydü? Sadece kalite değil (o1'e çok yakın), açıklık da. Algoritma açık, ağırlıklar açık, training pipeline açık.

Bu ders R1'in ana algoritması GRPO'yu satır satır türetiyor. GRPO = Group Relative Policy Optimization. PPO'nun (Modül 15.3) sadeleştirilmiş versionu. Value function yok. Group-based advantage estimation. Daha az hyperparameter, daha basit implementation, daha az memory.

Bu, frontier reasoning AI'in altındaki matematik. Modül 15.5'te kısa giriş yapmıştık — bu ders onu derinleştiriyor (90 dakika vs 75 dakika), paper'dan empirik veri ekliyor, 'aha moments' fenomenini istatistiksel analiz ediyor.

Müfredatın en yeni araştırma içeriği. Sonunda: kendi reasoning model'ini eğitebilir, R1'i Türkçe için fine-tune edebileceksin.

Bu Derste Neler Var? (12 Bölüm)#

R1 paper'ı özet — 22 sayfanın anatomisi
PPO'dan GRPO'ya — niye sadeleştirme?
GRPO matematik türevi — adım adım
Group advantage estimation — value function ortadan kalkıyor
R1-Zero deneyimi — sıfır SFT, sadece RL
'Aha moments' empirik analiz
4-aşama eğitim pipeline — Cold Start + Reasoning RL + Distill
R1 vs R1-Zero karşılaştırma
R1-Distill modeller — Qwen + Llama tabanlı
Türkçe için R1 fine-tune stratejisi
Production R1 deployment — vLLM ile
Egzersizler ve pratik notlar

2-4. GRPO Matematik Türevi#

2.1 PPO'dan GRPO'ya — motivasyon#

PPO (Schulman 2017, Modül 15.3) reasoning task'larında çalışıyor ama:

Value function gerekiyor (extra forward pass)
Value head policy head'i bozabiliyor (training instability)
Sparse reward ile value tahmini zor (reasoning'de ödül sadece sonda)

DeepSeek ekibi 2024'te şunu fark etti: 'Eğer aynı prompt'tan G yanıt üretip puanlarımızı karşılaştırırsak, value function'a gerek kalmıyor.'

2.2 GRPO formal türev#

PPO advantage:

A_t^PPO = R_t - V(s_t)

Value function V tahmini.

GRPO advantage:

For each prompt p, sample G responses: y_1, ..., y_G
Get rewards: r_1, ..., r_G
Group statistics:
    μ = mean(r_1, ..., r_G)
    σ = std(r_1, ..., r_G)
GRPO advantage for response y_i:
    A_i = (r_i - μ) / σ

Z-score standardizasyon. Grup içinde ortalamadan ne kadar daha iyi/kötü?

2.3 GRPO loss fonksiyonu#

PPO loss yapısını koruyor, ama advantage farklı:

L_GRPO = -E[
    Σ_i Σ_t min(
        ratio_t × A_i,
        clip(ratio_t, 1-ε, 1+ε) × A_i
    ) - β × KL(π_θ || π_ref)
]

Değişiklikler:

Token-level advantage → response-level A_i
Value function loss yok (L^VF kaldırıldı)
KL penalty aynı (PPO'da olduğu gibi)
Cliprange aynı

2.4 Niye 'group relative' işe yarıyor?#

İstatistiksel argüman: aynı prompt'a verilen yanıtlar comparable (aynı zorluk, aynı context). Grup ortalaması doğal bir 'baseline' oluşturuyor.

Value function'ın işi (baseline tahmini) → grup ortalaması ile yapılıyor. Daha basit, daha kararlı.

Mathematical equivalence: G→∞ limiti'te grup ortalaması value function'a yaklaşıyor. Pratik G=4-16 yeter.

2.5 Computational savings#

PPO:

Forward (policy) + Forward (value) + Forward (ref) = 3 forward
Gradient hesabı 2 head üzerinden

GRPO:

Forward (policy) + Forward (ref) = 2 forward
- G adet generation (paralel)
Gradient hesabı 1 head üzerinden

Memory: %15-20 az. Hyperparameter: ~7 (vs PPO'nun ~12).

4.1 Group size G seçimi#

G = 4: minimum, hızlı ama gürültülü G = 8: pratik sweet spot (DeepSeek-R1 kullandı) G = 16: daha kararlı, daha pahalı G = 32+: marjinal fayda azalan

Genelde G=8 önerilen başlangıç noktası.

5-6. R1-Zero ve 'Aha Moments'#

5.1 R1-Zero deneyimi#

DeepSeek paper'ının en şaşırtıcı kısmı: R1-Zero.

Kurulum:

Base model: DeepSeek-V3 (671B param, 37B active)
SFT yok (Modül 14'teki gibi fine-tune adımı atlanmış)
Doğrudan GRPO ile RL
Reward: outcome-only (matematik için: doğru cevap mı?)

Beklenti: çalışmaz veya kötü çalışır. Sonuç: AIME 2024'te %15.6 → %71.0!

5.2 'Aha moments' fenomeni#

R1-Zero eğitimi sırasında DeepSeek ekibi şaşırtıcı bir şey gözledi: model kendiliğinden 'durup düşünme' davranışı geliştirdi.

Paper'daki örnek (Türkçe çeviri):

Problem: '5x² - 3x + 1 = 0' çöz

R1-Zero çıktısı (orijinal İngilizce):
'Let me solve this quadratic equation. 
 a=5, b=-3, c=1.
 Discriminant = b²-4ac = 9-20 = -11.
 Hmm, wait. Let me verify: b² = 9, 4ac = 4·5·1 = 20.
 Yes, b² - 4ac = -11.
 Discriminant negative, so no real solutions.
 Actually wait, let me re-read the problem...
 [Sonra model orijinal soruyu tekrar okur, doğrulamayı yapar]
 Yes, my analysis is correct. No real solutions.'

'wait', 'let me verify', 'actually wait' — bu kalıplar hiçbir SFT verisinde yoktu. Model kendi kendine geliştirdi.

6.1 Niye 'aha moments' oluşuyor?#

Matematiksel argüman:

(a) Reward landscape: matematik problemi'nin reward'ı binary (doğru/yanlış). Kısa cevaplar sıklıkla yanlış.

(b) Test-time compute optimization: model 'daha uzun düşünüp daha doğru cevaplama' arasında trade-off öğreniyor.

(c) Emergent behavior: belirli reasoning patterns (kendini doğrulama, geri dönme) doğal olarak yüksek reward kazanıyor → RL pekiştiriyor.

Bu AI tarihinde bir an — model kendiliğinden 'meta-cognition' davranışı geliştirdi. Birçok araştırmacı 2-3 yıl önce 'bu olmaz' diyordu.

6.2 R1-Zero limitleri#

R1-Zero süper etkileyici ama kötü tarafları:

Okumayı zorlaştıran düşünce karmaşası: model bazen tekrarlanan, kafa karıştıran reasoning
Dil karışıklığı: bazen İngilizce + başka diller karışıyor
Format inconsistency: cevap formatı tutarsız

Bu yüzden R1 (full pipeline) eklendi — production'a hazır versiyonu.

7-9. 4-Aşama Pipeline + R1-Distill#

7.1 R1 Full Pipeline (DeepSeek paper)#

┌─────────────────────────────────────────────────────────────┐
│ Aşama 0: Base Model                                            │
│ DeepSeek-V3 (671B params, 37B active MoE)                     │
│ Pre-trained, RL gör hazır                                       │
└─────────────────────────────────────────────────────────────┘
                            ↓
┌─────────────────────────────────────────────────────────────┐
│ Aşama 1: R1-Zero (RL-only, no SFT)                            │
│ - GRPO ile direkt RL                                            │
│ - Outcome reward (matematik doğruluğu, kod testleri)          │
│ - Format compliance bonus                                       │
│ - Sonuç: AIME %71, ama düşünce karmaşası problemi             │
└─────────────────────────────────────────────────────────────┘
                            ↓
┌─────────────────────────────────────────────────────────────┐
│ Aşama 2: Cold Start (SFT)                                      │
│ - 1000-2000 yüksek kaliteli reasoning örneği                  │
│ - İnsan ya da AI ile annotated, format tutarlı                │
│ - 1 epoch SFT                                                   │
│ - Amaç: format tutarlılığı + okuma kolaylığı                  │
└─────────────────────────────────────────────────────────────┘
                            ↓
┌─────────────────────────────────────────────────────────────┐
│ Aşama 3: Reasoning RL                                          │
│ - Cold-started model üzerinde tekrar GRPO                     │
│ - Daha geniş reasoning task dağılımı                          │
│ - Math + Code + General reasoning                              │
│ - Sonuç: AIME %79, format temiz                                │
└─────────────────────────────────────────────────────────────┘
                            ↓
┌─────────────────────────────────────────────────────────────┐
│ Aşama 4: Distillation                                          │
│ - R1'in çıktılarıyla 800K reasoning dataset                   │
│ - Bu dataset Qwen + Llama tabanlı modellere SFT              │
│ - Sonuç: R1-Distill-Qwen-32B, R1-Distill-Llama-70B vs.        │
│ - Quality: full R1'in %80-90'ı, ama 20× daha küçük model      │
└─────────────────────────────────────────────────────────────┘

8.1 R1 vs R1-Zero karşılaştırma#

Özellik	R1-Zero	R1
SFT	Yok	1000-2000 örnek
AIME 2024	%71	%79
Format tutarlılığı	Kötü	İyi
Okunabilirlik	Düşük	Yüksek
Production'a hazır	Hayır	Evet

R1-Zero'nun akademik değeri: 'SFT olmadan da reasoning öğreniliyor' kanıtı. R1'in pratik değeri: production-ready Türkçe-eğitilebilir model.

9.1 R1-Distill modeller#

DeepSeek 6 distilled model yayınladı:

R1-Distill-Qwen-1.5B (mobile, edge)
R1-Distill-Qwen-7B (RTX 4090'da çalışır)
R1-Distill-Qwen-14B
R1-Distill-Qwen-32B (H100 sweet spot)
R1-Distill-Llama-8B
R1-Distill-Llama-70B (production frontier)

Distill nasıl çalışıyor:

R1 (full 671B) 800K reasoning örnek üretir
Bu örnekler Qwen veya Llama base'e SFT ile aktarılır
Küçük model R1 davranışını taklit eder

Quality recovery:

R1 (full): AIME %79
R1-Distill-32B: AIME %72 (%91)
R1-Distill-14B: AIME %63 (%80)
R1-Distill-7B: AIME %55 (%70)

Küçük model çok bilgi koruyabiliyor. Distillation çok güçlü.

10.1 Türkçe için R1 stratejisi#

3 farklı yol:

Strateji A: R1-Distill-32B kullan (no fine-tune)

Hazır, Türkçe quality decent (~%50 AIME-TR)
Maliyet: $0 (self-host) + GPU
Süre: dakikalar (deployment)

Strateji B: R1-Distill-32B'yi Türkçe DPO ile fine-tune (Modül 15.6)

5-10K Türkçe reasoning preference verisi
Quality: ~%55-60 AIME-TR (%5-10 boost)
Maliyet: $500-1000 (data + training)
Süre: 1-2 hafta

Strateji C: Sıfırdan GRPO ile Türkçe reasoning RL

En zor, en maliyetli
Türkçe-spesifik matematik corpus + GRPO eğitim
Quality potential: %60-65 AIME-TR
Maliyet: $10K-50K (compute + data)
Süre: 1-3 ay

Çoğu Türkçe team için: Strateji A veya B önerilir. Strateji C frontier research / academic projeleri için.

✅ Ders 17.4 Özeti — GRPO Derinlemesine

GRPO = PPO sadeleştirmesi. Value function yok, group-based advantage estimation (z-score). %15-20 az memory, 7 hyperparametre. R1-Zero: SFT olmadan AIME %71 — 'aha moments' fenomeni kendiliğinden gelişiyor. 4-aşama R1 pipeline: Zero → Cold Start → Reasoning RL → Distill. R1-Distill modeller: 1.5B-70B, quality recovery %70-91. Türkçe stratejileri: A (R1-Distill self-host), B (Türkçe DPO fine-tune), C (sıfırdan GRPO). Çoğu use case için A veya B yeter. Sonraki ders capstone: Türkçe reasoning model'i baştan sona — Strateji B'yi pratik olarak uygula.

Sonraki Ders: Capstone — Türkçe Reasoning Model#

Ders 17.5'te Modül 17'nin capstone'u. R1-Distill-Qwen-32B üzerine Türkçe matematik DPO fine-tune. YKS/TYT/TÜBİTAK matematik problemlerinden 5K Türkçe reasoning chain dataset. Single H100, 1 hafta, $200-500. Sonunda HuggingFace Hub'da yayında: sukruyusufkaya/r1-distill-tr-math-32b.

Sık Sorulan Sorular

DeepSeek paper'ında karşılaştırma yapılmamış (sadece GRPO sunulmuş). Akademik camianın bağımsız testleri (2025 başı): **Empirik benzerlik**: çoğu reasoning task'ta GRPO ve PPO **comparable** quality. **GRPO avantajları**: - %15-20 daha az memory (value head yok) - Implementation %30 daha kısa kod - Sparse reward'a daha tolerant - Daha az hyperparameter **PPO avantajları**: - 2017'den beri olgun (community deneyimi çok) - Continuous reward landscape'lerde biraz daha iyi - Daha çok dokümantasyon **Karar**: yeni reasoning project = GRPO. Mevcut PPO setup'ın çalışıyorsa = devam et.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Modül 0: Kurs Çerçevesi ve Atölye Kurulumu