GRPO RL Stage: Math + Code Reward — Convergence Sayıları (Qwen-7B + GSM8K +%5-8)

Reasoning model'in son aşaması: GRPO ile RL. SFT base'in üzerine math correctness + code execution reward'larıyla GRPO. Reward shaping (correctness 1.0, format 0.2, length penalty 0.001), advantage normalization, KL constraint. RTX 4090 + Qwen 2.5 7B-Instruct + GSM8K: 6-8 saat, accuracy +%5-8.

Şükrü Yusuf KAYA

30 dakikalık okuma

27.06.2026

İleri

GRPO RL Stage: Math + Code Reward — Convergence Sayıları (Qwen-7B + GSM8K +%5-8)

1. GRPO Convergence Sayıları (Cookbook ölçümleri)#

Qwen 2.5 7B-Instruct + GSM8K + GRPO (cookbook Part XI Ders 11.7 reference):

Step	GSM8K accuracy	Avg reward
0 (base)	85.4	0.85
100	86.8	0.87
200	88.2	0.89
400	89.5	0.91
800	90.6	0.93
1500	91.2	0.94
3000	91.5	0.94 (plateau)

Convergence pattern:

İlk 200 step: hızlı improvement
200-800: orta tempo
800-1500: yavaşlama
1500+: plateau, marginal

Cookbook'un kuralı: GRPO'da 1500-2000 step yeter. Daha fazla compute'u DPO veya başka domain'e harca.

✅ Teslim

Part XI 11.7'deki GRPO Lab'ı çalıştır. 2) Convergence eğrisini gör. 3) Sonraki ders: 12.5 — Long-CoT Stability.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Part 0 — Engineering Foundations

Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı

Öğrenmeye Başla

Part 0 — Engineering Foundations

Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir

Öğrenmeye Başla

Part 0 — Engineering Foundations

Environment Pinning: uv + pyproject.toml, CUDA Version Matrix ve Container Reçeteleri

Öğrenmeye Başla