RLHF Klasik: Reward Model + PPO + KL Constraint — Niye Üretim Seti Terk Etti?
RLHF (Christiano et al. 2017, InstructGPT 2022) — modern alignment'ın temeli. 3 aşama: SFT base + reward model train + PPO with KL constraint. Niye yarın ortada kayboldu? PPO'nun instability'si, value head'in maintenance burden'ı, DPO'nun pratik üstünlüğü. RTX 4090'da TRL ile mini-RLHF demo.
Şükrü Yusuf KAYA
32 dakikalık okuma
İleri1. RLHF — 3 Aşamalı Pipeline#
Aşama 1: SFT base model → SFT on instruction dataset → π_SFT Aşama 2: Reward model prompts × {chosen, rejected} → train RM (regression on preference score) → R_φ Loss: -log σ(R_φ(chosen) - R_φ(rejected)) Aşama 3: PPO π_SFT'nin ağırlıklarını başlat her step: - Sample response from π_θ - Compute reward: r = R_φ(response) - β · KL(π_θ || π_SFT) - PPO update: maximize clipped objective
2. KL Constraint — Niye Önemli?#
PPO modelinin kalitesini optimize ederken SFT'ye yakın kalmalı — çünkü:
- Reward model imperfect (hata yapar)
- Modelin "reward gaming" yapma riski (over-optimization)
- Generation çeşitliliğini koru
KL constraint:
r_total = r_RM - β · KL(π_θ || π_SFT)- tipik
β = 0.01-0.1 - KL büyük → policy SFT'den uzak → penalti
- KL küçük → SFT yakın kal
3. Niye Üretim Seti RLHF'yi Terk Etti?#
| Problem | Etki |
|---|---|
| 3-stage pipeline complexity | Kod tabanı büyük, debug zor |
| PPO instability | Hyperparam-sensitive, divergence riski |
| Value head maintenance | Ek 1B param, training cost yüksek |
| Reward hacking | Model RM'i exploit eder, kalite düşer |
| GPU memory | 4 model birden: actor, critic, RM, ref → 4×W |
| DPO equivalent | Aynı kalite, 1 stage, daha stable |
Sonuç: 2023 sonrası endüstri DPO/ORPO/KTO'ya kaydı. RLHF/PPO hâlâ research'te (özellikle reasoning RL) ama production'da nadir.
✅ Teslim
- RLHF pipeline'ı kavramsal anla — modern alignment'ın 'before' resmi. 2) TRL'in PPOTrainer dokümentasyonu oku. 3) Sonraki ders: 11.2 — DPO Math (Bradley-Terry Derivation).
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Part 0 — Engineering Foundations
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
Öğrenmeye BaşlaPart 0 — Engineering Foundations