Can other preference models be used instead of Bradley-Terry?

Yes, alternatives exist: **Thurstone-Mosteller** (1927) — normal distribution based. **Bradley-Terry-Luce** extension for multi-comparison. **Plackett-Luce** (1975) — for N-ranking. Modern RLHF uses Bradley-Terry because: (1) sigmoid derivative is clean, (2) natural for two-way comparison, (3) clean gradient flow. Thurstone uses normal CDF — numerically more expensive. Plackett-Luce for complex comparisons.

What's the ideal compute for RM training?

Typical production setup: **10K-100K comparisons**, 1 epoch, bf16, Llama-3-8B base. **Hardware**: 1× H100 (80GB) with QLoRA-RM in 4-8 hours. **Cost**: $20-50. Smaller: 5K comparisons, 1 H100, 2 hours, $10. Bigger: 200K comparisons, 4× H100, 12 hours, $400. Data quality matters more than quantity — 5K well-labeled comparisons better than 50K poorly labeled.

Is RM's score (from -10 to +10) a consistent 'value', or just ranking?

**Only ranking**. RM's `r(A) = 3.8` output doesn't mean 'A is 3.8 points good'. Just means 'r(B) = 1.2, so A > B'. **Absolute values of scores carry no meaning**. This affects calibration: after RM training, scores represent a 'difference' (relative), and this difference converts to probability via Bradley-Terry (σ(diff)). But **magnitude** may not be calibrated — RM says σ(3) but real preference is %85, not %95.

Reward model validation accuracy is %90+, is that too good?

**Suspicious**. Inter-rater agreement is %80-85 — humans don't agree that much among themselves. RM achieving %90+ means: **(a)** Data leak: eğitim ve val sets have similar examples. RM 'memorizing'. **(b)** Data too easy: chosen and rejected very distinctly different (e.g. chosen good, rejected empty or nonsense). RM learning trivial pattern. **(c)** Labeler over-consistent (single person did all labels) → no diversity. Solution: check val set hygiene, measure data diversity, test with additional 'hard' examples.

What distribution does reward model output show — after training?

Well-trained RM output approximately **normal distribution**: mean ~0, std ~1-3. Bad signs: - **Std too small** (~0.1): model can't distinguish, all near zero - **Std too large** (>5): over-confident, miscalibrated - **Bimodal distribution**: model classifies 'good/bad' binary, gradient signal limited - **Skew**: extreme positive or negative tail — bias present Ideal: mean near 0, slightly right-skewed (RM gives noticeable higher scores to preferred), std 1-2.

Can I use reward model directly for fine-tune instead of PPO?

Yes, established method: **Best-of-N sampling**. Model generates N different responses, RM scores all, highest selected. No PPO training, just inference. **Pro**: very simple, not exposed to RL pitfalls. **Con**: N× compute (N inferences per response). N=64 typical but expensive. This method also known as 'rejection sampling'. Used in pre-RLHF stage in Llama-2 and Llama-3 papers. Modern practice: can use instead of PPO but PPO/DPO still popular in production — because model learns to 'inherently' produce good responses, doesn't need N× samples at runtime.

Mathematics of the Reward Model: From Bradley-Terry 1952 to Modern LLM Reward Architecture

Mathematical anatomy of the reward model — the heart of RLHF: derivation of Bradley-Terry 1952 logistic preference model, probabilistic interpretation of sigmoid, derivative of ranking loss, RM architectural choices (separate from SFT vs shared trunk + value head), calibration and overconfidence problems, Plackett-Luce extension for multiple comparisons, practical pitfalls of RM training for Turkish.

Şükrü Yusuf KAYA

85 min read

5/13/2026

Advanced

Reward Model'in Matematiği: Bradley-Terry 1952'den Modern LLM Reward Mimari'ye — Tercihten Skalar Skora Geçiş

🎯 Reward Model — RLHF'in 'değer yargısı' organı

RLHF'i bir insanın beyni gibi düşün. SFT — kendin için temel davranışları öğretiyor (yürümek, konuşmak). PPO — eylem-tepkiyle inceltiyor. Ama hangi eylem 'iyi' hangisi 'kötü' — bu kararı veren reward model. RLHF'in vicdanı. Bu ders, vicdanın matematiğini anlatıyor. Bradley & Terry 1952'de iki sporcu turnuvası için yazdığı logistik denklemden başlayıp, 2024 modern reward model mimari kararlarına kadar. Mat'in soyut değil — her formülün arkasında bir tasarım sebebi var. Bittiğinde, kendin reward model yazabilir, eğitebilir, hata-ayıklayabilir hale geleceksin. RLHF'in en derin matematik dersi.

Bu Derste Neler Var? (14 Bölüm)#

Reward model'in işi: ne giriş, ne çıktı, niye gerekli
Bradley-Terry 1952 — basketbol turnuvalarından doğan model
Sigmoid'in olasılıkçı yorumu — niye lojistik fonksiyon
Bradley-Terry türevi — sıfırdan, kalemiyle
Ranking loss — log-likelihood maksimizasyonu
Gradient akışı — model nasıl öğreniyor
RM mimari kararları — separate model vs shared trunk
Value head — son token mı, ortalama mı, learnable pooling mı
Kalibrasyon sorunu — overconfidence ve önceliklendirme
Plackett-Luce uzantısı — 4-li tercih sıralaması için
Implementation: HuggingFace TRL ile — production-grade
Türkçe RM eğitimi — pratik tuzaklar
RM evaluation — held-out accuracy, calibration, inter-rater
Egzersizler ve çözümleri — 10 problem

1. Reward Model'in İşi#

1.1 Giriş ve çıktı#

Reward model (RM), bir LLM cevabının ne kadar iyi olduğunu skalar bir sayıyla ifade eder.

Giriş: (prompt, response) çifti
Çıktı: r ∈ ℝ (genelde -10 ile +10 arası)

Örnek:

prompt: 'Bir Türk kahvesi tarifi ver.'
response_A: 'Türk kahvesi yapımı: 1 yemek kaşığı kahve, su, şeker isteğe bağlı. Cezvede pişir.'
response_B: 'Türk kahvesini cezve içinde, fincan ölçüsüyle soğuk suyla yıkayarak hazırlarız. Karıştırmadan kısık ateşte kabarana dek pişiririz...'

RM çıktı:

r(A) = 1.2
r(B) = 3.8

B daha yüksek puan aldı çünkü daha detaylı, tutarlı, gelenekle uyumlu.

1.2 RM nasıl 'biliyor' iyi olanı?#

RM eğitilir. Eğitim verisi:

Dataset = [(prompt₁, response_A₁, response_B₁, tercih_edilen_1),
           (prompt₂, response_A₂, response_B₂, tercih_edilen_2),
           ...]

Her satırda: bir prompt, iki cevap, ve insan etiketleyicinin hangisini tercih ettiği (A veya B).

RM bu verilerden öğrenir: 'A'yı tercih edilen örneklerin paylaştığı pattern'ler ne?'

1.3 Niye skalar?#

RM'nin output'u tek sayı. Niye değil mesela vector?

Çünkü RL aşamasında (PPO) karşılaştırma değil gradyent sinyali gerekiyor. PPO her token üretildiğinde 'bu iyiydi mi, kötüydü mü?' soruyor. Cevap skalar sayı. Vector olsa, ağırlıklandırma sorunu çıkardı.

1.4 RM neden sıralama öğrenir, mutlak değer değil?#

İnsan 'iyi'ye sayı veremiyor. 'Bu cevap 7.3 puan' diye etiket veremezsin. Ama 'B, A'dan iyi' diyebilirsin.

Bu göreli bilgi, RM'i monoton bir fonksiyon olarak eğitmeye yetiyor — A < B ise r(A) < r(B). Mutlak değerin anlamı yok; sadece sıralama önemli.

Bu nokta kritik: RM'in

r(A) = 3.8

çıktısı 'A 3.8 puan iyi' demek değil. Sadece 'r(B) = 1.2 ise A, B'den iyi' demek.

2-3. Bradley-Terry 1952 — Basketbol'dan Doğan Matematik#

2.1 Tarihçe#

Ralph Allan Bradley ve Milton E. Terry 1952'de bir paper yayımladı: 'Rank Analysis of Incomplete Block Designs: I. The Method of Paired Comparisons'

Problem: 4 sporcu turnuva yapıyor. Hepsi birbirleriyle eşleşmedi (incomplete tournament). Maç sonuçlarından sporcu gücünü nasıl tahmin ederiz?

Veri:

A vs B: A kazandı (3 maç)
A vs C: C kazandı (2 maç)
B vs D: B kazandı (1 maç)
...

Sıralama: A, B, C, D? Veya başka? Maç-bazlı doğrudan sayı vermek yetmez (örnek: A 2 maçta 1 kazanmış, B 4 maçta 3 kazanmış — kim daha iyi?).

2.2 Bradley-Terry modeli#

Her sporcuya bir gizli güç parametresi atayalım: π_A, π_B, π_C, π_D > 0.

İki sporcu eşleştiğinde, A'nın kazanma olasılığı:

P(A kazanır | A vs B) = π_A / (π_A + π_B)

Bu formül lojistik yapıdadır. Eşitse (π_A = π_B), olasılık 1/2. A çok güçlüyse (π_A >> π_B), olasılık ~1.

2.3 Log-skor temsili#

Güç parametresini log-skor olarak yeniden yazalım:

r_A = log(π_A)
r_B = log(π_B)

O zaman:

P(A | A vs B) = e^{r_A} / (e^{r_A} + e^{r_B})
             = 1 / (1 + e^{-(r_A - r_B)})
             = σ(r_A - r_B)

İşte sigmoid! Bradley-Terry'nin RLHF'te kullandığımız hâli, tarihsel olarak 1952'den geliyor.

2.4 RLHF'te uyarlama#

Sporcu → cevap. Maç → karşılaştırma. Güç → reward model çıktısı.

P(A tercih edilir | prompt, A vs B) = σ(RM(prompt, A) - RM(prompt, B))

Bu denklem, RLHF reward model eğitiminin kalbi.

3.1 Sigmoid'in olasılıkçı yorumu#

Sigmoid: σ(x) = 1 / (1 + e^{-x}).

Özellikleri:

σ(0) = 0.5 (eşit)
σ(+∞) = 1 (kesin)
σ(-∞) = 0 (imkansız)
σ monoton artan, türevlenebilir

Niye sigmoid (başka bir fonksiyon değil)?

Çünkü Bradley-Terry'de güç oranı π_A/π_B doğal olarak

e^{r_A - r_B}

yapısında ve toplam 1'e normalize etmek için sigmoid çıkıyor. Türetilebilir matematiksel zorunluluk, ad hoc seçim değil.

4-6. Bradley-Terry Türevi ve Loss#

4.1 Tek bir gözlem için olasılık#

Veride bir satır:

prompt p
cevap A, cevap B
insan tercih etti: A

Bradley-Terry'ye göre, RM'in bu örnek için 'doğru olma olasılığı':

P(A tercih | p, A, B, RM) = σ(RM(p, A) - RM(p, B))

Bu olasılığı maksimize etmek istiyoruz (RM doğru sıralasın).

4.2 N gözlem için log-likelihood#

N adet karşılaştırmamız var. Hepsinde A_i tercih edilmiş (B_i reddedilmiş). Toplam likelihood:

L = ∏_{i=1}^N σ(RM(p_i, A_i) - RM(p_i, B_i))

Çarpım yerine log alalım (sayısal stabilite, optimize edilebilirlik):

log L = Σ_{i=1}^N log σ(RM(p_i, A_i) - RM(p_i, B_i))

Loss = -log L (minimize edilecek):

Loss = -Σ_{i=1}^N log σ(RM(p_i, A_i) - RM(p_i, B_i))

Bu RLHF reward model eğitiminin resmi loss fonksiyonu.

4.3 Sigmoid'in log'u#

log σ(x) = log(1 / (1 + e^{-x})) = -log(1 + e^{-x})

Bu yapı 'softplus' fonksiyonunun negatifi. Sayısal stabilite için PyTorch'ta

F.logsigmoid

kullanılır.

5.1 PyTorch implementasyon#

import torch
import torch.nn.functional as F

def rm_loss(rm_chosen, rm_rejected):
    # rm_chosen, rm_rejected: [batch_size] tensörleri
    # Her bir örnek için fark
    diff = rm_chosen - rm_rejected
    # Negatif log-sigmoid
    loss = -F.logsigmoid(diff).mean()
    return loss

5.2 Gradient sezgi#

Loss'un gradient'i:

∂L/∂RM(p, A_i) = -σ(-(RM(p, A_i) - RM(p, B_i)))
             = -(1 - σ(RM(p, A_i) - RM(p, B_i)))
             = σ(RM(p, B_i) - RM(p, A_i)) - 1   (yaklaşık)

Yani:

A çok yüksek puan alırsa (doğru): gradient küçük (model zaten doğru çıkarıyor)
A düşük puan alırsa (yanlış sıralama): gradient büyük (model yanlış, düzeltilmesi gerek)

Bu kendiliğinden adaptif bir yapı — kolay örnekleri hızla geçer, zor örneklere odaklanır.

6.1 Gradient akışı#

Loss → diff → RM(p, A_i), RM(p, B_i) üzerinden parametrelere gider. RM bir transformer, parametreleri attention + FFN ağırlıkları. Standart geri yayılım.

6.2 Margin trick (opsiyonel)#

Loss'a margin eklenebilir (sıralama daha güvenli olsun diye):

Loss = -Σ log σ(RM(p, A) - RM(p, B) - m)

m = 0.5 gibi sabit. A'nın B'den m kadar daha yüksek olması beklenir. Pratikte: bazı RLHF setup'larında işe yarıyor, çoğunda nötr. Llama-3-Instruct RM eğitiminde m=0 (default).

7-8. RM Mimari Kararları#

7.1 İki ana yaklaşım#

(A) Separate RM: tamamen ayrı transformer model.

Pro: SFT model'den bağımsız, RM evaluation kolay.
Con: 2x compute (training time hem SFT hem RM eğitiyor).

(B) Shared trunk + value head: SFT model gövdesinin üzerine küçük bir linear head ekle.

Pro: 1x compute, parameters paylaşılıyor, hızlı RM eğitimi.
Con: SFT performansı bozulabilir, head'i dondurman gerekebilir.

7.2 Modern tercih: Shared trunk#

Llama-3, GPT-4, Claude pretty much hepsi shared trunk + value head kullanıyor. Compute ekonomisi belirleyici.

7.3 Value head detayları#

class RewardModel(nn.Module):
    def __init__(self, base_model):
        super().__init__()
        self.base = base_model  # SFT model (Llama-3-8B)
        self.value_head = nn.Linear(base_model.config.hidden_size, 1)
    
    def forward(self, input_ids, attention_mask):
        # Base model'in son hidden state'ini al
        outputs = self.base(input_ids=input_ids, attention_mask=attention_mask, output_hidden_states=True)
        last_hidden = outputs.hidden_states[-1]  # [batch, seq_len, hidden]
        
        # Son anlamlı token'ın hidden'ini al
        last_token_indices = attention_mask.sum(dim=1) - 1
        last_token_hidden = last_hidden[torch.arange(last_hidden.size(0)), last_token_indices]
        
        # Skalar reward
        reward = self.value_head(last_token_hidden).squeeze(-1)  # [batch]
        return reward

7.4 Pooling kararı#

Hangi token'ın hidden state'inden reward çıkartalım?

Seçenekler:

Son token (en yaygın): generation'ın sonu, modelin 'son sözü'.
Mean pooling: tüm token'ların ortalaması.
Max pooling: en yüksek hidden değer.
Learnable pooling: ek bir attention layer ile öğrenilen ağırlık.

Llama-3 RM, Anthropic Claude RM — hepsi 'son token' kullanıyor. En basit, en yaygın.

8.1 Niye son token?#

Decoder-only model'de causal attention. Her token önceki tüm token'ları görür. Son token tüm cevabı 'özetler'. Bu sezgisel çözüm, empirik olarak en iyi sonucu veriyor.

İstisna: encoder-decoder modeller (T5 tarzı) — onlar mean pooling kullanır.

9. Kalibrasyon Sorunu#

9.1 Kalibre olmak ne demek?#

RM, prompt + cevap'a skalar veriyor. Bu skalar, gerçek insan tercih olasılığını yansıtıyor mu?

Kalibre RM:

r_A - r_B = 0 ise → %50 insan A'yı tercih etmeli (gerçekte)
r_A - r_B = 1 ise → %73 insan A'yı tercih etmeli
r_A - r_B = 2 ise → %88 insan A'yı tercih etmeli
r_A - r_B = 5 ise → %99+

(σ(1) ≈ 0.73, σ(2) ≈ 0.88)

Kalibrasyon = bu eşleşmenin doğru olması.

9.2 Overconfidence problemi#

RM'ler eğitim sonrası genelde overconfident olur:

Eğitim'de gördüğü pattern'lerde aşırı emin (gerçek olasılık %70 ama RM σ(3) = %95 diyor)
Eğitim dışı durumlarda hâlâ yüksek puan veriyor (bilmediği şeye 'kesin doğru' diyor)

Bu, RL aşamasında reward hacking kapısı.

9.3 Kalibrasyon ölçümü#

Reliability diagram:

Test setinde her örnek için r_A - r_B hesapla
Bu farkı 10 bin'e ayır (-3 ile +3 arası)
Her bin için: 'σ(orta nokta) ne diyor?' vs 'gerçek %A tercih oranı'
Çizgi grafik. Diagonal'a yakınsa kalibre.

Llama-3 RM kalibrasyonu: orta seviye bir bin'lerde iyi, uç bin'lerde overconfident. Pratikte bunu fix etmek için temperature scaling uygulanır.

9.4 Türkçe RM'in özel zorluğu#

Türkçe karşılaştırma verisi az → RM eğitimi az veri ile → daha fazla overconfidence riski.

Çözüm: Inter-rater agreement düşük olan örnekleri (insanlar arasında kararsızlık) eğitime dahil etme veya temperature scaling agresif uygulama.

10-11. Plackett-Luce ve Implementation#

10.1 İkili karşılaştırma yerine sıralama#

Klasik Bradley-Terry: 2 cevap arasında tercih. Modern RM eğitimi bazen 4-li sıralama kullanır:

prompt için 4 cevap üret (farklı temperature, model, sampling)
İnsan etiketleyici sıralasın: A > C > B > D
4!= 24 farklı sıralama mümkün; insan en iyi 4-permütasyon seçer

Bu daha bilgi yoğun: tek karşılaştırma yerine 6 ikili (4 seç 2) bilgi.

10.2 Plackett-Luce modeli#

Bradley-Terry'nin N elemana genelleştirilmiş hâli. 4 cevap, sıralama A>B>C>D için:

P(A>B>C>D) = (π_A / (π_A+π_B+π_C+π_D)) × 
              (π_B / (π_B+π_C+π_D)) ×
              (π_C / (π_C+π_D))

Reward terimleriyle:

Loss = -log[σ(r_A - logsumexp(r_B, r_C, r_D))] -
        log[σ(r_B - logsumexp(r_C, r_D))] -
        log[σ(r_C - r_D)]

Genelleştirilmiş ranking loss.

10.3 Pratik karşılaştırma#

İkili karşılaştırma: 1 etiketlemeye 1 birim bilgi
4-li sıralama: 1 etiketlemeye 6 birim bilgi (4 seç 2)
Etiketleyici süresi: ikili 30sn, 4-li ~90sn (3x)
Bilgi verimliliği: ikili 1/30 = 0.033 birim/sn, 4-li 6/90 = 0.067 birim/sn (2x daha verimli)

DeepSeek, Anthropic gibi büyük şirketler 4-li sıralama tercih ediyor. Türkçe için: hangisini seçeceğin etiketleyici niteliğine bağlı — uzman etiketleyici ise 4-li, kısa ücret çalışan ise ikili.

11.1 HuggingFace TRL ile RM eğitimi#

from trl import RewardTrainer, RewardConfig
from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained(
    'sukruyusufkaya/llama-3-8b-tr-instruct',
    num_labels=1,  # Reward = skalar
)
tokenizer = AutoTokenizer.from_pretrained('sukruyusufkaya/llama-3-8b-tr-instruct')

# Karşılaştırma datasetini yükle
# format: {'chosen': '...', 'rejected': '...'}
from datasets import load_dataset
dataset = load_dataset('sukruyusufkaya/tr-preference-50k', split='train')

config = RewardConfig(
    output_dir='./rm-tr',
    learning_rate=1e-5,
    per_device_train_batch_size=4,
    num_train_epochs=1,
    bf16=True,
    logging_steps=10,
)

trainer = RewardTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    args=config,
)
trainer.train()

11.2 Eğitim için pratik öneriler#

Düşük lr: 1e-5 ile 5e-5 arası. SFT lr'inden 5x küçük.
1 epoch: overfitting'i kolay, fazla epoch zarar verir.
Batch size: 4-16, GPU memory'ye göre.
Held-out validation: %5-10'unu eğitim dışı tut, accuracy ölç.
Early stopping: validation accuracy düşmeye başlarsa dur.

12-13. Türkçe RM Pratik Tuzaklar + Evaluation#

12.1 Türkçe RM'in en sık 5 hatası#

Hata 1: Düzgün hatalı çeviri ödüllendirme Etiketleyici Türkçesi orta seviyedeyse, gramerli ama anlamı kayık cevabı 'profesyonel' diye tercih ediyor. RM bunu öğreniyor. Çözüm: ana dil Türkçesi olan etiketleyici şart.

Hata 2: Çevirilmiş hissi veren cevabı tercih etme İngilizce-temelli model'in 'literal' çevirileri ('İlk olarak, bunu yapın' tarzı sözcüksel çeviri) doğal Türkçeden ayırt edilmiyorsa, RM bu tarzı pekiştiriyor. Türkçeyi 'sağlamayı' bilen etiketleyici lazım.

Hata 3: Verbosity bias Türkçede daha keskin Türkçe etiketleyiciler İngilizce'den daha çok 'uzun cevap = iyi cevap' eğilimli (kültürel). RM aşırı verbositive olur. Çözüm: kısa-ama-doğru cevaplara özel ödül.

Hata 4: 'Çok kibar = iyi' yanlışı Türkçede aşırı kibar/resmi cevap, gerçek bilgi vermekten kaçınma olabilir. 'Maalesef bu konuda kesin bir cevap veremem' — kibar ama yardımsız. RM bunu yüksek puanlamamalı.

Hata 5: Argo/şive görmezden gelme Türkçe etiketleyici 'standart İstanbul Türkçesi'ne aşırı önyargılı olursa, Karadeniz, Doğu, Ege ifadeleri düşük puanlanır. Model bu lehçelere karşı 'kaba' davranır. Çeşitlilik şart.

13.1 RM evaluation: 3 metrik#

Held-out accuracy:

Test setinin %10'unu eğitime dahil etme
RM tahmini hangi cevabı tercih ediyor — doğru mu?
Hedef: ≥%70. Türkçe için %65-70 makul.

Reliability diagram (kalibrasyon):

r_A - r_B vs gerçek tercih oranı
Diagonal yakın = kalibre

Inter-rater agreement floor:

Aynı tercihi 3 farklı insan etiketlerse, kaç sefer hemfikir?
Bu RM'in üst tavanını gösterir. İnsanlar %70 anlaşıyorsa, RM en fazla %70'e ulaşabilir.

13.2 Türkçe için empirik#

Trendyol-LLM ve Cosmos-LLaMa açık RM benchmarks'lar yok. Tahmini: %60-68 held-out accuracy, kalibrasyon orta. İyileştirme alanı çok.

13.3 RM çıktısını izleme#

Eğitim sırasında:

Loss kararlı düşüyor mu?
Held-out accuracy iyileşiyor mu (her 100 step'te ölç)?
Reward magnitudes mantıklı mı (ortalama 0, std 1-3 arası)?
Reward dağılımı dejenere mi (hepsi sıfıra yakın veya hepsi büyük)?

Bu sinyallerden biri kötüyse — durdur, hatayı bul.

14. Egzersizler#

E1. Bradley-Terry modelinde A vs B karşılaştırmasında π_A = 4, π_B = 1. A'nın kazanma olasılığı kaç? Aynısı reward formatında: r_A = log(4), r_B = log(1). σ(r_A - r_B) hesabla.

E2. RM eğitimi sırasında loss düşmüyor. Üç olası sebep ne? Her birini test etmek için ne yapardın?

E3. Niye RM'in son token'ının hidden state'ini kullanıyoruz? Mean pooling daha iyi olmaz mıydı? İki argüman ver — ikisini de düşün.

E4. Plackett-Luce loss'unu yazarken

logsumexp(r_B, r_C, r_D)

kullanılıyor. Niye

log(exp(r_B) + exp(r_C) + exp(r_D))

direkt kullanılmıyor? (İpucu: sayısal stabilite)

E5. RM accuracy held-out %68. İnter-rater agreement %72. RM 'iyi' mi? Argümanını detaylandır.

E6. Kalibrasyonu ölçtün: r_A - r_B = 2 olan örneklerde gerçek tercih oranı %75. RM hangi yönde miskalibre? Düzeltmek için temperature scaling katsayısı ne olmalı (sezgisel)?

E7. Türkçe için 10K karşılaştırma topluyorsun. Şu dağılımı düşün: %60 genel, %30 tarafsız (yardım istekleri), %10 hassas (politik, dini). Buradaki sorun ne? Daha iyi dağılım nasıl olur?

E8. RM eğitimi sırasında bir karşılaştırmada A çok uzun (3000 kelime), B kısa (50 kelime). Etiketleyici A'yı tercih etti. Bu örnek RM'e ne öğretiyor? Veride başka 1000 örnek aynı pattern'de olsa, RM'in 'verbosity bias' davranışı nasıl gelişir?

E9. Llama-3-8B (8B params) tabanlı RM eğitiyorsun. Eğitim memory hesabı: parametreler + gradient + optimizer state + activations. Quantitatif tahmin et (bf16 varsayımıyla).

E10. RM accuracy %75 (yüksek), ama RL (PPO) aşamasında model garip cevaplar üretiyor (verbosity, hallucination). RM'i nasıl debug edersin? Üç somut adım yaz.

✅ Ders 15.2 Özeti — Reward Model Matematiği

Reward model, RLHF'in vicdanı — insan tercihinin sayısal yaklaşımı. Bradley-Terry 1952 logistik tercih modeli, sigmoid'in olasılıkçı yorumu, ranking loss = -log σ(r_chosen - r_rejected). Modern mimari: shared trunk + value head (son token hidden → linear → skalar). Plackett-Luce 4-li sıralama için genelleme — bilgi yoğunluğu 2x. Kalibrasyon ve overconfidence sorunu — RL hacking kapısı. Türkçe RM pratik tuzaklar: verbosity bias keskin, çevirilmiş hissi, kibarlık-yardımsızlık karışımı. 10K karşılaştırma + dengeli dağılım ile production-grade Türkçe RM mümkün. Sonraki ders: PPO. Reward model'i kullanarak modeli güncelleme — algoritmanın matematiği.

Sonraki Ders: PPO Algoritması Satır Satır#

Ders 15.3 — Schulman 2017 PPO'nun klasik RL'den, LLM RL'ine uyarlanması. Policy ve value loss türetilmesi, KL penalty matematiği, clipping mekanizması, advantage estimation (GAE). Niye PPO 'proximal'? Niye 'clip'? Türkçe RM ile production PPO. Sonra 15.4'te DPO devrim — bu üç ders'in matematiğini tek bir loss fonksiyonuna damıtıyor.

Frequently Asked Questions

Modern practice: **same transformer + extra value head**. SFT model's trunk (attention + FFNs) shared, just add small linear projection outputting scalar at the end. This halves training cost. Old approach (Christiano 2017, Stiennon 2020) used completely separate model — shared trunk became standard after Llama-2. Llama-3-Instruct, Mistral-Instruct, Claude — all use shared trunk + value head.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...