Skip to content

Mathematics of the Reward Model: From Bradley-Terry 1952 to Modern LLM Reward Architecture

Mathematical anatomy of the reward model — the heart of RLHF: derivation of Bradley-Terry 1952 logistic preference model, probabilistic interpretation of sigmoid, derivative of ranking loss, RM architectural choices (separate from SFT vs shared trunk + value head), calibration and overconfidence problems, Plackett-Luce extension for multiple comparisons, practical pitfalls of RM training for Turkish.

Şükrü Yusuf KAYA
85 min read
Advanced
Reward Model'in Matematiği: Bradley-Terry 1952'den Modern LLM Reward Mimari'ye — Tercihten Skalar Skora Geçiş
🎯 Reward Model — RLHF'in 'değer yargısı' organı
RLHF'i bir insanın beyni gibi düşün. SFT — kendin için temel davranışları öğretiyor (yürümek, konuşmak). PPO — eylem-tepkiyle inceltiyor. Ama hangi eylem 'iyi' hangisi 'kötü' — bu kararı veren reward model. RLHF'in vicdanı. Bu ders, vicdanın matematiğini anlatıyor. Bradley & Terry 1952'de iki sporcu turnuvası için yazdığı logistik denklemden başlayıp, 2024 modern reward model mimari kararlarına kadar. Mat'in soyut değil — her formülün arkasında bir tasarım sebebi var. Bittiğinde, kendin reward model yazabilir, eğitebilir, hata-ayıklayabilir hale geleceksin. RLHF'in en derin matematik dersi.

Bu Derste Neler Var? (14 Bölüm)#

  1. Reward model'in işi: ne giriş, ne çıktı, niye gerekli
  2. Bradley-Terry 1952 — basketbol turnuvalarından doğan model
  3. Sigmoid'in olasılıkçı yorumu — niye lojistik fonksiyon
  4. Bradley-Terry türevi — sıfırdan, kalemiyle
  5. Ranking loss — log-likelihood maksimizasyonu
  6. Gradient akışı — model nasıl öğreniyor
  7. RM mimari kararları — separate model vs shared trunk
  8. Value head — son token mı, ortalama mı, learnable pooling mı
  9. Kalibrasyon sorunu — overconfidence ve önceliklendirme
  10. Plackett-Luce uzantısı — 4-li tercih sıralaması için
  11. Implementation: HuggingFace TRL ile — production-grade
  12. Türkçe RM eğitimi — pratik tuzaklar
  13. RM evaluation — held-out accuracy, calibration, inter-rater
  14. Egzersizler ve çözümleri — 10 problem

1. Reward Model'in İşi#

1.1 Giriş ve çıktı#

Reward model (RM), bir LLM cevabının ne kadar iyi olduğunu skalar bir sayıyla ifade eder.
Giriş: (prompt, response) çifti Çıktı: r ∈ ℝ (genelde -10 ile +10 arası)
Örnek:
  • prompt: 'Bir Türk kahvesi tarifi ver.'
  • response_A: 'Türk kahvesi yapımı: 1 yemek kaşığı kahve, su, şeker isteğe bağlı. Cezvede pişir.'
  • response_B: 'Türk kahvesini cezve içinde, fincan ölçüsüyle soğuk suyla yıkayarak hazırlarız. Karıştırmadan kısık ateşte kabarana dek pişiririz...'
RM çıktı:
  • r(A) = 1.2
  • r(B) = 3.8
B daha yüksek puan aldı çünkü daha detaylı, tutarlı, gelenekle uyumlu.

1.2 RM nasıl 'biliyor' iyi olanı?#

RM eğitilir. Eğitim verisi:
Dataset = [(prompt₁, response_A₁, response_B₁, tercih_edilen_1), (prompt₂, response_A₂, response_B₂, tercih_edilen_2), ...]
Her satırda: bir prompt, iki cevap, ve insan etiketleyicinin hangisini tercih ettiği (A veya B).
RM bu verilerden öğrenir: 'A'yı tercih edilen örneklerin paylaştığı pattern'ler ne?'

1.3 Niye skalar?#

RM'nin output'u tek sayı. Niye değil mesela vector?
Çünkü RL aşamasında (PPO) karşılaştırma değil gradyent sinyali gerekiyor. PPO her token üretildiğinde 'bu iyiydi mi, kötüydü mü?' soruyor. Cevap skalar sayı. Vector olsa, ağırlıklandırma sorunu çıkardı.

1.4 RM neden sıralama öğrenir, mutlak değer değil?#

İnsan 'iyi'ye sayı veremiyor. 'Bu cevap 7.3 puan' diye etiket veremezsin. Ama 'B, A'dan iyi' diyebilirsin.
Bu göreli bilgi, RM'i monoton bir fonksiyon olarak eğitmeye yetiyor — A < B ise r(A) < r(B). Mutlak değerin anlamı yok; sadece sıralama önemli.
Bu nokta kritik: RM'in
r(A) = 3.8
çıktısı 'A 3.8 puan iyi' demek değil. Sadece 'r(B) = 1.2 ise A, B'den iyi' demek.

2-3. Bradley-Terry 1952 — Basketbol'dan Doğan Matematik#

2.1 Tarihçe#

Ralph Allan Bradley ve Milton E. Terry 1952'de bir paper yayımladı: 'Rank Analysis of Incomplete Block Designs: I. The Method of Paired Comparisons'
Problem: 4 sporcu turnuva yapıyor. Hepsi birbirleriyle eşleşmedi (incomplete tournament). Maç sonuçlarından sporcu gücünü nasıl tahmin ederiz?
Veri:
  • A vs B: A kazandı (3 maç)
  • A vs C: C kazandı (2 maç)
  • B vs D: B kazandı (1 maç)
  • ...
Sıralama: A, B, C, D? Veya başka? Maç-bazlı doğrudan sayı vermek yetmez (örnek: A 2 maçta 1 kazanmış, B 4 maçta 3 kazanmış — kim daha iyi?).

2.2 Bradley-Terry modeli#

Her sporcuya bir gizli güç parametresi atayalım: π_A, π_B, π_C, π_D > 0.
İki sporcu eşleştiğinde, A'nın kazanma olasılığı:
P(A kazanır | A vs B) = π_A / (π_A + π_B)
Bu formül lojistik yapıdadır. Eşitse (π_A = π_B), olasılık 1/2. A çok güçlüyse (π_A >> π_B), olasılık ~1.

2.3 Log-skor temsili#

Güç parametresini log-skor olarak yeniden yazalım:
r_A = log(π_A) r_B = log(π_B)
O zaman:
P(A | A vs B) = e^{r_A} / (e^{r_A} + e^{r_B}) = 1 / (1 + e^{-(r_A - r_B)}) = σ(r_A - r_B)
İşte sigmoid! Bradley-Terry'nin RLHF'te kullandığımız hâli, tarihsel olarak 1952'den geliyor.

2.4 RLHF'te uyarlama#

Sporcu → cevap. Maç → karşılaştırma. Güç → reward model çıktısı.
P(A tercih edilir | prompt, A vs B) = σ(RM(prompt, A) - RM(prompt, B))
Bu denklem, RLHF reward model eğitiminin kalbi.

3.1 Sigmoid'in olasılıkçı yorumu#

Sigmoid: σ(x) = 1 / (1 + e^{-x}).
Özellikleri:
  • σ(0) = 0.5 (eşit)
  • σ(+∞) = 1 (kesin)
  • σ(-∞) = 0 (imkansız)
  • σ monoton artan, türevlenebilir
Niye sigmoid (başka bir fonksiyon değil)?
Çünkü Bradley-Terry'de güç oranı π_A/π_B doğal olarak
e^{r_A - r_B}
yapısında ve toplam 1'e normalize etmek için sigmoid çıkıyor. Türetilebilir matematiksel zorunluluk, ad hoc seçim değil.

4-6. Bradley-Terry Türevi ve Loss#

4.1 Tek bir gözlem için olasılık#

Veride bir satır:
  • prompt p
  • cevap A, cevap B
  • insan tercih etti: A
Bradley-Terry'ye göre, RM'in bu örnek için 'doğru olma olasılığı':
P(A tercih | p, A, B, RM) = σ(RM(p, A) - RM(p, B))
Bu olasılığı maksimize etmek istiyoruz (RM doğru sıralasın).

4.2 N gözlem için log-likelihood#

N adet karşılaştırmamız var. Hepsinde A_i tercih edilmiş (B_i reddedilmiş). Toplam likelihood:
L = ∏_{i=1}^N σ(RM(p_i, A_i) - RM(p_i, B_i))
Çarpım yerine log alalım (sayısal stabilite, optimize edilebilirlik):
log L = Σ_{i=1}^N log σ(RM(p_i, A_i) - RM(p_i, B_i))
Loss = -log L (minimize edilecek):
Loss = -Σ_{i=1}^N log σ(RM(p_i, A_i) - RM(p_i, B_i))
Bu RLHF reward model eğitiminin resmi loss fonksiyonu.

4.3 Sigmoid'in log'u#

log σ(x) = log(1 / (1 + e^{-x})) = -log(1 + e^{-x})
Bu yapı 'softplus' fonksiyonunun negatifi. Sayısal stabilite için PyTorch'ta
F.logsigmoid
kullanılır.

5.1 PyTorch implementasyon#

import torch import torch.nn.functional as F def rm_loss(rm_chosen, rm_rejected): # rm_chosen, rm_rejected: [batch_size] tensörleri # Her bir örnek için fark diff = rm_chosen - rm_rejected # Negatif log-sigmoid loss = -F.logsigmoid(diff).mean() return loss

5.2 Gradient sezgi#

Loss'un gradient'i:
∂L/∂RM(p, A_i) = -σ(-(RM(p, A_i) - RM(p, B_i))) = -(1 - σ(RM(p, A_i) - RM(p, B_i))) = σ(RM(p, B_i) - RM(p, A_i)) - 1 (yaklaşık)
Yani:
  • A çok yüksek puan alırsa (doğru): gradient küçük (model zaten doğru çıkarıyor)
  • A düşük puan alırsa (yanlış sıralama): gradient büyük (model yanlış, düzeltilmesi gerek)
Bu kendiliğinden adaptif bir yapı — kolay örnekleri hızla geçer, zor örneklere odaklanır.

6.1 Gradient akışı#

Loss → diff → RM(p, A_i), RM(p, B_i) üzerinden parametrelere gider. RM bir transformer, parametreleri attention + FFN ağırlıkları. Standart geri yayılım.

6.2 Margin trick (opsiyonel)#

Loss'a margin eklenebilir (sıralama daha güvenli olsun diye):
Loss = -Σ log σ(RM(p, A) - RM(p, B) - m)
m = 0.5 gibi sabit. A'nın B'den m kadar daha yüksek olması beklenir. Pratikte: bazı RLHF setup'larında işe yarıyor, çoğunda nötr. Llama-3-Instruct RM eğitiminde m=0 (default).

7-8. RM Mimari Kararları#

7.1 İki ana yaklaşım#

(A) Separate RM: tamamen ayrı transformer model.
  • Pro: SFT model'den bağımsız, RM evaluation kolay.
  • Con: 2x compute (training time hem SFT hem RM eğitiyor).
(B) Shared trunk + value head: SFT model gövdesinin üzerine küçük bir linear head ekle.
  • Pro: 1x compute, parameters paylaşılıyor, hızlı RM eğitimi.
  • Con: SFT performansı bozulabilir, head'i dondurman gerekebilir.

7.2 Modern tercih: Shared trunk#

Llama-3, GPT-4, Claude pretty much hepsi shared trunk + value head kullanıyor. Compute ekonomisi belirleyici.

7.3 Value head detayları#

class RewardModel(nn.Module): def __init__(self, base_model): super().__init__() self.base = base_model # SFT model (Llama-3-8B) self.value_head = nn.Linear(base_model.config.hidden_size, 1) def forward(self, input_ids, attention_mask): # Base model'in son hidden state'ini al outputs = self.base(input_ids=input_ids, attention_mask=attention_mask, output_hidden_states=True) last_hidden = outputs.hidden_states[-1] # [batch, seq_len, hidden] # Son anlamlı token'ın hidden'ini al last_token_indices = attention_mask.sum(dim=1) - 1 last_token_hidden = last_hidden[torch.arange(last_hidden.size(0)), last_token_indices] # Skalar reward reward = self.value_head(last_token_hidden).squeeze(-1) # [batch] return reward

7.4 Pooling kararı#

Hangi token'ın hidden state'inden reward çıkartalım?
Seçenekler:
  • Son token (en yaygın): generation'ın sonu, modelin 'son sözü'.
  • Mean pooling: tüm token'ların ortalaması.
  • Max pooling: en yüksek hidden değer.
  • Learnable pooling: ek bir attention layer ile öğrenilen ağırlık.
Llama-3 RM, Anthropic Claude RM — hepsi 'son token' kullanıyor. En basit, en yaygın.

8.1 Niye son token?#

Decoder-only model'de causal attention. Her token önceki tüm token'ları görür. Son token tüm cevabı 'özetler'. Bu sezgisel çözüm, empirik olarak en iyi sonucu veriyor.
İstisna: encoder-decoder modeller (T5 tarzı) — onlar mean pooling kullanır.

9. Kalibrasyon Sorunu#

9.1 Kalibre olmak ne demek?#

RM, prompt + cevap'a skalar veriyor. Bu skalar, gerçek insan tercih olasılığını yansıtıyor mu?
Kalibre RM:
  • r_A - r_B = 0 ise → %50 insan A'yı tercih etmeli (gerçekte)
  • r_A - r_B = 1 ise → %73 insan A'yı tercih etmeli
  • r_A - r_B = 2 ise → %88 insan A'yı tercih etmeli
  • r_A - r_B = 5 ise → %99+
(σ(1) ≈ 0.73, σ(2) ≈ 0.88)
Kalibrasyon = bu eşleşmenin doğru olması.

9.2 Overconfidence problemi#

RM'ler eğitim sonrası genelde overconfident olur:
  • Eğitim'de gördüğü pattern'lerde aşırı emin (gerçek olasılık %70 ama RM σ(3) = %95 diyor)
  • Eğitim dışı durumlarda hâlâ yüksek puan veriyor (bilmediği şeye 'kesin doğru' diyor)
Bu, RL aşamasında reward hacking kapısı.

9.3 Kalibrasyon ölçümü#

Reliability diagram:
  1. Test setinde her örnek için r_A - r_B hesapla
  2. Bu farkı 10 bin'e ayır (-3 ile +3 arası)
  3. Her bin için: 'σ(orta nokta) ne diyor?' vs 'gerçek %A tercih oranı'
  4. Çizgi grafik. Diagonal'a yakınsa kalibre.
Llama-3 RM kalibrasyonu: orta seviye bir bin'lerde iyi, uç bin'lerde overconfident. Pratikte bunu fix etmek için temperature scaling uygulanır.

9.4 Türkçe RM'in özel zorluğu#

Türkçe karşılaştırma verisi az → RM eğitimi az veri ile → daha fazla overconfidence riski.
Çözüm: Inter-rater agreement düşük olan örnekleri (insanlar arasında kararsızlık) eğitime dahil etme veya temperature scaling agresif uygulama.

10-11. Plackett-Luce ve Implementation#

10.1 İkili karşılaştırma yerine sıralama#

Klasik Bradley-Terry: 2 cevap arasında tercih. Modern RM eğitimi bazen 4-li sıralama kullanır:
  • prompt için 4 cevap üret (farklı temperature, model, sampling)
  • İnsan etiketleyici sıralasın: A > C > B > D
  • 4!= 24 farklı sıralama mümkün; insan en iyi 4-permütasyon seçer
Bu daha bilgi yoğun: tek karşılaştırma yerine 6 ikili (4 seç 2) bilgi.

10.2 Plackett-Luce modeli#

Bradley-Terry'nin N elemana genelleştirilmiş hâli. 4 cevap, sıralama A>B>C>D için:
P(A>B>C>D) = (π_A / (π_A+π_B+π_C+π_D)) × (π_B / (π_B+π_C+π_D)) × (π_C / (π_C+π_D))
Reward terimleriyle:
Loss = -log[σ(r_A - logsumexp(r_B, r_C, r_D))] - log[σ(r_B - logsumexp(r_C, r_D))] - log[σ(r_C - r_D)]
Genelleştirilmiş ranking loss.

10.3 Pratik karşılaştırma#

  • İkili karşılaştırma: 1 etiketlemeye 1 birim bilgi
  • 4-li sıralama: 1 etiketlemeye 6 birim bilgi (4 seç 2)
  • Etiketleyici süresi: ikili 30sn, 4-li ~90sn (3x)
  • Bilgi verimliliği: ikili 1/30 = 0.033 birim/sn, 4-li 6/90 = 0.067 birim/sn (2x daha verimli)
DeepSeek, Anthropic gibi büyük şirketler 4-li sıralama tercih ediyor. Türkçe için: hangisini seçeceğin etiketleyici niteliğine bağlı — uzman etiketleyici ise 4-li, kısa ücret çalışan ise ikili.

11.1 HuggingFace TRL ile RM eğitimi#

from trl import RewardTrainer, RewardConfig from transformers import AutoModelForSequenceClassification, AutoTokenizer model = AutoModelForSequenceClassification.from_pretrained( 'sukruyusufkaya/llama-3-8b-tr-instruct', num_labels=1, # Reward = skalar ) tokenizer = AutoTokenizer.from_pretrained('sukruyusufkaya/llama-3-8b-tr-instruct') # Karşılaştırma datasetini yükle # format: {'chosen': '...', 'rejected': '...'} from datasets import load_dataset dataset = load_dataset('sukruyusufkaya/tr-preference-50k', split='train') config = RewardConfig( output_dir='./rm-tr', learning_rate=1e-5, per_device_train_batch_size=4, num_train_epochs=1, bf16=True, logging_steps=10, ) trainer = RewardTrainer( model=model, tokenizer=tokenizer, train_dataset=dataset, args=config, ) trainer.train()

11.2 Eğitim için pratik öneriler#

  • Düşük lr: 1e-5 ile 5e-5 arası. SFT lr'inden 5x küçük.
  • 1 epoch: overfitting'i kolay, fazla epoch zarar verir.
  • Batch size: 4-16, GPU memory'ye göre.
  • Held-out validation: %5-10'unu eğitim dışı tut, accuracy ölç.
  • Early stopping: validation accuracy düşmeye başlarsa dur.

12-13. Türkçe RM Pratik Tuzaklar + Evaluation#

12.1 Türkçe RM'in en sık 5 hatası#

Hata 1: Düzgün hatalı çeviri ödüllendirme Etiketleyici Türkçesi orta seviyedeyse, gramerli ama anlamı kayık cevabı 'profesyonel' diye tercih ediyor. RM bunu öğreniyor. Çözüm: ana dil Türkçesi olan etiketleyici şart.
Hata 2: Çevirilmiş hissi veren cevabı tercih etme İngilizce-temelli model'in 'literal' çevirileri ('İlk olarak, bunu yapın' tarzı sözcüksel çeviri) doğal Türkçeden ayırt edilmiyorsa, RM bu tarzı pekiştiriyor. Türkçeyi 'sağlamayı' bilen etiketleyici lazım.
Hata 3: Verbosity bias Türkçede daha keskin Türkçe etiketleyiciler İngilizce'den daha çok 'uzun cevap = iyi cevap' eğilimli (kültürel). RM aşırı verbositive olur. Çözüm: kısa-ama-doğru cevaplara özel ödül.
Hata 4: 'Çok kibar = iyi' yanlışı Türkçede aşırı kibar/resmi cevap, gerçek bilgi vermekten kaçınma olabilir. 'Maalesef bu konuda kesin bir cevap veremem' — kibar ama yardımsız. RM bunu yüksek puanlamamalı.
Hata 5: Argo/şive görmezden gelme Türkçe etiketleyici 'standart İstanbul Türkçesi'ne aşırı önyargılı olursa, Karadeniz, Doğu, Ege ifadeleri düşük puanlanır. Model bu lehçelere karşı 'kaba' davranır. Çeşitlilik şart.

13.1 RM evaluation: 3 metrik#

Held-out accuracy:
  • Test setinin %10'unu eğitime dahil etme
  • RM tahmini hangi cevabı tercih ediyor — doğru mu?
  • Hedef: ≥%70. Türkçe için %65-70 makul.
Reliability diagram (kalibrasyon):
  • r_A - r_B vs gerçek tercih oranı
  • Diagonal yakın = kalibre
Inter-rater agreement floor:
  • Aynı tercihi 3 farklı insan etiketlerse, kaç sefer hemfikir?
  • Bu RM'in üst tavanını gösterir. İnsanlar %70 anlaşıyorsa, RM en fazla %70'e ulaşabilir.

13.2 Türkçe için empirik#

Trendyol-LLM ve Cosmos-LLaMa açık RM benchmarks'lar yok. Tahmini: %60-68 held-out accuracy, kalibrasyon orta. İyileştirme alanı çok.

13.3 RM çıktısını izleme#

Eğitim sırasında:
  • Loss kararlı düşüyor mu?
  • Held-out accuracy iyileşiyor mu (her 100 step'te ölç)?
  • Reward magnitudes mantıklı mı (ortalama 0, std 1-3 arası)?
  • Reward dağılımı dejenere mi (hepsi sıfıra yakın veya hepsi büyük)?
Bu sinyallerden biri kötüyse — durdur, hatayı bul.

14. Egzersizler#

E1. Bradley-Terry modelinde A vs B karşılaştırmasında π_A = 4, π_B = 1. A'nın kazanma olasılığı kaç? Aynısı reward formatında: r_A = log(4), r_B = log(1). σ(r_A - r_B) hesabla.
E2. RM eğitimi sırasında loss düşmüyor. Üç olası sebep ne? Her birini test etmek için ne yapardın?
E3. Niye RM'in son token'ının hidden state'ini kullanıyoruz? Mean pooling daha iyi olmaz mıydı? İki argüman ver — ikisini de düşün.
E4. Plackett-Luce loss'unu yazarken
logsumexp(r_B, r_C, r_D)
kullanılıyor. Niye
log(exp(r_B) + exp(r_C) + exp(r_D))
direkt kullanılmıyor? (İpucu: sayısal stabilite)
E5. RM accuracy held-out %68. İnter-rater agreement %72. RM 'iyi' mi? Argümanını detaylandır.
E6. Kalibrasyonu ölçtün: r_A - r_B = 2 olan örneklerde gerçek tercih oranı %75. RM hangi yönde miskalibre? Düzeltmek için temperature scaling katsayısı ne olmalı (sezgisel)?
E7. Türkçe için 10K karşılaştırma topluyorsun. Şu dağılımı düşün: %60 genel, %30 tarafsız (yardım istekleri), %10 hassas (politik, dini). Buradaki sorun ne? Daha iyi dağılım nasıl olur?
E8. RM eğitimi sırasında bir karşılaştırmada A çok uzun (3000 kelime), B kısa (50 kelime). Etiketleyici A'yı tercih etti. Bu örnek RM'e ne öğretiyor? Veride başka 1000 örnek aynı pattern'de olsa, RM'in 'verbosity bias' davranışı nasıl gelişir?
E9. Llama-3-8B (8B params) tabanlı RM eğitiyorsun. Eğitim memory hesabı: parametreler + gradient + optimizer state + activations. Quantitatif tahmin et (bf16 varsayımıyla).
E10. RM accuracy %75 (yüksek), ama RL (PPO) aşamasında model garip cevaplar üretiyor (verbosity, hallucination). RM'i nasıl debug edersin? Üç somut adım yaz.
✅ Ders 15.2 Özeti — Reward Model Matematiği
Reward model, RLHF'in vicdanı — insan tercihinin sayısal yaklaşımı. Bradley-Terry 1952 logistik tercih modeli, sigmoid'in olasılıkçı yorumu, ranking loss = -log σ(r_chosen - r_rejected). Modern mimari: shared trunk + value head (son token hidden → linear → skalar). Plackett-Luce 4-li sıralama için genelleme — bilgi yoğunluğu 2x. Kalibrasyon ve overconfidence sorunu — RL hacking kapısı. Türkçe RM pratik tuzaklar: verbosity bias keskin, çevirilmiş hissi, kibarlık-yardımsızlık karışımı. 10K karşılaştırma + dengeli dağılım ile production-grade Türkçe RM mümkün. Sonraki ders: PPO. Reward model'i kullanarak modeli güncelleme — algoritmanın matematiği.

Sonraki Ders: PPO Algoritması Satır Satır#

Ders 15.3 — Schulman 2017 PPO'nun klasik RL'den, LLM RL'ine uyarlanması. Policy ve value loss türetilmesi, KL penalty matematiği, clipping mekanizması, advantage estimation (GAE). Niye PPO 'proximal'? Niye 'clip'? Türkçe RM ile production PPO. Sonra 15.4'te DPO devrim — bu üç ders'in matematiğini tek bir loss fonksiyonuna damıtıyor.

Frequently Asked Questions

Modern practice: **same transformer + extra value head**. SFT model's trunk (attention + FFNs) shared, just add small linear projection outputting scalar at the end. This halves training cost. Old approach (Christiano 2017, Stiennon 2020) used completely separate model — shared trunk became standard after Llama-2. Llama-3-Instruct, Mistral-Instruct, Claude — all use shared trunk + value head.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content