DPO Ailesi: SimPO + IPO + CPO + RPO + APO — 5 Varyantın Karar Matrisi

DPO ailesi 2023-2024'te genişledi: SimPO (Meng et al.) — length-normalized, IPO (Azar et al.) — overfit fix, CPO (Xu et al.) — KL ratio fix, RPO (Iterative) — online iterative, APO (anchored). Her birinin loss formula, hangi durumda hangisi, RTX 4090 hızlı karşılaştırma.

Şükrü Yusuf KAYA

30 dakikalık okuma

14.05.2026

İleri

DPO Ailesi: SimPO + IPO + CPO + RPO + APO — 5 Varyantın Karar Matrisi

1. 5 Varyant Tablo#

Method	Key Innovation	Loss Form
DPO (Rafailov 2023)	Implicit reward via π/π_ref	`-log σ(β·(log_ratio_w - log_ratio_l))`
IPO (Azar 2023)	Squared loss, no overfit	`(log_ratio_w - log_ratio_l - 1/(2β))²`
SimPO (Meng 2024)	Length-normalized, no ref	`-log σ(β · (1/
CPO (Xu 2024)	SFT + DPO joint	`L_SFT + L_DPO_simplified`
RPO (Pang 2024)	Online iterative SPIN-like	DPO + new pref pairs from current policy
APO (Kotzias 2024)	Anchored to gold	DPO + L2 anchor on chosen

Cookbook tavsiye:

Basit production → DPO (en yaygın, en sağlam)
Overfitting korkusu varsa → IPO
Reference model'i atmak isteyenler → SimPO (no ref model = memory tasarrufu)
SFT + alignment tek aşamada → CPO veya ORPO
Long-running online RL → RPO

2. SimPO Detayı#

SimPO (Meng et al. 2024):

L_SimPO = -log σ(β/|y_w| · log π(y_w) - β/|y_l| · log π(y_l) - γ)

Length-normalization (
/|y_w|
) — uzun cevap bias'ı bitirir
No reference model — memory ~40% tasarrufu
γ target margin — chosen ile rejected arası "minimum margin"
β = 2.0-2.5 sweet spot (DPO'dan farklı)
γ = 0.5-1.4

SimPO TRL'de

loss_type="simpo"

ile direkt:

cfg = DPOConfig(loss_type="simpo", beta=2.5, simpo_gamma=1.0, ...)

Sonuç: AlpacaEval 2.0'da DPO'yu geçtiği yer var; ama bazı setting'lerde DPO yine sağlam.

✅ Teslim

Aynı dataset üzerinde DPO, IPO, SimPO koş. 2) MT-Bench-TR'da karşılaştır. 3) Sonraki ders: 11.7 — GRPO (DeepSeek-R1 Reçetesi).

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Part 0 — Engineering Foundations

Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı

Öğrenmeye Başla

Part 0 — Engineering Foundations

Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir

Öğrenmeye Başla

Part 0 — Engineering Foundations

Environment Pinning: uv + pyproject.toml, CUDA Version Matrix ve Container Reçeteleri

Öğrenmeye Başla