İçeriğe geç
Kavram SözlüğüÜretken Yapay Zekâ ve LLM

Doğrudan Tercih Optimizasyonu

Tercih çiftlerinden doğrudan öğrenerek hizalama yapmayı hedefleyen daha sade alignment yaklaşımı.

DPO, klasik ödül modeli ve pekiştirmeli öğrenme zincirine göre daha doğrudan bir hizalama yöntemi sunar. İnsan veya sistem tercihleri çiftli karşılaştırmalar üzerinden modele aktarılır. Bu yapı, uygulamada daha kararlı ve daha kolay optimize edilebilir hizalama süreçleri sağlayabilir.