İçeriğe geç
Kavram SözlüğüÜretken Yapay Zekâ ve LLM

Ödül Modeli

Model çıktılarının ne kadar tercih edilir olduğunu tahmin ederek hizalama sürecine sinyal sağlayan yardımcı model.

Ödül modeli, RLHF benzeri hizalama süreçlerinde hangi çıktının daha iyi olduğuna dair öğrenilmiş değerlendirme mekanizmasıdır. İnsan tercihlerini sürekli eğitim sinyaline dönüştürür. Ancak ödül modelinin yanlı veya kırılgan olması, hizalama sürecinin tamamını etkileyebilir. Bu nedenle kritik ama hassas bir bileşendir.