Kavram SözlüğüÜretken Yapay Zekâ ve LLM
Ödül Modeli
EN: Reward Model
Tek Cümlede
Model çıktılarının ne kadar tercih edilir olduğunu tahmin ederek hizalama sürecine sinyal sağlayan yardımcı model.
Ödül modeli, RLHF benzeri hizalama süreçlerinde hangi çıktının daha iyi olduğuna dair öğrenilmiş değerlendirme mekanizmasıdır. İnsan tercihlerini sürekli eğitim sinyaline dönüştürür. Ancak ödül modelinin yanlı veya kırılgan olması, hizalama sürecinin tamamını etkileyebilir. Bu nedenle kritik ama hassas bir bileşendir.
İlginizi Çekebilir
Yapay zeka yolculuğunuza devam etmek için bu kavramlara da göz atabilirsiniz.
