Kavram SözlüğüÜretken Yapay Zekâ ve LLM
Ödül Modeli
Model çıktılarının ne kadar tercih edilir olduğunu tahmin ederek hizalama sürecine sinyal sağlayan yardımcı model.
Ödül modeli, RLHF benzeri hizalama süreçlerinde hangi çıktının daha iyi olduğuna dair öğrenilmiş değerlendirme mekanizmasıdır. İnsan tercihlerini sürekli eğitim sinyaline dönüştürür. Ancak ödül modelinin yanlı veya kırılgan olması, hizalama sürecinin tamamını etkileyebilir. Bu nedenle kritik ama hassas bir bileşendir.
İlginizi Çekebilir
Yapay zeka yolculuğunuza devam etmek için bu kavramlara da göz atabilirsiniz.
