Kavram SözlüğüÜretken Yapay Zekâ ve LLM
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme
Model çıktısını insan tercihleriyle uyumlu hale getirmek için ödül sinyali kullanan alignment yaklaşımı.
RLHF, büyük dil modellerinin sadece olası metin üretmekten daha yararlı ve daha kabul edilebilir yanıtlar vermesine yardımcı olur. İnsan tercihleri doğrudan veya dolaylı olarak ödül yapısına çevrilir ve model bu yapıyla hizalanır. Modern LLM davranışının kullanıcı dostu hale gelmesinde önemli rol oynamıştır.
İlginizi Çekebilir
Yapay zeka yolculuğunuza devam etmek için bu kavramlara da göz atabilirsiniz.
