İçeriğe geç
Kavram SözlüğüÜretken Yapay Zekâ ve LLM

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme

Model çıktısını insan tercihleriyle uyumlu hale getirmek için ödül sinyali kullanan alignment yaklaşımı.

RLHF, büyük dil modellerinin sadece olası metin üretmekten daha yararlı ve daha kabul edilebilir yanıtlar vermesine yardımcı olur. İnsan tercihleri doğrudan veya dolaylı olarak ödül yapısına çevrilir ve model bu yapıyla hizalanır. Modern LLM davranışının kullanıcı dostu hale gelmesinde önemli rol oynamıştır.