Ödül Modeli

EN: Reward Model

Tek Cümlede

Model çıktılarının ne kadar tercih edilir olduğunu tahmin ederek hizalama sürecine sinyal sağlayan yardımcı model.

Ödül modeli, RLHF benzeri hizalama süreçlerinde hangi çıktının daha iyi olduğuna dair öğrenilmiş değerlendirme mekanizmasıdır. İnsan tercihlerini sürekli eğitim sinyaline dönüştürür. Ancak ödül modelinin yanlı veya kırılgan olması, hizalama sürecinin tamamını etkileyebilir. Bu nedenle kritik ama hassas bir bileşendir.

İlginizi Çekebilir

Yapay zeka yolculuğunuza devam etmek için bu kavramlara da göz atabilirsiniz.

Tümünü Gör

SÖZLÜK

🤖

uretken-yapay-zeka-ve-llm

Çekimser Kalma

Modelin emin olmadığı durumlarda kesin yanıt uydurmak yerine yanıt vermemeyi veya belirsizlik bildirmeyi seçmesi.

İncele

SÖZLÜK

🤖

uretken-yapay-zeka-ve-llm

Adapter Katmanları

Ana modelin içine küçük ek modüller yerleştirerek görev uyarlaması sağlayan parametre verimli yaklaşım.

Additive Attention

Sorgu ve bağlam temsillerini öğrenilebilir bir birleşim fonksiyonu ile karşılaştıran erken dönem dikkat yaklaşımı.

İncele

Tümünü Gör