İçeriğe geç
Kavram SözlüğüDerin Öğrenme

Transformer Feed-Forward Network

Her token üzerinde bağımsız çalışan ve temsil dönüşümünü güçlendiren Transformer alt bloğu.

Transformer içindeki feed-forward network, dikkat mekanizmasının tek başına yapmadığı token içi doğrusal olmayan dönüşümleri sağlar. Genellikle iki doğrusal katman ve bir aktivasyon fonksiyonundan oluşur. Her token üzerinde bağımsız çalışsa da toplam model kapasitesinde büyük pay sahibidir. Büyük dil modellerinde parametrelerin önemli bölümü bu alt yapıda bulunur.