Kavram SözlüğüDerin Öğrenme
Pre-Norm Transformer
Normalization katmanını ana dikkat veya FFN bloğundan önce konumlandıran Transformer tasarım varyantı.
Pre-norm Transformer, özellikle derin ölçekli eğitimde kararlı gradyan akışı sağlamak için önemli hale gelmiştir. Layer normalizationın blok öncesine alınması, bazı mimarilerde optimizasyonu daha güvenilir kılabilir. Büyük dil modellerinin çoğunda bu tasarım tercih edilir. Transformer başarısının yalnızca dikkat mekanizmasından değil, ince mimari düzenlerden de etkilendiğini gösterir.
İlginizi Çekebilir
Yapay zeka yolculuğunuza devam etmek için bu kavramlara da göz atabilirsiniz.
