İçeriğe geç
Kavram SözlüğüDerin Öğrenme

Pre-Norm Transformer

Normalization katmanını ana dikkat veya FFN bloğundan önce konumlandıran Transformer tasarım varyantı.

Pre-norm Transformer, özellikle derin ölçekli eğitimde kararlı gradyan akışı sağlamak için önemli hale gelmiştir. Layer normalizationın blok öncesine alınması, bazı mimarilerde optimizasyonu daha güvenilir kılabilir. Büyük dil modellerinin çoğunda bu tasarım tercih edilir. Transformer başarısının yalnızca dikkat mekanizmasından değil, ince mimari düzenlerden de etkilendiğini gösterir.