İçeriğe geç
Kavram SözlüğüDerin Öğrenme

Multi-Head Attention

Dikkat işlemini birden fazla alt uzayda paralel yürüterek farklı ilişki türlerini öğrenen yapı.

Multi-head attention, tek bir dikkat haritasına bağlı kalmak yerine farklı dikkat başlıklarıyla farklı ilişki örüntülerini aynı anda öğrenmeyi sağlar. Bazı başlıklar yakın bağlamı, bazıları daha uzun bağımlılıkları veya farklı semantik ilişkileri yakalayabilir. Bu çoğulluk, Transformer modellerinin temsil gücünü ciddi biçimde artırır. Modern dil ve çok modlu modellerde standart mimari bileşen haline gelmiştir.