İçeriğe geç
Kavram SözlüğüBilgisayarlı Görü

Vision Transformer Özellikleri

Görüntüyü yama tabanlı tokenlara ayırarak küresel dikkat üzerinden temsil öğrenen modern görsel özellik yapısı.

Vision Transformer tabanlı özellikler, CNN dışındaki temsil öğrenme paradigmasının en etkili örneklerinden biridir. Görüntü, sabit boyutlu yamalara ayrılır ve bu yamalar token benzeri biçimde işlenir. Bu yaklaşım özellikle küresel bağlam ilişkilerini öğrenmekte güçlüdür. Son yıllarda sınıflandırma, segmentasyon ve çok modlu sistemlerde standart hale gelen güçlü bir temsil ailesi oluşturmuştur.