Vision Transformer Özellikleri

EN: Vision Transformer Features

Tek Cümlede

Görüntüyü yama tabanlı tokenlara ayırarak küresel dikkat üzerinden temsil öğrenen modern görsel özellik yapısı.

Vision Transformer tabanlı özellikler, CNN dışındaki temsil öğrenme paradigmasının en etkili örneklerinden biridir. Görüntü, sabit boyutlu yamalara ayrılır ve bu yamalar token benzeri biçimde işlenir. Bu yaklaşım özellikle küresel bağlam ilişkilerini öğrenmekte güçlüdür. Son yıllarda sınıflandırma, segmentasyon ve çok modlu sistemlerde standart hale gelen güçlü bir temsil ailesi oluşturmuştur.

İlginizi Çekebilir

Yapay zeka yolculuğunuza devam etmek için bu kavramlara da göz atabilirsiniz.

Aksiyon Öngörüsü

Henüz tamamlanmamış bir video akışından gelecekte gerçekleşecek eylemi önceden tahmin etmeye çalışan görev.

Aksiyon Tanıma

Video içindeki insan veya nesne hareketlerinden belirli eylem sınıflarını tanımaya odaklanan görev.

Additive Attention

Sorgu ve bağlam temsillerini öğrenilebilir bir birleşim fonksiyonu ile karşılaştıran erken dönem dikkat yaklaşımı.

İncele

Tümünü Gör