İçeriğe geç
Kavram SözlüğüBilgisayarlı Görü

Video Transformer

Video verisini zaman ve uzam boyunca tokenlaştırarak dikkat mekanizmalarıyla modelleyen modern mimari yaklaşım.

Video Transformer yapıları, CNN tabanlı video modellemenin ötesine geçerek uzun menzilli uzamsal-zamansal ilişkileri dikkat mekanizmalarıyla öğrenir. Bu yaklaşım özellikle karmaşık eylem dizileri, uzun video bağlamı ve küresel sahne etkileşimleri için güçlü olabilir. Ancak hesaplama maliyeti ve bağlam uzunluğu yönetimi bu alandaki temel zorluklardır.