İçeriğe geç
Kavram SözlüğüÜretken Yapay Zekâ ve LLM

Multimodal Transformer

Metin, görsel, ses veya video gibi farklı veri türlerini ortak attention mimarisi içinde işleyen model tasarımı.

Multimodal Transformer, farklı modaliteler arasındaki ilişkiyi ortak temsil alanında öğrenmeyi amaçlar. Bu yapı, birden fazla veri türünden gelen bağlamsal sinyalleri birleştirerek daha zengin muhakeme ve üretim yeteneği sunar. Çok modlu ajan sistemleri ve birleşik foundation model vizyonu için merkezi rol oynar.