Kavram SözlüğüBilgisayarlı Görü
Çok Modlu Grounding
Dilsel ifadeleri görüntü içindeki doğru bölge, nesne veya görsel yapıyla eşleme süreci.
Çok modlu grounding, bir modelin "kırmızı çanta", "soldaki kişi" veya "masanın üzerindeki bardak" gibi ifadeleri görüntü içinde gerçekten nereye bağladığını belirler. Bu yetenek, görsel soru cevaplama, robot komutları, etkileşimli arayüzler ve çok modlu ajan sistemleri için kritiktir. Dilin görsel gerçeklikle doğru bağlanması, çok modlu zekânın en temel gerekliliklerinden biridir.
İlginizi Çekebilir
Yapay zeka yolculuğunuza devam etmek için bu kavramlara da göz atabilirsiniz.
