Çok Modlu Grounding

EN: Multimodal Grounding

Tek Cümlede

Dilsel ifadeleri görüntü içindeki doğru bölge, nesne veya görsel yapıyla eşleme süreci.

Çok modlu grounding, bir modelin "kırmızı çanta", "soldaki kişi" veya "masanın üzerindeki bardak" gibi ifadeleri görüntü içinde gerçekten nereye bağladığını belirler. Bu yetenek, görsel soru cevaplama, robot komutları, etkileşimli arayüzler ve çok modlu ajan sistemleri için kritiktir. Dilin görsel gerçeklikle doğru bağlanması, çok modlu zekânın en temel gerekliliklerinden biridir.

İlginizi Çekebilir

Yapay zeka yolculuğunuza devam etmek için bu kavramlara da göz atabilirsiniz.

Aksiyon Öngörüsü

Henüz tamamlanmamış bir video akışından gelecekte gerçekleşecek eylemi önceden tahmin etmeye çalışan görev.

Aksiyon Tanıma

Video içindeki insan veya nesne hareketlerinden belirli eylem sınıflarını tanımaya odaklanan görev.

Anchor Box

Farklı ölçek ve oranlardaki hazır kutu adaylarını kullanarak nesne tespitini kolaylaştıran tasarım yaklaşımı.

İncele

Tümünü Gör